2.1.14.1.Introduction of tree methods
Previous2.1.14.Decision trees and random forestsNext2.1.14.2.Decision trees and Random Forests with Python
Last updated
Last updated
會使用決策樹的例子
有一位打球的朋友, 有時會出現而有時不會, 導致他不會出現的因素有很多, 例如天氣, 溫度, 濕度等
於是我們想找出這些因素與最後對方是否會出現
利用這些因素的資料來預測對方是否會出現, 方法之一就是使用決策樹
決策樹
Nodes
因為某Attribute的值而分割 (split)
Edges
Next node的輸出值
Root
第一個split的node
Leaves
做預測的Terminal node
Best split
在資料中最能夠左右結果的因子
Entropy, information gain
可以協助找出best split的數學指標
Random forest
Decision tree的缺點是無法趨向最佳的預測精度 (predictive accuracy)
使用一群隨機在每個split所找出的tree, 特性是變異度高
Random force
Bagging是一個常用來降低機器學習算法的變異數的方式, 通常是在所有的隨機樹(p)中挑選m顆
避免單一具領導性的feature造成樹之間的高度相關性
Refer to Chapter 8. Introduction to Statistical Learning