CtrlK

2.1.14.1.Introduction of tree methods

1.Introduction

會使用決策樹的例子
- 有一位打球的朋友, 有時會出現而有時不會, 導致他不會出現的因素有很多, 例如天氣, 溫度, 濕度等
- 於是我們想找出這些因素與最後對方是否會出現
- 利用這些因素的資料來預測對方是否會出現, 方法之一就是使用決策樹
決策樹
- Nodes
  - 因為某Attribute的值而分割 (split)
- Edges
  - Next node的輸出值
- Root
  - 第一個split的node
- Leaves
  - 做預測的Terminal node

2.分割背後的直覺

Best split
- 在資料中最能夠左右結果的因子
Entropy, information gain
- 可以協助找出best split的數學指標
Random forest
- Decision tree的缺點是無法趨向最佳的預測精度 (predictive accuracy)
- 使用一群隨機在每個split所找出的tree, 特性是變異度高
- Random force
  - Bagging是一個常用來降低機器學習算法的變異數的方式, 通常是在所有的隨機樹(p)中挑選m顆
  - 避免單一具領導性的feature造成樹之間的高度相關性

3.參考資料

Refer to Chapter 8. Introduction to Statistical Learning

Previous2.1.14.Decision trees and random forests Next2.1.14.2.Decision trees and Random Forests with Python

Last updated 5 years ago

Was this helpful?