2.1.14.1.Introduction of tree methods

1.Introduction

  • 會使用決策樹的例子

    • 有一位打球的朋友, 有時會出現而有時不會, 導致他不會出現的因素有很多, 例如天氣, 溫度, 濕度等

    • 於是我們想找出這些因素與最後對方是否會出現

    • 利用這些因素的資料來預測對方是否會出現, 方法之一就是使用決策樹

  • 決策樹

    • Nodes

      • 因為某Attribute的值而分割 (split)

    • Edges

      • Next node的輸出值

    • Root

      • 第一個split的node

    • Leaves

      • 做預測的Terminal node

2.分割背後的直覺

  • Best split

    • 在資料中最能夠左右結果的因子

  • Entropy, information gain

    • 可以協助找出best split的數學指標

  • Random forest

    • Decision tree的缺點是無法趨向最佳的預測精度 (predictive accuracy)

    • 使用一群隨機在每個split所找出的tree, 特性是變異度高

    • Random force

      • Bagging是一個常用來降低機器學習算法的變異數的方式, 通常是在所有的隨機樹(p)中挑選m顆

      • 避免單一具領導性的feature造成樹之間的高度相關性

3.參考資料

  • Refer to Chapter 8. Introduction to Statistical Learning

Last updated

Was this helpful?