決策樹如何對連續性特徵進行分段?

時間 2021-06-03 05:52:50

1樓:

並不用考慮每乙個example, 對第i個feature,首先以feature i 為key sort(feature_i, label_i)然後將label 有變動的地方作為可能的劃分點,比如 label 為 [1,1,0,0,0,1]只需要考慮兩個地方即 [1,1]後面和[1,1,0,0,0]後面。

對於每乙個可能的劃分點可以求information gain 讓他最大,在求information gain 的時候可以用entropy 也可以用gini。

找到乙個中文的供參考:

機器學習經典演算法詳解及Python實現

2樓:無貓之徒

問題抽象

假設訓練樣本集合D中有n個樣本,考察對連續屬性a的最佳分段點/劃分點。

若屬性a在這n個樣本中有m個不同的取值(m<=n),對這m個值兩兩之間取中點,可獲得m-1個中點作為候選劃分點。

選擇過程

接下來的選擇最佳劃分點過程和離散屬性的虛選擇過程類似,以基尼係數或資訊增益作為度量,選擇使度量值最大的候選劃分點作為最佳劃分點。

3樓:陸恆

假設我把這0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那麼,我們就有5個離散化的範圍了,對每個分類點計算資訊增益,(也就是一共計算五次),取最大的乙個作為分段點

如何最簡單 通俗地理解決策樹演算法?

雲朵 決策樹 Decision tree 是一種基本的分類與回歸方法,是一種非引數的有監督學習方法。決策樹是一種樹狀結構,它的每乙個葉子結點對應著乙個分類,非葉子結點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值降氣劃分成若干個子集。其基本原理是通過遞迴切割的方法來尋找最佳分類標準,進而最終...

決策樹是如何處理不完整資料的?

已登出 機器學習 周志華 p85 88.2.C4.5 Programs for Machine Learning by J.Ross Quinlan 第三章都詳細解釋了決策樹 C4.5 如何處理缺失值。 bear23 在C4.5裡面,會對缺失值計算出乙個猜測值 它是各類在各個子樹中的分布概率折算出來...

如何證明有理數集的不連續性?

睎xii 在卓里奇版本的 數學分析 裡,實數集被定義為滿足四條公理的集合,其中的第四條 完備 連續 公理如果 與 是 的非空子集,且有性質 都有 那麼 有 作為公理,它引出乙個判斷數集完備 連續 性的方法,對於有理數集 只需要在上述公理中固定 即可。這條公理很容易引起理解上的錯誤,有些人人會誤以為是...