決策樹如何對連續性特徵進行分段？

1樓：

並不用考慮每乙個example, 對第i個feature，首先以feature i 為key sort（feature_i, label_i）然後將label 有變動的地方作為可能的劃分點，比如 label 為［1，1，0，0，0，1］只需要考慮兩個地方即［1，1］後面和［1，1，0，0，0］後面。

對於每乙個可能的劃分點可以求information gain 讓他最大，在求information gain 的時候可以用entropy 也可以用gini。

找到乙個中文的供參考：

機器學習經典演算法詳解及Python實現

2樓：無貓之徒

問題抽象

假設訓練樣本集合D中有n個樣本，考察對連續屬性a的最佳分段點/劃分點。

若屬性a在這n個樣本中有m個不同的取值(m<=n)，對這m個值兩兩之間取中點，可獲得m-1個中點作為候選劃分點。

選擇過程

接下來的選擇最佳劃分點過程和離散屬性的虛選擇過程類似，以基尼係數或資訊增益作為度量，選擇使度量值最大的候選劃分點作為最佳劃分點。

3樓：陸恆

假設我把這0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那麼，我們就有5個離散化的範圍了，對每個分類點計算資訊增益，（也就是一共計算五次），取最大的乙個作為分段點

如何最簡單通俗地理解決策樹演算法？

雲朵決策樹 Decision tree 是一種基本的分類與回歸方法，是一種非引數的有監督學習方法。決策樹是一種樹狀結構，它的每乙個葉子結點對應著乙個分類，非葉子結點對應著在某個屬性上的劃分，根據樣本在該屬性上的不同取值降氣劃分成若干個子集。其基本原理是通過遞迴切割的方法來尋找最佳分類標準，進而最終...

決策樹是如何處理不完整資料的？

已登出機器學習周志華 p85 88.2.C4.5 Programs for Machine Learning by J.Ross Quinlan 第三章都詳細解釋了決策樹 C4.5 如何處理缺失值。 bear23 在C4.5裡面，會對缺失值計算出乙個猜測值它是各類在各個子樹中的分布概率折算出來...

如何證明有理數集的不連續性？

睎xii 在卓里奇版本的數學分析裡，實數集被定義為滿足四條公理的集合，其中的第四條完備連續公理如果與是的非空子集，且有性質都有那麼有作為公理，它引出乙個判斷數集完備連續性的方法，對於有理數集只需要在上述公理中固定即可。這條公理很容易引起理解上的錯誤，有些人人會誤以為是...

決策樹如何對連續性特徵進行分段？

如何最簡單 通俗地理解決策樹演算法？

決策樹是如何處理不完整資料的？

如何證明有理數集的不連續性？

其他用戶還看了：

如何最簡單通俗地理解決策樹演算法？