1樓:
並不用考慮每乙個example, 對第i個feature,首先以feature i 為key sort(feature_i, label_i)然後將label 有變動的地方作為可能的劃分點,比如 label 為 [1,1,0,0,0,1]只需要考慮兩個地方即 [1,1]後面和[1,1,0,0,0]後面。
對於每乙個可能的劃分點可以求information gain 讓他最大,在求information gain 的時候可以用entropy 也可以用gini。
找到乙個中文的供參考:
機器學習經典演算法詳解及Python實現
2樓:無貓之徒
問題抽象
假設訓練樣本集合D中有n個樣本,考察對連續屬性a的最佳分段點/劃分點。
若屬性a在這n個樣本中有m個不同的取值(m<=n),對這m個值兩兩之間取中點,可獲得m-1個中點作為候選劃分點。
選擇過程
接下來的選擇最佳劃分點過程和離散屬性的虛選擇過程類似,以基尼係數或資訊增益作為度量,選擇使度量值最大的候選劃分點作為最佳劃分點。
3樓:陸恆
假設我把這0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那麼,我們就有5個離散化的範圍了,對每個分類點計算資訊增益,(也就是一共計算五次),取最大的乙個作為分段點
如何最簡單 通俗地理解決策樹演算法?
雲朵 決策樹 Decision tree 是一種基本的分類與回歸方法,是一種非引數的有監督學習方法。決策樹是一種樹狀結構,它的每乙個葉子結點對應著乙個分類,非葉子結點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值降氣劃分成若干個子集。其基本原理是通過遞迴切割的方法來尋找最佳分類標準,進而最終...
決策樹是如何處理不完整資料的?
已登出 機器學習 周志華 p85 88.2.C4.5 Programs for Machine Learning by J.Ross Quinlan 第三章都詳細解釋了決策樹 C4.5 如何處理缺失值。 bear23 在C4.5裡面,會對缺失值計算出乙個猜測值 它是各類在各個子樹中的分布概率折算出來...
如何證明有理數集的不連續性?
睎xii 在卓里奇版本的 數學分析 裡,實數集被定義為滿足四條公理的集合,其中的第四條 完備 連續 公理如果 與 是 的非空子集,且有性質 都有 那麼 有 作為公理,它引出乙個判斷數集完備 連續 性的方法,對於有理數集 只需要在上述公理中固定 即可。這條公理很容易引起理解上的錯誤,有些人人會誤以為是...