為何稀疏特徵不適合使用樹演算法?

時間 2021-05-30 21:31:45

1樓:

沒有完全看懂題意,只能按照思路闡述一下。

其實onehot編碼對樹模型對意義不是很大,更多的時候是和邏輯回歸等線性模型配合。

從樹模型的原理上來理解,你做了onehot,假設獲取了乙個分類器叫做A1=0|A1=1,和原來的A=value1|A=value2,value3,並沒有本質性的區別。

優勢:1.把原來不同型別組合的遍歷變成了對onehot後特徵對遍歷,減小了計算量。

2.在隨機森林或GBDT等演算法中,如果限制了特徵出現的最大次數,這個是有一定意義的,把特徵的重要性分配到多個特徵上.

劣勢:1.在隨機森林上會產生由於onehot帶來無效特徵導致部分子樹區分效果下降的現象。

至於所謂的存在三個最佳劃分的問題,我覺得就更不重要了,樹模型會自動解決這個問題,隨機選乙個對模型結果也沒多大影響啊。

樹模型欠缺在不同特徵的線性或非線性組合上,這樣的變換才是有意義的,例如傾斜樹,可以解決樹深度過大的問題。

馮天恆:二、運算子的構造和選取——特徵工程

這裡有些東西可能可以解決你的部分疑惑。

那些人不適合使用記憶枕?

LIU HABA 嚴重頸椎病患者不適合使用枕頭,輕微頸椎病影響失眠的患者可以使用記憶枕頭。推薦美國backjoy動態平衡枕,這款枕頭在美國脊柱協會得到認證推薦,目前所在的工作地方的一部分病患正在使用這款枕頭, 飯特濃 記憶枕適合三種情況下使用 1 不良的睡姿不良的睡眠體位因其持續時間長及在大腦處於休...

為什麼堆排序演算法不適合用鏈式儲存結構?

起風了 堆排序所需要的資料結構二叉堆 最大堆 最小堆 本質上是一顆完全二叉樹,完全二叉樹適合採用順序儲存結構 陣列 因為,同時又可以最大限度的節省儲存空間,而鏈式儲存在儲存完全二叉樹時反而不合適了,因為反映邏輯關係的指標實際上浪費了大量儲存空間 相比較陣列儲存完全二叉樹來說 而對於普通的二叉樹,陣列...

不適合談戀愛的人都有哪些特徵?或者談戀愛以後有什麼表現?

日常沙雕小仙男 ummmmmmm這麼多人都寫自我中心的,我寫個不一樣的看法吧 說實話我覺得我自己就很不適合談戀愛,太自卑太抑鬱了,在別人眼裡的開心果一開始談戀愛就整個人患得患失 害怕對方是不是喜歡我,到底有多喜歡我,我這麼差勁他為什麼要喜歡我,萬一他其實不是那麼喜歡我是我一廂情願怎麼辦 就陷入這種沒...