LR,gbdt,libfm這三種模型分別適合處理什麼型別的特徵,為了取得較好效果他們對特徵有何要求?

時間 2021-05-06 17:55:22

1樓:

GBDT容易因為訓練集中個別樣本的某個稀疏feature與y的偶然關係,擬合到雜訊(用某一特徵將訓練集分至類別單一的葉子結點,無法再分)

LR每次隨機選擇batch個樣本對w優化,特徵=0(xi),則梯度=0,實則是用特徵i不為0的樣本對wi梯度下降。如果特徵稀疏,則下降次數也少,不容易過度擬合。

2樓:yymWater

本人在公司參與迭代同乙個機器學習問題持續優化快兩年,談一下自己的經驗。

一、特徵適用

2、LR模型屬於線性模型。模型簡單,可以引入海量離散特徵。這樣的好處就是模型可以考慮更加細節或者說針對具體個體的因素。

如果想要引入非線性因素需要做特徵交叉,這樣很容易產生百億特徵,在很早之前ctr就主要靠堆人力搞特徵工程工作來持續優化效果。

3、FM模型也屬於線性模型,不過可以在模型裡用隱向量乘積模擬特徵交叉,比LR模型手動擼交叉特徵工程明顯要elegant一些。由於複雜度的原因,較為常見的只有二階交叉。

二、常用套路

針對在工業界的經驗,先根據業務場景做提取統計類特徵使用gbdt模型快速拿到收益,然後考慮加入海量離散類特徵(比如個性化因素等),使用LR/FM模型進一步提公升效果。至於原有的統計類特徵可以通過gbdt葉子節點轉換成離散特徵一併加入到LR/FM中。這兩步估計夠迭代優化半年時間了。

3樓:lhxx

LR, FM都比較適用於高維稀疏特徵, gbdt不適合. FM能夠得到特徵分量之間的關係(通常是兩兩特徵), LR常用於線性問題,對於非線性問題需要定義非線性函式對特徵進行對映, GBDT對線性/非線性問題基本上都通吃..而且效果很好.

取得好的效果嘛..建議gbdt+LR或者gbdt+FM啦, 即gbdt的輸出作為LR或者FM的輸入, 原始特徵經過gbdt轉變成高維稀疏特徵, 簡單來說, gbdt的輸出相當於對原始特徵進行了特徵組合得到高階屬性或者說是非線性對映.

vue,angular,avalon這三種MVVM框架之間有什麼優缺點?

fans 還是angular,雖然2.0改得讓我有點矇圈,但仍推薦。任何乙個開源專案,長久穩定的更新維護才是最最最重要的,即使有缺陷,在漫長的生命週期中也可以彌補。從事這行太久了,被太多的太監包傷了心。 易瀟 最近正好在看 Vue.js 說乙個 Vue.js API 設計的槽點 霧 varvm ne...

開放宇宙和平坦宇宙和閉合宇宙這三種宇宙模型有什麼區別?

尋風 空間不同,分別是三維雙曲面,三維平直空間和三維球面前兩者無限無邊,後者有限無邊,對每一時刻都有有限的體積三者的粒子視界有所不同,平直的比較容易看出來,寫成顯共形平直形式後幾乎一目了然 一定存在粒子視界,並且其半徑隨時間推移而增大三者的物質場能量密度和壓強隨時間變化關係也不同,直接導致加了宇宙學...

這三種香水買哪個啊 (男生)?

壹心儀 首先要問你暈不暈水生調,就是比較衝的那種感覺,如果是,大衛杜夫第乙個排除 其次,你如果是年輕 Sunny平時喜歡穿休閒 街頭服裝,酷酷外向愛玩的男孩,CKbe適合你,古龍中性有點甜 最後,如果你氣質成熟,陽剛沉穩。可以選擇巴寶莉倫敦,薰衣草加菸味的木香,突顯成熟穩重的紳士風度,妥妥的英倫商務...