LR,gbdt,libfm這三種模型分別適合處理什麼型別的特徵,為了取得較好效果他們對特徵有何要求？

1樓：

GBDT容易因為訓練集中個別樣本的某個稀疏feature與y的偶然關係，擬合到雜訊（用某一特徵將訓練集分至類別單一的葉子結點，無法再分）

LR每次隨機選擇batch個樣本對w優化，特徵=0（xi），則梯度=0，實則是用特徵i不為0的樣本對wi梯度下降。如果特徵稀疏，則下降次數也少，不容易過度擬合。

2樓：yymWater

本人在公司參與迭代同乙個機器學習問題持續優化快兩年，談一下自己的經驗。

一、特徵適用

2、LR模型屬於線性模型。模型簡單，可以引入海量離散特徵。這樣的好處就是模型可以考慮更加細節或者說針對具體個體的因素。

如果想要引入非線性因素需要做特徵交叉，這樣很容易產生百億特徵，在很早之前ctr就主要靠堆人力搞特徵工程工作來持續優化效果。

3、FM模型也屬於線性模型，不過可以在模型裡用隱向量乘積模擬特徵交叉，比LR模型手動擼交叉特徵工程明顯要elegant一些。由於複雜度的原因，較為常見的只有二階交叉。

二、常用套路

針對在工業界的經驗，先根據業務場景做提取統計類特徵使用gbdt模型快速拿到收益，然後考慮加入海量離散類特徵（比如個性化因素等），使用LR/FM模型進一步提公升效果。至於原有的統計類特徵可以通過gbdt葉子節點轉換成離散特徵一併加入到LR/FM中。這兩步估計夠迭代優化半年時間了。

3樓：lhxx

LR, FM都比較適用於高維稀疏特徵, gbdt不適合. FM能夠得到特徵分量之間的關係(通常是兩兩特徵), LR常用於線性問題，對於非線性問題需要定義非線性函式對特徵進行對映, GBDT對線性/非線性問題基本上都通吃..而且效果很好.

取得好的效果嘛..建議gbdt+LR或者gbdt+FM啦, 即gbdt的輸出作為LR或者FM的輸入, 原始特徵經過gbdt轉變成高維稀疏特徵, 簡單來說, gbdt的輸出相當於對原始特徵進行了特徵組合得到高階屬性或者說是非線性對映.