GBDT是否需要資料離散化及組合新特徵？

1樓：TripleLift

小夥子，你是沒有指定離散變數列吧，xgb如果不指定，一律當做連續處理，連續處理的方式是二分啊，二分需要資料滿足兩頭差異大才能更快收斂。

2樓：細雨平湖

組合特徵實際上是在構建大容量模型之前，先做線性建模預處理，這種做法肯定有效，但並不一定是由這種建模小技巧本身所致，而是因為整合學習。實際上，對於整合學習來說，其基本原理正是「以大致勝」：簡單模型的大規模塊合能充分利用資料中資訊，克服過擬合，也能達到甚至超過複雜模型的效果。

明白了這個原理，也許你真正的重心不應該放在嘗試這種特徵組合工作，因為其帶來的模型改進空間將會很有限。多研究研究待分析的資料特點，選擇合適的模型，才是更重要的工作。

3樓：

講真，沒用過gbdt，說一下xgboost吧。。差不多應該（1）原理上需要資料離散化，工程上不需要。

或者說不需要你自己動手去離散化，像這種樹演算法（包括cart、隨機森林、xgboost）原理上貌似都是要求離散的，但是連續的資料有很多離散化的方式，很多現成的包應該都會內建去做離散化。所以連續還是離散好像差別不大，最後都是離散化的。

（2）至於組合新特徵。。所有的機器學習都可以設計新特徵來提高效能，不只是gbdt。而且特徵工程是提高分類器效能非常重要的一項。