GBDT是否需要資料離散化及組合新特徵?

時間 2021-06-03 09:19:29

1樓:TripleLift

小夥子,你是沒有指定離散變數列吧,xgb如果不指定,一律當做連續處理,連續處理的方式是二分啊,二分需要資料滿足兩頭差異大才能更快收斂。

2樓:細雨平湖

組合特徵實際上是在構建大容量模型之前,先做線性建模預處理,這種做法肯定有效,但並不一定是由這種建模小技巧本身所致,而是因為整合學習。實際上,對於整合學習來說,其基本原理正是「以大致勝」:簡單模型的大規模塊合能充分利用資料中資訊,克服過擬合,也能達到甚至超過複雜模型的效果。

明白了這個原理,也許你真正的重心不應該放在嘗試這種特徵組合工作,因為其帶來的模型改進空間將會很有限。多研究研究待分析的資料特點,選擇合適的模型,才是更重要的工作。

3樓:

講真,沒用過gbdt,說一下xgboost吧。。差不多應該(1)原理上需要資料離散化,工程上不需要。

或者說不需要你自己動手去離散化,像這種樹演算法(包括cart、隨機森林、xgboost)原理上貌似都是要求離散的,但是連續的資料有很多離散化的方式,很多現成的包應該都會內建去做離散化。所以連續還是離散好像差別不大,最後都是離散化的。

(2)至於組合新特徵。。所有的機器學習都可以設計新特徵來提高效能,不只是gbdt。而且特徵工程是提高分類器效能非常重要的一項。

工控及及自動化行業在資料庫上的應用?

老King 倉儲物流自動化行業裡應用資料庫非常多。自動化倉庫的管理,需要資料庫的支援,要記錄每個庫位的資訊,每個物料單元的資訊,進出庫的作業資訊,完成過的作業流水資訊等等。只要是倉庫內的任何乙個動作和庫位變動,都需要對其進行資料記錄,通常是現場的自動化裝置發生動作後傳送資訊給倉庫管理軟體,倉庫管理軟...

非結構化資料有什麼比較成熟的分析方法及應用嗎?

風馬牛 這個目前沒有成熟的產品和平台。隨著大資料 人工智慧技術的不斷成熟,企業海量的非結構化資料價值需要挖掘 需要開發,但是非結構化資料太複雜 太雜亂,各式各樣,沒有任何規律可循,這是一片藍海,但是產品的難度太大,目前只有專業的資料處理公司靠垂直行業的經驗在處理這方面的資料。規模大點的公司很多事看不...

伊斯蘭化及伊斯蘭國問題是否在重演野蠻征服文明的過程?

Peter Tam 歷史上歷來有乙個說法,那就是乙個文明發展較弱的民族如果侵略並統治了乙個文明發展較強的民族,那這個文明不太發達的民族必將會被另乙個民族同化,或者說在精神上被另乙個民族所統治。在現代社會,伊斯蘭教沒有機會再以野蠻的方式占領和統治其他國家。只是這樣的問題怎麼解決?可以有多種辦法,包括誰...