XGBoost做分類問題時每一輪迭代擬合的是什麼?

時間 2021-06-09 01:48:54

1樓:

XGBoost的樹不是CART樹,擬合的不是殘差,而是直接根據誤差函式obj減小的幅度來決定選哪個特徵的哪個間斷點來劃分樹結點(優先選能讓誤差函式減少幅度最大的那個)。而每個葉結點的輸出值,就是那個wj,也完全由Gj,Hj和lambda來決定。

回歸問題,Gj/Hj分別是MSE(也可以是其他的函式如huber或mae)的一階導數/二階導數;

分類問題,Gj/Hj分別是對數似然(也可以是其他的函式)的一階導數/二階導數。當然,對數似然函式是越大越好,和mse反過來。

2樓:

不論回歸還是分類,GBDT的每棵樹都是回歸樹,只不過分類問題裡每個樣本由整合樹計算得到的分數都再會經過乙個變化(如二分類的logistic function)。每一輪都是在訓練一棵新的樹,使得增加它之後損失函式極小:

如果損失函式是平方誤差或指數誤差,每一步的優化直接擬合殘差;但對於一般的損失函式,則用損失函式的負梯度在當前模型的值( ,XGBoost還用了二階導數 )作為擬合物件(回歸問題裡,負梯度值是殘差的近似值)。

如果一定要說分類問題每輪擬合乙個什麼東西,那就是:輸入樣本對應某類的真實概率–前面k-1棵樹組合計算的對應該類的概率值

Photoshop 是不是每做一步要新建乙個圖層,容易養成乙個好的習慣?

柳釗 主要是看要幹什麼。如果是自己用的東西。那最好是自己能看的清楚並且便於以後的修改和拓展如果是後續需要有人繼續在上面工作。比如切圖或者別的一些什麼。那就需要嚴謹一點。層級內容分布清楚。最好還有圖層顏色的標註便於別人查詢想要的東西。沒有啥標準其實。方便第一。 深圳灣錦鯉 我認為這是個個人習慣問題也並...

當正負樣本不均時,做二分類得到的概率怎麼理解

僻露泠泠 這是類不平衡問題。用來評價機器學習模型的指標有很多種,準確率並不是唯一的選擇。類不平衡時準確率不是最佳選擇,需要結合實際問題決定哪種最合適 VVValar 你這裡的概率指的是估計的概率,在實際中用它來近似真正的概率。首先要認清楚這一點。其次樣本1比1時,概率大於0.5就是1 這句話蘊含著乙...

小區做綠化養護時應注意哪些細節問題?

種豆南山下 小區和校園很相似,普通綠化樹苗就行,不過還要注意幾個細節,不開花或者過敏源低的開花,盡量不要針狀葉的樹,比如松樹 檜柏等,選擇利於修剪和後期養護的綠化成品樹,如果小區綠地水源不完善可選擇抗旱抗寒類,觀賞性強的花用女貞或者黃楊包形成包圍圈。 小靚仔 一 綠植之間的搭配與影響 1 掌握各種植...