XGBoost做分類問題時每一輪迭代擬合的是什麼？

1樓：

XGBoost的樹不是CART樹，擬合的不是殘差，而是直接根據誤差函式obj減小的幅度來決定選哪個特徵的哪個間斷點來劃分樹結點（優先選能讓誤差函式減少幅度最大的那個）。而每個葉結點的輸出值，就是那個wj，也完全由Gj，Hj和lambda來決定。

回歸問題，Gj/Hj分別是MSE（也可以是其他的函式如huber或mae）的一階導數/二階導數；

分類問題，Gj/Hj分別是對數似然（也可以是其他的函式）的一階導數/二階導數。當然，對數似然函式是越大越好，和mse反過來。

2樓：

不論回歸還是分類，GBDT的每棵樹都是回歸樹，只不過分類問題裡每個樣本由整合樹計算得到的分數都再會經過乙個變化（如二分類的logistic function）。每一輪都是在訓練一棵新的樹，使得增加它之後損失函式極小:

如果損失函式是平方誤差或指數誤差，每一步的優化直接擬合殘差；但對於一般的損失函式，則用損失函式的負梯度在當前模型的值（，XGBoost還用了二階導數）作為擬合物件（回歸問題裡，負梯度值是殘差的近似值）。

如果一定要說分類問題每輪擬合乙個什麼東西，那就是:輸入樣本對應某類的真實概率–前面k-1棵樹組合計算的對應該類的概率值。