如何優化邏輯回歸 logistic regression ？

1樓：NC少年AI

確定如何衡量模型的效果。即要優化的目標。根據具體的應用場景，比如說AUC。測試集上的AUC提高，說明模型有優化。

問題中已經限定為LR，優化模型的思路:

想辦法獲得或構造更多的資料，無論評估模型還是訓練，都會更加可靠。

根據業務知識，挖掘更多有價值的Feature，即特徵工程。加入正則化項，L1/L2。Cross validation確定最優的alpha。

這會加快模型開發速度，會自動化篩選變數。

如果不需要可解釋性或對計算複雜度要求不高，建議直接上xgboost. kaggle上冠軍常用的神器。如果還想再優化，xgboost+neural network足夠。

2樓：張晨

題主第三步具體怎麼做的，是用軟體實現的嗎？就是下面這裡。。是用SAS之類實現的，還是用R自己編出來的？

那從第三步開始：

我會用幾種辦法去看我樣本的變數和Response Rate的關係，比如:

a.) Proc Freq （看頻率），然後利用chi-square 來看這個category的變數和response的相關性。

b.) IV/WOE, 我也會一次性看下所有變數的IV，結合第乙個方法選IV值在0.1~0.2以上的變數為下一步建模做準備。

3樓：colin

最重要還是看測試集的召回率recall, 不過特徵工程很重要，還可以考慮決策樹，邏輯回歸太簡單，無法捕捉資料中的非線性特徵

機器學習中的邏輯回歸演算法很常見，但是邏輯回歸中的邏輯二字如何理解？

華子原回答我也是最近才知道這個歷史，因為最開始的時候這個東西是乙個英中國人研究父母身高 X 和子女身高 Y 關係的時候，搞出來的。他發現A家庭父母都是一公尺九，B家庭父母都是一公尺六，結果A家庭子女一公尺八五，B 家庭子女一公尺七，兩個家庭的子代身高回歸到乙個中間值。以上資料只是我瞎編的例子...

邏輯斯蒂回歸能否解決非線性分類問題？

說句題外的，很多資料沒有我們想象的那麼複雜比如手寫數字識別。我以前一直覺得這種問題要解決應該至少會用人工特徵提取做做sift啥的或者神經網路或者kernel machines或者最近鄰這些表達能力比較強的方法。後來發現用邏輯斯蒂回歸直接硬搞也能把錯誤率控制到7.5 左右在mnist資料集上。...

怎麼從通俗意義上理解邏輯回歸的損失函式？

損失函式是衡量學習成果好壞的乙個標準這裡的關鍵乙個是伯努利分布，乙個是最大似然估計最大似然估計往往會轉化成對數的形式，對數函式是單調的，也就是說，乙個變數的最大值，在做完對數變換後，仍然是最大值，然而，任何概率取對數，都會成為負數，人們往往更喜歡處理負數的相反數，乙個負數的最大值，是它取相反數後的...

如何優化邏輯回歸 logistic regression ？

機器學習中的邏輯回歸演算法很常見，但是邏輯回歸中的邏輯二字如何理解？

邏輯斯蒂回歸能否解決非線性分類問題？

怎麼從通俗意義上理解邏輯回歸的損失函式？

其他用戶還看了：