如何優化邏輯回歸 logistic regression ?

時間 2021-05-07 14:07:21

1樓:NC少年AI

確定如何衡量模型的效果。即要優化的目標。根據具體的應用場景,比如說AUC。測試集上的AUC提高,說明模型有優化。

問題中已經限定為LR, 優化模型的思路:

想辦法獲得或構造更多的資料,無論評估模型還是訓練,都會更加可靠。

根據業務知識,挖掘更多有價值的Feature,即特徵工程。加入正則化項,L1/L2。Cross validation確定最優的alpha。

這會加快模型開發速度,會自動化篩選變數。

如果不需要可解釋性或對計算複雜度要求不高,建議直接上xgboost. kaggle上冠軍常用的神器。如果還想再優化,xgboost+neural network足夠。

2樓:張晨

題主第三步具體怎麼做的,是用軟體實現的嗎?就是下面這裡。。是用SAS之類實現的,還是用R自己編出來的?

那從第三步開始:

我會用幾種辦法去看我樣本的變數和Response Rate的關係,比如:

a.) Proc Freq (看頻率),然後利用chi-square 來看這個category的變數和response的相關性。

b.) IV/WOE, 我也會一次性看下所有變數的IV,結合第乙個方法選IV值在0.1~0.2以上的變數為下一步建模做準備。

3樓:colin

最重要還是看測試集的召回率recall, 不過特徵工程很重要,還可以考慮決策樹,邏輯回歸太簡單,無法捕捉資料中的非線性特徵

機器學習中的邏輯回歸演算法很常見,但是邏輯回歸中的邏輯二字如何理解?

華子 原回答 我也是最近才知道這個歷史,因為最開始的時候這個東西是乙個英中國人研究父母身高 X 和子女身高 Y 關係的時候,搞出來的。他發現A家庭父母都是一公尺九,B家庭父母都是一公尺六,結果A家庭子女一公尺八五,B 家庭子女一公尺七,兩個家庭的子代身高 回歸 到乙個中間值。以上資料只是我瞎編的例子...

邏輯斯蒂回歸能否解決非線性分類問題?

說句題外的,很多資料沒有我們想象的那麼複雜 比如手寫數字識別。我以前一直覺得這種問題要解決應該至少會用人工特徵提取 做做sift啥的 或者神經網路或者kernel machines或者最近鄰這些表達能力比較強的方法。後來發現用邏輯斯蒂回歸直接硬搞也能把錯誤率控制到7.5 左右 在mnist資料集上。...

怎麼從通俗意義上理解邏輯回歸的損失函式?

損失函式是衡量學習成果好壞的乙個標準 這裡的關鍵乙個是伯努利分布,乙個是最大似然估計最大似然估計往往會轉化成對數的形式,對數函式是單調的,也就是說,乙個變數的最大值,在做完對數變換後,仍然是最大值,然而,任何概率取對數,都會成為負數,人們往往更喜歡處理負數的相反數,乙個負數的最大值,是它取相反數後的...