L2正則化（嶺回歸）可以用來做特徵選擇嗎？

1樓：courage.zip

L1可以讓某些特徵的係數變成0, 得到稀疏的模型係數, 其實就是在做特徵選擇, 所以效果會更好.

L2一般不用來做特徵選擇, 損失函式加上L2正則化項之後, 會使得模型係數變得平滑, 反而不利於做特徵篩選.

2樓：畢閣棣

不曾聽聞。--原答案

我看了所謂「已認證的官方賬號」的回答， @論智。雖然您的回答似乎有零有整，姑且不說您是否是copy paste的，這樣具有誤導性的回答確實讓人匪夷所思。

我們先看一下他所說的alpha是個什麼東西。

我們知道Ridge regression 裡的objective function是有乙個penalty的term，以防止overfitting，這個term是L2的。

objective function: SSE + alpha*||beta||^2

這個alpha是用來控制penalty的強度，正常來說是通過一些techniques，for example, cross-validation，通過Linear probing 去找到乙個alpha值，使得這個Ridge regression能夠generalize，有效降低prediction error。

用alpha去做feature selection簡直是荒謬！它只是乙個regularization的手段，防止overfitting，並非是用來做feature selection。你人為地去操作alpha的值，以達到你所謂的feature selection的目的，而忽略了模型的整體性，簡直是荒謬至極。

我們來說為什麼Lasso能做feature selection，而Ridge不能：

Feature selection的過程是remove的過程，LASSO 能將解釋力弱、比較noisy的變數剔除，而Ridge是將這些變數在模型中所表現出來的重要性大大降低，但並不能剔除。嚴格意義上來講，剔除才是Feature selection，通常是在modeling之前，LASSO因為其特性，可以作為一種手段。

當然，Modeling的過程是乙個講故事的過程，如果你用Ridge的結果去剔除某些變數再重新modeling，在符合common sense並且有較好的結果的情況下，去闡述乙個完整的故事，做modeling的document的時候去這麼說，也無可厚非，雖然從理論上來說，這種故事缺乏強而有力的backup。

摘自ESLII Stanford U

Ridge & Lasso 其實是乙個optimize的過程：

Ridge -

objective function: Arg(min) SSE subject to ||Beta||^2 < M

Lasso -

objective function:Arg(min) SSE subject to sum(|Beta|) 那麼他們分別的條件在空間中，以二維為例，乙個是四條線圍成的形狀，另乙個是curve的圓。

SSE是乙個Squared的形式:

sum(y - betaX)^2 = sum(beta^2(*)- 2beta(*) +(*)) (*)為省略的內容。

那麼SSE 在空間中是橢圓，我們在高三就學過的優化過程，就能大致站展開了。就如同上圖中的最下邊兩個圖。

你簡單地設乙個X, Let us say, it is a diag(n) with diag value = 1。用gradient的方法去求beta。就能得到表中的式子。

這裡我們又能抨擊一下 @論智在不負責任的回答中關於sigma的用法。

beta/(1 + sigma) 是乙個特例，但也不乏說明性。

不管你的sigma有多大，你都不可能在Ridge中將乙個parameter shrink to 0。

咱們也用他新增引用的方法，強調一下。

Feature selection 是乙個精密的過程，並不是胡來的過程。我們有方法、有理論地去選變數，這才是modeling正確的步驟。正確的理論，結果不好，只能說是方法不合適；錯誤的理論，往往讓你的模型站不住腳。

3樓：

個人覺得看你怎麼用了。其實理論上L2並不是用於特徵篩選的演算法，L1看上去更合適。但是L1想一次做到合適程度的特徵篩選，對懲罰項的調餐要做得比較好。

而L2其實只要加乙個大一些的懲罰項，就可以得到每個特徵權重，從大到小也可以排序做特徵的初篩。其實特徵篩選的方法很多，其實要機遇模型的話，隨機森林或者xgboost也是不錯的選擇。

L2正則化（嶺回歸）可以用來做特徵選擇嗎？

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity

l1正則與l2正則的特點是什麼，各有什麼優勢？

其他用戶還看了：

L2正則化（嶺回歸）可以用來做特徵選擇嗎？

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

關於機器學習中L2範數作為正則化損失的疑問？ 有關強凸strong convexity

l1正則與l2正則的特點是什麼，各有什麼優勢？

其他用戶還看了：

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity