L2正則化(嶺回歸)可以用來做特徵選擇嗎?

時間 2021-06-01 23:56:53

1樓:courage.zip

L1可以讓某些特徵的係數變成0, 得到稀疏的模型係數, 其實就是在做特徵選擇, 所以效果會更好.

L2一般不用來做特徵選擇, 損失函式加上L2正則化項之後, 會使得模型係數變得平滑, 反而不利於做特徵篩選.

2樓:畢閣棣

不曾聽聞。--原答案

我看了所謂「已認證的官方賬號」的回答, @論智 。雖然您的回答似乎有零有整,姑且不說您是否是copy paste的,這樣具有誤導性的回答確實讓人匪夷所思。

我們先看一下他所說的alpha是個什麼東西。

我們知道Ridge regression 裡的objective function是有乙個penalty的term,以防止overfitting,這個term是L2的。

objective function: SSE + alpha*||beta||^2

這個alpha是用來控制penalty的強度,正常來說是通過一些techniques,for example, cross-validation,通過Linear probing 去找到乙個alpha值,使得這個Ridge regression能夠generalize,有效降低prediction error。

用alpha去做feature selection簡直是荒謬!它只是乙個regularization的手段,防止overfitting,並非是用來做feature selection。你人為地去操作alpha的值,以達到你所謂的feature selection的目的,而忽略了模型的整體性,簡直是荒謬至極。

我們來說為什麼Lasso能做feature selection,而Ridge不能:

Feature selection的過程是remove的過程,LASSO 能將解釋力弱、比較noisy的變數剔除,而Ridge是將這些變數在模型中所表現出來的重要性大大降低,但並不能剔除。嚴格意義上來講,剔除才是Feature selection,通常是在modeling之前,LASSO因為其特性,可以作為一種手段。

當然,Modeling的過程是乙個講故事的過程,如果你用Ridge的結果去剔除某些變數再重新modeling,在符合common sense並且有較好的結果的情況下,去闡述乙個完整的故事,做modeling的document的時候去這麼說,也無可厚非,雖然從理論上來說,這種故事缺乏強而有力的backup。

摘自ESLII Stanford U

Ridge & Lasso 其實是乙個optimize的過程:

Ridge -

objective function: Arg(min) SSE subject to ||Beta||^2 < M

Lasso -

objective function:Arg(min) SSE subject to sum(|Beta|) 那麼他們分別的條件在空間中,以二維為例,乙個是四條線圍成的形狀,另乙個是curve的圓。

SSE是乙個Squared的形式:

sum(y - betaX)^2 = sum(beta^2(*)- 2beta(*) +(*)) (*)為省略的內容。

那麼SSE 在空間中是橢圓,我們在高三就學過的優化過程,就能大致站展開了。就如同上圖中的最下邊兩個圖。

你簡單地設乙個X, Let us say, it is a diag(n) with diag value = 1。 用gradient的方法去求beta。就能得到表中的式子。

這裡我們又能抨擊一下 @論智 在不負責任的回答中關於sigma的用法。

beta/(1 + sigma) 是乙個特例,但也不乏說明性。

不管你的sigma有多大,你都不可能在Ridge中將乙個parameter shrink to 0。

咱們也用他新增引用的方法,強調一下。

Feature selection 是乙個精密的過程,並不是胡來的過程。我們有方法、有理論地去選變數,這才是modeling正確的步驟。正確的理論,結果不好,只能說是方法不合適;錯誤的理論,往往讓你的模型站不住腳。

3樓:

個人覺得看你怎麼用了。其實理論上L2並不是用於特徵篩選的演算法,L1看上去更合適。但是L1想一次做到合適程度的特徵篩選,對懲罰項的調餐要做得比較好。

而L2其實只要加乙個大一些的懲罰項,就可以得到每個特徵權重,從大到小也可以排序做特徵的初篩。其實特徵篩選的方法很多,其實要機遇模型的話,隨機森林或者xgboost也是不錯的選擇。

目標函式中同時使用多個L1和L2正則化項的情況,應該怎麼求解?

cs kite 我把L1範數優化的理解分為三重境界 第一境界 記住結論 到這裡就已經完了,下面都是解釋 第二境界 知道上面的proximal mamping的如何推導出結論的分段函式 介紹一下上面的prox對映 proximal對映是關於函式h的乙個對映 熊辰炎 最通用的就搞sub gradient...

關於機器學習中L2範數作為正則化損失的疑問? 有關強凸strong convexity

大野人007 如果原問題僅僅是凸的而不是強凸,試想加上L2 norm是不是把原問題變為了強凸?而求解強凸問題和廣義凸的問題,是不是求解強凸的擁有更快的收斂率?是不是也就加速了呢?至於第二個問題,如果你的L2 norm前面的引數lambda是不變的,那可能確實會有偏移,但如果lambda隨著迭代而變化...

l1正則與l2正則的特點是什麼,各有什麼優勢?

L2 和 L1 採用不同的方式降低權重 L2 會降低權重的平方。L1 會降低 權重 因此,L2 和 L1 具有不同的導數 L2 的導數為 2 權重。L1 的導數為 k 乙個常數,其值與權重無關 你可以將 L2 的導數的作用理解為每次移除權重的 x 對於任意數字,即使按每次減去 x 的幅度執行數十億次...