l1正則與l2正則的特點是什麼,各有什麼優勢?

時間 2021-05-05 15:26:02

1樓:

L2 和 L1 採用不同的方式降低權重:

L2 會降低權重的平方。

L1 會降低 |權重|。

因此,L2 和 L1 具有不同的導數:

L2 的導數為 2 * 權重。

L1 的導數為 k(乙個常數,其值與權重無關)。

你可以將 L2 的導數的作用理解為每次移除權重的 x%。對於任意數字,即使按每次減去 x% 的幅度執行數十億次減法計算,最後得出的值也絕不會正好為 0。總而言之,L2 通常不會使權重變為 0。

你可以將 L1 的導數的作用理解為每次從權重中減去乙個常數。不過,由於減去的是絕對值,L1 在 0 處具有不連續性,這會導致與 0 相交的減法結果變為 0。例如,如果減法使權重從 +0.

1 變為 -0.2,L1 便會將權重設為 0。就這樣,L1 使權重變為 0 了。

2樓:scofield

為什麼L1正則會把不重要的特徵直接置零變得稀疏, 而L2正則會讓係數變小呢。關於這一點大多數的解釋是通過圖形,如何從公式推導上來看呢感覺大部分文章都沒有說清楚。

以最簡單的全連線網路為例

假設只有乙個變數x和乙個引數w,模型為

損失函式為

加上L1正則後損失函式為

損失函式對w求導

第一項是本來就有的,我們用乙個常數字母c代替更新w可以看到w更新的時候多減了一項,所以它會更快的趨向0同理看看L2正則的情況

可以看到w的係數變小了,它的更新方式跟L1不一樣。

因此,可以說L1會讓係數趨向於0,而L2會讓係數變小

3樓:David 9

事實上,L0正則是更激進的正則:

定向Dropout和L0正則,for.ai與Hinton老爺子的神經網路蒸餾、剪枝與量化新研究,稀疏化神經網路,控制引數間互資訊

4樓:徐梓薦

L0範數:向量中非0元素的個數。

L1範數(Lasso Regularization):向量中各個元素絕對值的和。

L2範數(Ridge Regression):向量中各元素平方和求平方根。

L0範數和L1範數都能夠達到使引數稀疏的目的,但L0範數更難優化求解,L1範數是L1的最優凸相似且更易求解,故得到廣泛的應用。

L2範數主要作用是防止模型過擬合,提高模型的泛化能力。

5樓:

我們可以從貝葉斯的角度來分析下正則化:Regularized Regression: A Bayesian point of view

6樓:武太狼

L1最優化問題的解是稀疏性的,其傾向於選擇很少的一些非常大的值和很多的insignificant的小值。而L2最優化則更多的非常少的特別大的值,卻又很多相對小的值,但其仍然對最優化解有significant的貢獻。但從最優化問題解的平滑性來看,L1範數的最優解相對於L2範數要少,但其往往是最優解,而L2的解很多,但更多的傾向於某種區域性最優解。

7樓:你白

L0:計算非零個數,用於產生稀疏性,但是在實際研究中很少用,因為L0範數很難優化求解,是乙個NP-hard問題,因此更多情況下我們是使用L1範數

L1:計算絕對值之和,用以產生稀疏性,因為它是L0正規化的乙個最優凸近似,容易優化求解

L2:計算平方和再開根號,L2範數更多是防止過擬合,並且讓優化求解變得穩定很快速(這是因為加入了L2正規化之後,滿足了強凸)。

8樓:馬澤鋒

L1優點是能夠獲得sparse模型,對於large-scale的問題來說這一點很重要,因為可以減少儲存空間。缺點是加入L1後目標函式在原點不可導,需要做特殊處理。

L2優點是實現簡單,能夠起到正則化的作用。缺點就是L1的優點:無法獲得sparse模型。

實際上L1也是一種妥協的做法,要獲得真正sparse的模型,要用L0正則化。

目標函式中同時使用多個L1和L2正則化項的情況,應該怎麼求解?

cs kite 我把L1範數優化的理解分為三重境界 第一境界 記住結論 到這裡就已經完了,下面都是解釋 第二境界 知道上面的proximal mamping的如何推導出結論的分段函式 介紹一下上面的prox對映 proximal對映是關於函式h的乙個對映 熊辰炎 最通用的就搞sub gradient...

剪斷繩l2的瞬間,為什麼l1上的力會突變?

袁朔 剪斷前,無論用那個座標系,分析力的平衡,都很容易解釋。剪斷後因為不是平衡狀態所以要選擇乙個比較容易理解的座標系。至少在乙個方向上平衡。把重力分解為沿繩子方向的力和垂直於繩子方向的力,就很容易理解了。沿繩子方向的力平衡。垂直於繩子方向的力提供加速度。這個垂直於繩子的方向就是圓的切向。 Curl ...

關於機器學習中L2範數作為正則化損失的疑問? 有關強凸strong convexity

大野人007 如果原問題僅僅是凸的而不是強凸,試想加上L2 norm是不是把原問題變為了強凸?而求解強凸問題和廣義凸的問題,是不是求解強凸的擁有更快的收斂率?是不是也就加速了呢?至於第二個問題,如果你的L2 norm前面的引數lambda是不變的,那可能確實會有偏移,但如果lambda隨著迭代而變化...