l1正則與l2正則的特點是什麼，各有什麼優勢？

1樓：

L2 和 L1 採用不同的方式降低權重：

L2 會降低權重的平方。

L1 會降低 |權重|。

因此，L2 和 L1 具有不同的導數：

L2 的導數為 2 * 權重。

L1 的導數為 k（乙個常數，其值與權重無關）。

你可以將 L2 的導數的作用理解為每次移除權重的 x%。對於任意數字，即使按每次減去 x% 的幅度執行數十億次減法計算，最後得出的值也絕不會正好為 0。總而言之，L2 通常不會使權重變為 0。

你可以將 L1 的導數的作用理解為每次從權重中減去乙個常數。不過，由於減去的是絕對值，L1 在 0 處具有不連續性，這會導致與 0 相交的減法結果變為 0。例如，如果減法使權重從 +0.

1 變為 -0.2，L1 便會將權重設為 0。就這樣，L1 使權重變為 0 了。

2樓：scofield

為什麼L1正則會把不重要的特徵直接置零變得稀疏，而L2正則會讓係數變小呢。關於這一點大多數的解釋是通過圖形，如何從公式推導上來看呢感覺大部分文章都沒有說清楚。

以最簡單的全連線網路為例

假設只有乙個變數x和乙個引數w，模型為

損失函式為

加上L1正則後損失函式為

損失函式對w求導

第一項是本來就有的，我們用乙個常數字母c代替更新w可以看到w更新的時候多減了一項，所以它會更快的趨向0同理看看L2正則的情況

可以看到w的係數變小了，它的更新方式跟L1不一樣。

因此，可以說L1會讓係數趨向於0，而L2會讓係數變小

3樓：David 9

事實上，L0正則是更激進的正則：

定向Dropout和L0正則，for.ai與Hinton老爺子的神經網路蒸餾、剪枝與量化新研究，稀疏化神經網路，控制引數間互資訊

4樓：徐梓薦

L0範數：向量中非0元素的個數。

L1範數(Lasso Regularization)：向量中各個元素絕對值的和。

L2範數(Ridge Regression)：向量中各元素平方和求平方根。

L0範數和L1範數都能夠達到使引數稀疏的目的，但L0範數更難優化求解，L1範數是L1的最優凸相似且更易求解，故得到廣泛的應用。

L2範數主要作用是防止模型過擬合，提高模型的泛化能力。

5樓：

我們可以從貝葉斯的角度來分析下正則化：Regularized Regression: A Bayesian point of view

6樓：武太狼

L1最優化問題的解是稀疏性的，其傾向於選擇很少的一些非常大的值和很多的insignificant的小值。而L2最優化則更多的非常少的特別大的值，卻又很多相對小的值，但其仍然對最優化解有significant的貢獻。但從最優化問題解的平滑性來看，L1範數的最優解相對於L2範數要少，但其往往是最優解，而L2的解很多，但更多的傾向於某種區域性最優解。

7樓：你白

L0：計算非零個數，用於產生稀疏性，但是在實際研究中很少用，因為L0範數很難優化求解，是乙個NP-hard問題，因此更多情況下我們是使用L1範數

L1：計算絕對值之和，用以產生稀疏性，因為它是L0正規化的乙個最優凸近似，容易優化求解

L2：計算平方和再開根號，L2範數更多是防止過擬合，並且讓優化求解變得穩定很快速（這是因為加入了L2正規化之後，滿足了強凸）。

8樓：馬澤鋒

L1優點是能夠獲得sparse模型，對於large-scale的問題來說這一點很重要，因為可以減少儲存空間。缺點是加入L1後目標函式在原點不可導，需要做特殊處理。

L2優點是實現簡單，能夠起到正則化的作用。缺點就是L1的優點：無法獲得sparse模型。

實際上L1也是一種妥協的做法，要獲得真正sparse的模型，要用L0正則化。

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

cs kite 我把L1範數優化的理解分為三重境界第一境界記住結論到這裡就已經完了，下面都是解釋第二境界知道上面的proximal mamping的如何推導出結論的分段函式介紹一下上面的prox對映 proximal對映是關於函式h的乙個對映熊辰炎最通用的就搞sub gradient...

剪斷繩l2的瞬間，為什麼l1上的力會突變？

袁朔剪斷前，無論用那個座標系，分析力的平衡，都很容易解釋。剪斷後因為不是平衡狀態所以要選擇乙個比較容易理解的座標系。至少在乙個方向上平衡。把重力分解為沿繩子方向的力和垂直於繩子方向的力，就很容易理解了。沿繩子方向的力平衡。垂直於繩子方向的力提供加速度。這個垂直於繩子的方向就是圓的切向。 Curl ...

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity

大野人007 如果原問題僅僅是凸的而不是強凸，試想加上L2 norm是不是把原問題變為了強凸？而求解強凸問題和廣義凸的問題，是不是求解強凸的擁有更快的收斂率？是不是也就加速了呢？至於第二個問題，如果你的L2 norm前面的引數lambda是不變的，那可能確實會有偏移，但如果lambda隨著迭代而變化...

l1正則與l2正則的特點是什麼，各有什麼優勢？

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

剪斷繩l2的瞬間，為什麼l1上的力會突變？

關於機器學習中L2範數作為正則化損失的疑問？ 有關強凸strong convexity

其他用戶還看了：

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity