關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity

1樓：大野人007

如果原問題僅僅是凸的而不是強凸，試想加上L2 norm是不是把原問題變為了強凸？

而求解強凸問題和廣義凸的問題，是不是求解強凸的擁有更快的收斂率？是不是也就加速了呢？

至於第二個問題，如果你的L2 norm前面的引數lambda是不變的，那可能確實會有偏移，但如果lambda隨著迭代而變化，那麼在理論上是可以獲取最優解的。優化的文章我也沒有看過多少，但是對於這一點我可以給出一篇參考文獻： Accelerate Stochastic Subgradient Method by Leveraging Local Error Bound。

2樓：CKLSniper

L2正則化是有偏的

但如果進一步考慮，把RSS分解成偏差和方差之和的話，在很多情況下這兩者是不能同時降低的，這也是著名的沒有免費午餐定理的乙個結論。舉個例子，對於OLS來說，經常在實際應用中受到比較高方差的困擾。乙個適當的正則化可以偏差換方差，使總RSS降低。

話說回來現在大家一般都用elastic net了吧。

3樓：

我的理解。

從貝葉斯派的角度來講。加了正則就是加了先驗，相比直接用似然，如果先驗與當前資料的分布不一樣，對當前的有限資料而言一定的有偏的。至於這麼偏，就取決於你加的先驗是什麼了。

加了先驗，如果先驗的分布和當前資料的分布出入比較大，那自然會使得模型在當前的資料上準確不足，但如果先驗加的合理（理想情況下和無限資料的分布一致），正好就校正了當前資料有限的「缺陷」，使得模型在面對未知的更多（無限）的資料時能表現的更好。

4樓：張大帥

的確會偏移啊，加了L2之後就一定會有bias的。但是有bias不代表最終效果差，因為資料一定是有限的，我們要的是在有限的訓練資料下面得到對測試資料的最好結果，犧牲了bias能換到更多東西。

5樓：

假設橙色是沒有二範正則項的代價曲面，紅色是正則項的曲面，藍色是兩者的和。

最優解從經驗風險代價面最優解偏向系統風險代價面的最優解。

當正則項的係數越大，系統風險面會越陡，整體的最優解就會越偏向系統風險面最優解的，就越不相信樣本。

6樓：

1、引入正則化損失後，優化目標由經驗風險最小化變成了結構風險最小化，要求的最優解從「使得經驗風險最小的那個解」變成了「使得結構風險最小的那個解」，這種能夠降低泛化誤差的偏移正是我們想要的。

2、L2範數從貝葉斯的觀點來說，是為模型引數的增加了高斯分布的先驗知識，從優化的角度來說，一定程度上限制了模型引數的取值範圍，所以能夠加速收斂。

3、建議先看經典的書籍，再看部落格。

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

辦理L2簽證需要注意什麼？

l1正則與l2正則的特點是什麼，各有什麼優勢？

其他用戶還看了：

關於機器學習中L2範數作為正則化損失的疑問？ 有關強凸strong convexity

目標函式中同時使用多個L1和L2正則化項的情況，應該怎麼求解？

辦理L2簽證需要注意什麼？

l1正則與l2正則的特點是什麼，各有什麼優勢？

其他用戶還看了：

關於機器學習中L2範數作為正則化損失的疑問？有關強凸strong convexity