關於機器學習中L2範數作為正則化損失的疑問? 有關強凸strong convexity

時間 2021-05-30 10:20:27

1樓:大野人007

如果原問題僅僅是凸的而不是強凸,試想加上L2 norm是不是把原問題變為了強凸?

而求解強凸問題和廣義凸的問題,是不是求解強凸的擁有更快的收斂率?是不是也就加速了呢?

至於第二個問題,如果你的L2 norm前面的引數lambda是不變的,那可能確實會有偏移,但如果lambda隨著迭代而變化,那麼在理論上是可以獲取最優解的。優化的文章我也沒有看過多少,但是對於這一點我可以給出一篇參考文獻: Accelerate Stochastic Subgradient Method by Leveraging Local Error Bound。

2樓:CKLSniper

L2正則化是有偏的

但如果進一步考慮,把RSS分解成偏差和方差之和的話,在很多情況下這兩者是不能同時降低的,這也是著名的沒有免費午餐定理的乙個結論。舉個例子,對於OLS來說,經常在實際應用中受到比較高方差的困擾。乙個適當的正則化可以偏差換方差,使總RSS降低。

話說回來現在大家一般都用elastic net了吧。

3樓:

我的理解。

從貝葉斯派的角度來講。加了正則就是加了先驗,相比直接用似然,如果先驗與當前資料的分布不一樣,對當前的有限資料而言一定的有偏的。至於這麼偏,就取決於你加的先驗是什麼了。

加了先驗,如果先驗的分布和當前資料的分布出入比較大,那自然會使得模型在當前的資料上準確不足,但如果先驗加的合理(理想情況下和無限資料的分布一致),正好就校正了當前資料有限的「缺陷」,使得模型在面對未知的更多(無限)的資料時能表現的更好。

4樓:張大帥

的確會偏移啊,加了L2之後就一定會有bias的。但是有bias不代表最終效果差,因為資料一定是有限的,我們要的是在有限的訓練資料下面得到對測試資料的最好結果,犧牲了bias能換到更多東西。

5樓:

假設橙色是沒有二範正則項的代價曲面,紅色是正則項的曲面,藍色是兩者的和。

最優解從經驗風險代價面最優解偏向系統風險代價面的最優解。

當正則項的係數越大,系統風險面會越陡,整體的最優解就會越偏向系統風險面最優解的,就越不相信樣本。

6樓:

1、引入正則化損失後,優化目標由經驗風險最小化變成了結構風險最小化,要求的最優解從「使得經驗風險最小的那個解」變成了「使得結構風險最小的那個解」,這種能夠降低泛化誤差的偏移正是我們想要的。

2、L2範數從貝葉斯的觀點來說,是為模型引數的增加了高斯分布的先驗知識,從優化的角度來說,一定程度上限制了模型引數的取值範圍,所以能夠加速收斂。

3、建議先看經典的書籍,再看部落格。

目標函式中同時使用多個L1和L2正則化項的情況,應該怎麼求解?

cs kite 我把L1範數優化的理解分為三重境界 第一境界 記住結論 到這裡就已經完了,下面都是解釋 第二境界 知道上面的proximal mamping的如何推導出結論的分段函式 介紹一下上面的prox對映 proximal對映是關於函式h的乙個對映 熊辰炎 最通用的就搞sub gradient...

辦理L2簽證需要注意什麼?

一袋星光 辦理 L2 簽證面試官最主要考察的是與 L1 簽證的婚姻真實性,因為 L 簽證本身是允許申請人有移民傾向的,和 B1 B2 簽證考察的點完全不同,所以不必擔心 B1 B2 的簽證被拒會影響後續 L2 籤的申請,只要你們的婚姻是真實的。L1 簽證的申請需要非常複雜的材料和流程審核,所以基本只...

l1正則與l2正則的特點是什麼,各有什麼優勢?

L2 和 L1 採用不同的方式降低權重 L2 會降低權重的平方。L1 會降低 權重 因此,L2 和 L1 具有不同的導數 L2 的導數為 2 權重。L1 的導數為 k 乙個常數,其值與權重無關 你可以將 L2 的導數的作用理解為每次移除權重的 x 對於任意數字,即使按每次減去 x 的幅度執行數十億次...