為什麼L2 Regularization 代價函式中權重一項要除以資料集或者minibatch的大小？

1樓：UDFND

intuition是樣本數目越多，過擬合的程度越小，越不需要正則化，所以正則化的係數減小。

原理上，從最大後驗估計（MAP）來理解，L2正則化等價於假設引數服從高斯分布的MAP。隨著樣本個數（後驗）的增加，先驗越來越不重要。形式上，這裡的MAP=MLE*L2，MLE是很多概率項的乘積，先驗概率L2只有一項……然後取log，除以m，取相反數……就變成了這個loss，具體就不寫了

2樓：

手機打字公式符號不太方便就簡單說一下吧……

這個問題的目標函式的兩項中分母包不包含樣本數m不是關鍵，關鍵是這兩項分別起到了什麼作用。

第一項是擬合結果和真實值的差異，第二項對引數進行正則化約束以期望獲得更好的泛化效能，這兩點才是這個目標函式的精髓。

至於說分母的樣本值m,首先看題主中的目標函式。因為m是個常量，所以將目標函式中的兩個m去掉後所得的優化問題與題目中的優化問題是完全等價的。我們把兩個m合併一起可以看出，這裡的分母上的m其實是個冗餘項，從理論上分析，當樣本數量增多時，在樣本數較少的情形下得到的lambda也應同樣適用，但是樣本數量的增多會使得正則化項所佔的權重降低(這個我們可以認為是有這樣的先驗知識:

我們已經有足夠多的點了，我們所得到的結果已經比較可靠了，所以可能這個只有上帝才知道的真實曲線就是引數的值很大，所以我們基於這樣的先驗知識可以降低正則化的權重，這樣有助於減少因為正則化項權重太高反而產生的欠擬合)，至於降低是一次的，二次的，這些其實不可知，只能說在此先驗條件下降低大樣本的正則化權重更有利。

其實還有一種嶺回歸的目標函式只在第一項中分母加了m,第二項中沒加，那麼當樣本數量增多時，損失值和正則化項的相對權重保持不變，那麼可能當樣本數量增多時正則化權重過高了，反而限制了最後的解。所以你提到的實驗中說到第二項中不加m當大樣本時需要調整lambda。

為什麼L2 Regularization 代價函式中權重一項要除以資料集或者minibatch的大小？

索尼設計PSP時為什麼沒有設計L2R2鍵和右搖桿？

剪斷繩l2的瞬間，為什麼l1上的力會突變？

為什麼dota2的遊戲載入速度明顯快於LOL？

其他用戶還看了：