為什麼L2 Regularization 代價函式中權重一項要除以資料集或者minibatch的大小?

時間 2021-06-08 02:55:23

1樓:UDFND

intuition是樣本數目越多,過擬合的程度越小,越不需要正則化,所以正則化的係數減小。

原理上,從最大後驗估計(MAP)來理解,L2正則化等價於假設引數服從高斯分布的MAP。隨著樣本個數(後驗)的增加,先驗越來越不重要。形式上,這裡的MAP=MLE*L2,MLE是很多概率項的乘積,先驗概率L2只有一項……然後取log,除以m,取相反數……就變成了這個loss,具體就不寫了

2樓:

手機打字公式符號不太方便就簡單說一下吧……

這個問題的目標函式的兩項中分母包不包含樣本數m不是關鍵,關鍵是這兩項分別起到了什麼作用。

第一項是擬合結果和真實值的差異,第二項對引數進行正則化約束以期望獲得更好的泛化效能,這兩點才是這個目標函式的精髓。

至於說分母的樣本值m,首先看題主中的目標函式。因為m是個常量,所以將目標函式中的兩個m去掉後所得的優化問題與題目中的優化問題是完全等價的。我們把兩個m合併一起可以看出,這裡的分母上的m其實是個冗餘項,從理論上分析,當樣本數量增多時,在樣本數較少的情形下得到的lambda也應同樣適用,但是樣本數量的增多會使得正則化項所佔的權重降低(這個我們可以認為是有這樣的先驗知識:

我們已經有足夠多的點了,我們所得到的結果已經比較可靠了,所以可能這個只有上帝才知道的真實曲線就是引數的值很大,所以我們基於這樣的先驗知識可以降低正則化的權重,這樣有助於減少因為正則化項權重太高反而產生的欠擬合),至於降低是一次的,二次的,這些其實不可知,只能說在此先驗條件下降低大樣本的正則化權重更有利。

其實還有一種嶺回歸的目標函式只在第一項中分母加了m,第二項中沒加,那麼當樣本數量增多時,損失值和正則化項的相對權重保持不變,那麼可能當樣本數量增多時正則化權重過高了,反而限制了最後的解。所以你提到的實驗中說到第二項中不加m當大樣本時需要調整lambda。

索尼設計PSP時為什麼沒有設計L2R2鍵和右搖桿?

萌萌噠Zero醬 為什麼這麼設計,自然是有當時那個年代的侷限性,比如當時的掌機是什麼樣子的,當時的遊戲環境是什麼樣子的,打個最簡單的比方幾乎國內PSP玩家無人不知無人不曉的怪獵在PSP上就完全不需要L2R2和右搖桿,當然代價就是E型手 從這點來說當年沒上右搖桿是有原因的,畢竟要控制成本,而且當時的掌...

剪斷繩l2的瞬間,為什麼l1上的力會突變?

袁朔 剪斷前,無論用那個座標系,分析力的平衡,都很容易解釋。剪斷後因為不是平衡狀態所以要選擇乙個比較容易理解的座標系。至少在乙個方向上平衡。把重力分解為沿繩子方向的力和垂直於繩子方向的力,就很容易理解了。沿繩子方向的力平衡。垂直於繩子方向的力提供加速度。這個垂直於繩子的方向就是圓的切向。 Curl ...

為什麼dota2的遊戲載入速度明顯快於LOL?

為什麼dota2能快這麼多?因為dota2是先進遊戲,然後再在遊戲內進行匹配 選人。這方法就能規避有的人小霸王,導致長時間等人。 M528星球 迪迦 首先,只提載入速度不提匹配速度的都是耍流氓然後,LOL的常規載入速度正好夠你去廁所撒泡尿或者到吧檯買瓶水或者給貓開個罐頭的時間,我覺得這挺好的 最後,...