有了提前中止防止過擬合方法為什麼還需要L1,L2,dropout防止過擬合的方法

1樓：「已登出」

因為L1 L2等正則化方法的功能和性質並不相同，計算學習理論給出了證明。如樣本量、輸入資料稀疏性表現、概率約束強度、模型的表達能力等因素對不同正則化方法產生的影響是不同的，例如L1正則化通常意味著更理想的泛化誤差上界，但同時更難訓練。而對稀疏資料，例如One-hot編碼的分類離散資料，L1正則化被證明不能給出理想上界，並不適合。

所以我們需要不同的防止過擬合的方式，因為對於具體的場景，並沒有乙個通用的萬能方法。需要我們來分析、選擇合適的方式。

2樓：Hquery

單純就題主的問題回答。

過擬合的根本原因從統計機器學習的角度來說是訓練集和測試集的分布差異導致的。

它的存在是不可消除的，只能用各種手段來減弱。

為什麼還要l1，l2，dropout？因為這些手段可以增強泛化性，進一步減輕過擬合。

3樓：公尺迦勒

個人感覺L1、L2和dropout是從數學原理上就能解釋防止過擬合的

早停是從經驗上制定的規則，而且要基於驗證集和訓練集的概率分布不一樣的假設，如果一樣實際就失去了防止過擬合的能力。

4樓：悲戀花丶無心之人

Early stopping是訓練資料集迭代收斂之前停止迭代來防止過擬合，比較直觀；

L1和L2規範化是權重衰減（weight decay），懲罰大的權重；

每種方法都是不相同的，個人感覺第一種方法僅僅判斷validation data的準確率是否上公升，通過這個來判斷是否過擬合，有點主觀；後兩者，都是對神經網路進行健壯性加強，讓神經網路自己來調節權重防止過擬合，比較客觀。

5樓：帶帶小師弟

我覺得可以這樣理解，加入了這些防止過擬合的方法包括data augmentation 等，可以使得模型訓練更多的epoch才到達需要early stop的節點，讓模型可以更充分的擬合資料，提公升擬合能力。如果不加這些抑制過擬合的方法，在模型的擬合能力較差的時候就發生了過擬合現象而停止訓練，精度會較低。

有了提前中止防止過擬合方法為什麼還需要L1,L2,dropout防止過擬合的方法

有了 JMeter，為什麼還需要 MeterSphere？

為什麼陳冠希有了自己的品牌 CLOT 還需要代言阿迪達斯 original（三葉草）系列？

為什麼彈鋼琴還需要上課？為什麼鋼琴有教科書？

其他用戶還看了：