有了提前中止防止過擬合方法為什麼還需要L1,L2,dropout防止過擬合的方法

時間 2021-05-12 01:47:01

1樓:「已登出」

因為L1 L2等正則化方法的功能和性質並不相同,計算學習理論給出了證明。如樣本量、輸入資料稀疏性表現、概率約束強度、模型的表達能力等因素對不同正則化方法產生的影響是不同的,例如L1正則化通常意味著更理想的泛化誤差上界,但同時更難訓練。而對稀疏資料,例如One-hot編碼的分類離散資料,L1正則化被證明不能給出理想上界,並不適合。

所以我們需要不同的防止過擬合的方式,因為對於具體的場景,並沒有乙個通用的萬能方法。需要我們來分析、選擇合適的方式。

2樓:Hquery

單純就題主的問題回答。

過擬合的根本原因從統計機器學習的角度來說是訓練集和測試集的分布差異導致的。

它的存在是不可消除的,只能用各種手段來減弱。

為什麼還要l1,l2,dropout?因為這些手段可以增強泛化性,進一步減輕過擬合。

3樓:公尺迦勒

個人感覺L1、L2和dropout是從數學原理上就能解釋防止過擬合的

早停是從經驗上制定的規則,而且要基於驗證集和訓練集的概率分布不一樣的假設,如果一樣實際就失去了防止過擬合的能力。

4樓:悲戀花丶無心之人

Early stopping是訓練資料集迭代收斂之前停止迭代來防止過擬合,比較直觀;

L1和L2規範化是權重衰減(weight decay),懲罰大的權重;

每種方法都是不相同的,個人感覺第一種方法僅僅判斷validation data的準確率是否上公升,通過這個來判斷是否過擬合,有點主觀;後兩者,都是對神經網路進行健壯性加強,讓神經網路自己來調節權重防止過擬合,比較客觀。

5樓:帶帶小師弟

我覺得可以這樣理解,加入了這些防止過擬合的方法包括data augmentation 等,可以使得模型訓練更多的epoch才到達需要early stop的節點,讓模型可以更充分的擬合資料,提公升擬合能力。如果不加這些抑制過擬合的方法,在模型的擬合能力較差的時候就發生了過擬合現象而停止訓練,精度會較低。

有了 JMeter,為什麼還需要 MeterSphere?

maninhill Build 測試指令碼錄製增強 提供指令碼錄製 Chrome 外掛程式,並統一儲存在乙個平台上 Scale 規模擴充套件性增強 壓測執行節點按需建立和安裝,輕鬆支援大規模效能測試 Analyze 測試報告分析增強 實時的效能測試報告展示,多次測試結果可以快速比較 Integrat...

為什麼陳冠希有了自己的品牌 CLOT 還需要代言阿迪達斯 original(三葉草)系列?

金九九 不討厭李晨,但是,他那長相出的潮牌你們穿的下去?他現在最大的名號是,大黑牛。話說他的團隊沒考慮過定位問題?鄭愷陳赫就不提了。批發市場買一套黑色空氣棉打上豬和屁的補丁就成潮牌了 五更瑠璃 先不說EDC的clot。李晨,鄭愷,陳赫,羅志祥的主理品牌比得上clot的影響力嗎?李晨的npc質量差還賣...

為什麼彈鋼琴還需要上課?為什麼鋼琴有教科書?

年華為夏 自學走彎路,彎路也有限,所以能走完,找好老師上幾節課的內容可以練一年,再找老師繼續練一年,以此類推,只是乙個練習時間的問題,我樂器剛開始全是自學,鋼琴吉他大提琴,練幾個月幾年進步也有,但太緩慢,找個老師練練英雄幾周,感覺就不一樣了,因人而異,我學東西快 王康卜 鋼琴課是系統學習,鋼琴學習就...