為什麼小模型已經可以很好地擬合資料集了,換大模型效果卻要比小模型好?

時間 2021-05-06 13:01:40

1樓:黃家君

周志華:Boosting學習理論的探索 —— 乙個跨越30年的故事

可以看看周志華老師的這篇文章,講「AdaBoost為何不發生過擬合」

2樓:伊禮呵撒稜

小模型學習不到資料的深層特徵,大模型可以。當大模型學習到的特徵大於大模型的過擬合效果,大模型表現就比小模型要好。當模型無限增大,達到乙個極限,泛化能力就下降。

沒做實驗驗證,有興趣的可以做實驗尋找這個極限。預計這個極限跟資料集有關,資料集越複雜,極限越高。

3樓:丶favor

這個問題很有意思,我個人的思考是,網路訓完之後只有部分神經元是真正有效的。換而言之,其他無效的神經元剪掉也不怎麼影響精度,這就是剪枝的基本原理。

那麼為什麼只有部分神經元是有效的呢?這和網路的結構和初始化有很大的關係。乙個已經被研究了很多的例子是multi-head attention,實際上MHA多個heads學到的東西是一樣的。

更直觀地,我舉個例子。乙個3×3卷積中的每個神經元的輸入是一樣的,變換是一樣的,只有初始化不一樣。假設初始化完全一樣,理想情況下相當於只有乙個神經元是有效的。

另外,結構的不同也導致了優化過程的不同,也會有影響。

再回來說大模型為什麼比小模型好,也就是過引數化的好處。其實小模型可以看成是大模型的乙個子集,正常情況下,大模型的有效神經元一定是大於等於小模型的。這就是為什麼大模型好的原因,而剪枝就通過裁剪這些無效神經元來達到模型壓縮的目的。

其實題主說的沒錯的一點是,一定量的有效神經元足以擬合整個資料集,但是如何做到其實是很難的一件事。NAS,模型設計,資料增強等等都是為了達到這個目的。增大模型只是一方面,但是會有瓶頸,比如resnet1001比resnet101也沒高多少。

4樓:Xenophon Tony

說明傳統的Rademacher complexity不適合於解釋深度學習中over-parametrization的問題,推薦一篇有趣的文章(Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks),文中針對兩層網路提出了乙個新的capacity bound能隨著hidden unit數量增加而降低,因此作者認為這可能可以解釋為什麼大網路有時候generalize得更好。

5樓:mast

因為小模型,他也有很多(幾萬幾十萬)的引數。

足夠產生過擬合/欠擬合。

傳統機器學習的那一套大小理論在深度學習領域並不適用。

6樓:

第一,小模型的解空間不一定包含最佳解,第二,解空間小了,但區域性解之間的連通性可能差了,不一定容易找到好解,甚至是好解的密度降低了,更不易優化,第三,較大模型解空間中好解更容易形成連通子空間,不同解之間的能量隙更小,優化起來更大概率找到好解

7樓:程先生的小賣部

從自己的經驗來看,」小模型可以擬合資料集地情況下應該大模型很容易過擬合。「這個結論還是值得商榷的,如果只是模型引數多導致的」大「但是權重引數很簡單稀疏(比如加了L2正則),反而是泛化能力比小模型更好吧。

8樓:唐申庚

模型的誤差或者風險(結構風險)分為兩部分,一是經驗風險,另乙個是置信風險。這些風險主要與樣本數和模型複雜度有關。你所說的大模型和小模型指的就是模型複雜度,經驗風險與樣本數正相關、與模型複雜度負相關,置信風險與樣本數負相關、與模型複雜度正相關。

所以一味的追求過大或者過小的模型都是不可取的,需要在二者中尋求平衡。

另外看你的描述內容,你需要區分的是訓練集和測試集。在訓練集上進行一定程度的擬合能夠提高模型在測試集上的泛化效能,但過擬合卻會造成相反的結果。這是基本概念的補充,多跑跑實驗會有經驗很多。

9樓:孫力

有的時候大模型+正則會比單純的小模型更加的泛化。

在神經網路中有這樣一種猜想:SGD自帶regularization的效果。具體原因可以理解為我們初始化的值都在原點附近,而SGD就會沿著原點附近去找local minima,這樣就相當於限制了weight的大小。

所以在某些神經網路中,大的模型反而泛化效果更好一些。

10樓:隨便兒

看幾位大佬的解釋,感覺照著推的話,同樣的結構下大了肯定比小了好(可能我理解錯了),但直覺上這樣肯定有問題。比如ALBERT這張圖里,bert-large再增大hidden_size,表現也會下降。

11樓:

忍不住是吧.....

訓練模型的時候都知道防止過擬合,強調泛化能力。

總結訓練經驗和時候就把NFL和過擬合的概念扔一邊去了.....

模型的loss是那樣了,你這邊作為乙個參與者的loss還按住整個資料集不放...

那麼這個所謂的規律,到底在多少場景下會出現呢?

和所謂模型大小到底有沒有關係?

12樓:Narsil

感覺到了一絲傳統統計思想的荼毒(x

推薦dz看一下Belkin的double descent (https://

arxiv.org/abs/1812.11118),(overparametrized的)神經網路的risk-compacity curve和傳統模型的是不一樣的

13樓:Liyuan Liu

分享一下前幾天學習的新知識...

overfit 的模型複雜度,是乙個區間,而不是乙個half-space.

但實際上可能是: 欠擬合 -> 不錯 -> 過擬合 -> 甚至更好有張圖在:

過擬合應當增加網路層數還是減少層數?

原talk 錄影在 (我覺得這talk真挺有意思的...):

From Classical Statistics to Modern ML: the Lessons of Deep Learning

14樓:靈劍

按我理解,本質上來說神經網路無論如何訓練,最終得到的仍然是乙個連續可導(甚至是無窮次可導)的函式,而理想的結果以二分類網路為例,永遠輸出的是0,1的二值,是個不連續的函式,因而永遠無法精確擬合到想要的結果上,要想擬合的好自然只能增加階數。過擬合的問題在於訓練資料並不是真實的樣本空間,而是樣本空間的取樣,訓練類似於在這個空間上做多項式插值這樣的操作,多項式天然是起起伏伏的,如果訓練取樣的數量不夠,就會在訓練資料以外的點上變成起起伏伏的形狀,也就是過擬合了。但只要資料足夠充分,原理上來說一定會比小模型的結果好。

兩層的神經網路已經可以擬合任意函式,為什麼還要用多層的神經網路?

理論上是這麼說的,但實際上無法操作。硬要用兩層模型的話,可能需要非常多的神經元才能完成任務,引數和計算量會多到在目前裝置上不實用,而且在同樣訓練資料下,DNN比兩層網路更容易學出效果,或者說,想把2層網路訓練到和目前DNN效果一樣,你可能需要超大的訓練資料量才可以,或者換一種全新的學習演算法,其實說...

為什麼要壓縮模型,而不是直接訓練乙個小的CNN?

木頭人 我補充一下,Gradient Descent Finds Global Minima of Deep Neural Networks 和 Global Optimality in Neural Network Training 在理論上證明,在當前的優化演算法下,小模型比大模型更難求解。但是...

為什麼很好的女生關係 突然可以不理

我也不知道啊,我去年就跟乙個朋友冷戰,莫名其妙的沒有緣由。那段時間她對我莫名疏遠了,叫她陪我上廁所,總是以各種理由拒絕,問她一些事情她也是表現得很不想搭理的那種樣子。我也不知道我錯在哪了,一直貼著她緩和關係。可是這樣使得我好累,於是我就上知乎看了大家的意見,算是釋懷了,都是第一次做人,我為什麼委屈自...