兩層的神經網路已經可以擬合任意函式,為什麼還要用多層的神經網路?

時間 2021-06-06 22:41:09

1樓:

理論上是這麼說的,但實際上無法操作。

硬要用兩層模型的話,可能需要非常多的神經元才能完成任務,引數和計算量會多到在目前裝置上不實用,而且在同樣訓練資料下,DNN比兩層網路更容易學出效果,或者說,想把2層網路訓練到和目前DNN效果一樣,你可能需要超大的訓練資料量才可以,或者換一種全新的學習演算法,其實說到底還是學習演算法不夠好,無論是調網路結構還是調loss還是各種trick,都是在幫助學習演算法更容易學到優秀的特徵,比如CNN,從結構上就已經給網路定好了型,感受野學習影象的區域性二維資訊+共享權值縮小參數量,相當於人給機器「喂招」,開個腦洞,如果學習演算法夠好,搞乙個深層感知機,也可以自己學習出CNN甚至更優結構,如果有這樣的演算法,再進一大步,大概就可以做到兩層網路擬合任意函式了。

P.S:很早之前,有一些人就想直接搞出這種學習演算法,比如「極限學習機」,但沒什麼太知名的成果,或許這個ELM和「萬能逼近定理」都是科技樹上歪出去的乙個小分支,我們需要重新審視,或許目前整個DL體系都是乙個中型分支,很快就到盡頭?

研究的路要一步一步走,是非功過自有後人評說。

2樓:船長

是的,萬能近似定理告訴我們兩層神經網路已經可以擬合任意函式,但是實際上我們還是用多層神經網路多一點,理由有以下兩點:

第一,引數個數,相同的引數個數下,多層神經網路表達能力更好。

第二,單層引數個數太多,訓練很困難,不如多層(但每層神經元個數少)訓練簡單。

先挖坑,有空再填。

卷積神經網路的通道數隨著網路深度逐層加倍是有依據的嗎?

Crimson Sky 我覺得可以從這個角度來理解,因為深度增加,downsample的次數也增加了,這樣會丟失很多資訊.為了彌補這些損失,我們就需要增加channel的數量,以達到捕捉更多資訊的效果.換個角度的話,由於深層特徵圖尺寸小,增加channel數量對視訊記憶體和計算速度的影響沒那麼大,所...

神經網路中隱層有確切的含義嗎?

令狐arfmaof 產品渣剛好看nlp的書到這塊,有點懵,自己強行解釋130 120 250 360 110.兩者表示的意義是一樣的,但是表達的方式不太一樣。數學解釋是可以把這些數字分別換成兩組引數。看到這裡,原來真的不是演算法忽悠我,而是演算法真的是玄學啊。感覺羅博士說的最好哈。 已登出 大部分來...

神經網路進行二分類時,輸出層使用兩個神經元和只使用乙個神經元,模型的效能有何差異,為什麼?

採石工 理論上兩者是沒有差異的。分析如下 1 先引入Logistic函式和softmax函式的定義logistic函式定義為 logistic函式還可以稱為sigmoid函式,expit函式 SciPy中即採用此名稱 softmax函式定義為 softmax函式是多元向量值函式。2 再引入sigmo...