兩層的神經網路已經可以擬合任意函式，為什麼還要用多層的神經網路？

1樓：

理論上是這麼說的，但實際上無法操作。

硬要用兩層模型的話，可能需要非常多的神經元才能完成任務，引數和計算量會多到在目前裝置上不實用，而且在同樣訓練資料下，DNN比兩層網路更容易學出效果，或者說，想把2層網路訓練到和目前DNN效果一樣，你可能需要超大的訓練資料量才可以，或者換一種全新的學習演算法，其實說到底還是學習演算法不夠好，無論是調網路結構還是調loss還是各種trick，都是在幫助學習演算法更容易學到優秀的特徵，比如CNN，從結構上就已經給網路定好了型，感受野學習影象的區域性二維資訊+共享權值縮小參數量，相當於人給機器「喂招」，開個腦洞，如果學習演算法夠好，搞乙個深層感知機，也可以自己學習出CNN甚至更優結構，如果有這樣的演算法，再進一大步，大概就可以做到兩層網路擬合任意函式了。

P.S：很早之前，有一些人就想直接搞出這種學習演算法，比如「極限學習機」，但沒什麼太知名的成果，或許這個ELM和「萬能逼近定理」都是科技樹上歪出去的乙個小分支，我們需要重新審視，或許目前整個DL體系都是乙個中型分支，很快就到盡頭？

研究的路要一步一步走，是非功過自有後人評說。

2樓：船長

是的，萬能近似定理告訴我們兩層神經網路已經可以擬合任意函式，但是實際上我們還是用多層神經網路多一點，理由有以下兩點：

第一，引數個數，相同的引數個數下，多層神經網路表達能力更好。

第二，單層引數個數太多，訓練很困難，不如多層（但每層神經元個數少）訓練簡單。

先挖坑，有空再填。

兩層的神經網路已經可以擬合任意函式，為什麼還要用多層的神經網路？

卷積神經網路的通道數隨著網路深度逐層加倍是有依據的嗎？

神經網路中隱層有確切的含義嗎？

神經網路進行二分類時，輸出層使用兩個神經元和只使用乙個神經元，模型的效能有何差異，為什麼？

其他用戶還看了：