為什麼在普通神經網路中，訓練的誤差實際上是隨著網路層數的加深，先減小再增加

1樓：好逸惡勞

如果最後訓練集誤差很小，而驗證集誤差偏大，一般就是過擬合，在網路容量不變的情況下，可以加入dropout，引數正則化等，再去試一下看看驗證誤差有沒有減小。判斷一下是不是過擬合的問題。

前幾天我在寫乙個簡單的卷積網路時也發現了類似的問題，測試集準確率先公升後降，後來調整了學習率後就好了。

2樓：淺小思

先說對不對，再說為什麼。首先，這種說法是不對的，在單層引數個數一致的情況下，越深的網路層數，其所能表徵的對映函式越複雜，擬合能力也越好。所以在訓練樣本充足的情況下，越深的網路結構表現的訓練誤差越小。

而在樣本數量固定的情況下，就會面臨著過擬和欠擬的折衷而出現V字形了。

3樓：[已重置]

可以這麼理解，網路深度決定了網路的複雜度，乙個演算法的複雜度可以認為是演算法空間中測地線的長度，所以乙個深度網路可以理解為一條有一定長度的曲線。然後你通過資料訓練調整引數改變曲線的形狀，用這條曲線去構造一條從恒等變換到目標變換的路徑。這裡就有乙個曲線長度和目標變換複雜度的匹配問題，網路複雜度逐漸增加，就是曲線由短變長，顯然只有在長度和問題複雜度匹配的時候效果最好，過短過長都不好。

這就是你觀察到的現象。

至於ResNet，因為這個結構是模擬乙個微分方程，其每個模組是乙個區域性差分，差分的步長實際上是可以自適應的，也就是說這個結構的曲線的長度可以通過調整網路引數達到自適應調整，所以其效能更穩定也更靈活，比一般的網路結構好。但是也不是越長越好，不信你用一萬層試試。

為什麼在普通神經網路中，訓練的誤差實際上是隨著網路層數的加深，先減小再增加

在卷積神經網路中卷積核為什麼都是方形的？

為什麼要用GPU來訓練神經網路而不是CPU？

為什麼多層的卷積神經網路訓練時不用深度學習方法訓練，難道誤差梯度不會逐層擴散和消失？

其他用戶還看了：

為什麼在普通神經網路中，訓練的誤差實際上是隨著網路層數的加深，先減小再增加

在卷積神經網路中卷積核為什麼都是方形的？

為什麼要用GPU來訓練神經網路而不是CPU？

為什麼多層的卷積神經網路訓練時不用深度學習方法訓練，難道誤差 梯度不會逐層擴散和消失？

其他用戶還看了：

為什麼多層的卷積神經網路訓練時不用深度學習方法訓練，難道誤差梯度不會逐層擴散和消失？