為什麼nn的較大問題是會陷入區域性最優時，不選用凸函式作為啟用函式？

1樓：

@Filestorm 的解釋很好，我這裡再簡單補充一下，根據現在最新的研究成果，多層神經網路，大部分區域性極小值都在底部，已經非常接近全域性最小值, 大家看下面這張圖,可能就更清楚了.

這張圖,橫座標是臨界點,縱座標是錯誤率,可以看到,大部分臨界點的確都已經很接近全域性最小了.

以我們平時的經驗來看，訓練到底的全域性最小值往往意味著過擬合，找到全域性最小也許反而是件壞事

2樓：

前面都說好，非科班說點其它的瑣碎的，啟用函式的選擇對大資料下的漸近泛化行為有影響。富有啟發性質的啟用函式理論分析，參考Statistical Mechanics of Learning A. Engel， C.

Van den Broeck。

另外，我覺得，NN是凸的話才會是問題，有一些觀點認為, 智慧型就應該是高度非凸的。基本到學習問題，如果是凸的話, 最小值附近的函式形式基本「決定」了函式的整體性質。以至於，損失函式大部分地方的存在可有可無，這樣在資料的表達上，主要依賴最小值附近的區域表達，浪費了很多隱藏區域，目測很容易達到效能瓶頸。

3樓：sherwood

其實這個問題在PRML當中已經有比較好的說明，裡面是這麼解釋nn的區域性極值問題的，假設我們中間有M層，假設M層的神經網路個數是一致的，我們把所有的權值變成負數，然後提高閾值，就可以發現和原來的值是一樣的，然後我們假設所有的神經元個數都是一樣的，那麼，至少有M!2^M種和當前一樣的情況，手機打的，排版不好見諒：)具體的話在prml的232頁，章節5.1.1

4樓：Filestorm

@li Eta 答得很好。

關於第一點

為什麼陷入區域性最優，根本不是NN的問題

貌似並沒展開說。我正好得空，補充一下

大家以前認為，deep learning的loss的形狀會是布滿彈坑的樣子:

於是，梯度下降到local minimum如果不是global minimum就出大問題了。

但其實對於deep learning，我們是在乙個非常高維的世界裡做梯度下降。這時的 local minimum 很難形成，因為區域性最小值要求函式在所有維度上都是區域性最小。更實際得情況是，函式會落到乙個saddle-point上，如下圖：

在saddle-point上會有一大片很平坦的平原，讓梯度幾乎為0，導致無法繼續下降。

反倒是local/global minimum的問題，大家發現其實不同的local minimum其實差不多（反正都是over-fitting training data，lol）

推薦閱讀Bengio組的這兩篇：

On the saddle point problem for non-convex optimization

Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

為什麼nn的較大問題是會陷入區域性最優時，不選用凸函式作為啟用函式？

各位覺得可能會影響我們國家發展最大問題是什麼？應該如何應對？

廣告人面臨的最大問題是什麼？

20歲 30歲的你們現在面臨的最大問題是什麼？

其他用戶還看了：