為什麼nn的較大問題是會陷入區域性最優時,不選用凸函式作為啟用函式?

時間 2021-05-14 15:09:02

1樓:

@Filestorm 的解釋很好,我這裡再簡單補充一下,根據現在最新的研究成果,多層神經網路,大部分區域性極小值都在底部 ,已經非常接近全域性最小值, 大家看下面這張圖,可能就更清楚了.

這張圖,橫座標是臨界點,縱座標是錯誤率,可以看到,大部分臨界點的確都已經很接近全域性最小了.

以我們平時的經驗來看,訓練到底的全域性最小值往往意味著過擬合 ,找到全域性最小也許反而是件壞事

2樓:

前面都說好,非科班說點其它的瑣碎的,啟用函式的選擇對大資料下的漸近泛化行為有影響。富有啟發性質的啟用函式理論分析,參考Statistical Mechanics of Learning A. Engel, C.

Van den Broeck。

另外,我覺得,NN是凸的話才會是問題,有一些觀點認為, 智慧型就應該是高度非凸的。基本到學習問題,如果是凸的話, 最小值附近的函式形式基本「決定」了函式的整體性質。 以至於, 損失函式大部分地方的存在可有可無, 這樣在資料的表達上,主要依賴最小值附近的區域表達,浪費了很多隱藏區域,目測很容易達到效能瓶頸。

3樓:sherwood

其實這個問題在PRML當中已經有比較好的說明,裡面是這麼解釋nn的區域性極值問題的,假設我們中間有M層,假設M層的神經網路個數是一致的,我們把所有的權值變成負數,然後提高閾值,就可以發現和原來的值是一樣的,然後我們假設所有的神經元個數都是一樣的,那麼,至少有M!2^M種和當前一樣的情況,手機打的,排版不好見諒:)具體的話在prml的232頁,章節5.1.1

4樓:Filestorm

@li Eta 答得很好。

關於第一點

為什麼陷入區域性最優,根本不是NN的問題

貌似並沒展開說。我正好得空,補充一下

大家以前認為,deep learning的loss的形狀會是布滿彈坑的樣子:

於是,梯度下降到local minimum如果不是global minimum就出大問題了。

但其實對於deep learning,我們是在乙個非常高維的世界裡做梯度下降。這時的 local minimum 很難形成,因為區域性最小值要求函式在所有維度上都是區域性最小。更實際得情況是,函式會落到乙個saddle-point上,如下圖:

在saddle-point上會有一大片很平坦的平原,讓梯度幾乎為0,導致無法繼續下降。

反倒是local/global minimum的問題,大家發現其實不同的local minimum其實差不多(反正都是over-fitting training data,lol)

推薦閱讀Bengio組的這兩篇:

On the saddle point problem for non-convex optimization

Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

各位覺得可能會影響我們國家發展最大問題是什麼?應該如何應對?

人情社會,圈子社會。新中國70年最拿得出手的成就就是中國工業化了。但是我個人認為只是國家層面和器物上的工業化。整個社會上的人,乃至上層建築的思維方式都沒完全脫離農業社會。當然,我們還在進步,這是毋庸置疑的,我們的經濟從economy 依靠農民 到一帶一路的轉變就是最好的證明。工業社會,分工細化,逐漸...

廣告人面臨的最大問題是什麼?

廣告公司沒有進行市場調查,不懂投放廣告方的實時業務,卻可以直接出創意。投放廣告方不懂廣告營銷但是卻可以直接修改作品,可以對作品有著絕對的否定權力。 芝麻綠豆 一點想法 第一,經濟形勢不好,整體廣告業肯定受影響 第二,消費者消費行為因為網際網路產生變化,因為個性化需求會使小而美的企業越來越多,對應的服...

20歲 30歲的你們現在面臨的最大問題是什麼?

愚蠢至極的傻子 1.工作 今年裸辭已經快兩個月沒有工作了,幸好以前工作省吃儉用存了點錢,上乙份工作我不喜歡公司氛圍,雖然福利待遇什麼的都挺好的,但是工作很枯燥而且感覺自己沒有什麼核心競爭力,現在的我很迷茫不知道以後要做什麼,也不知道想做什麼。2.婚姻 之前工作的環境雖然很大一部分是男同事,但是好的都...