現在神經網路中的每一層的啟用函式為什麼都是一樣的?

時間 2021-05-30 22:21:32

1樓:ZhH Tan

首先根據萬能逼近定理,有界的連續啟用函式(不包括Relu)是能夠任意逼近連續函式的,這個性質有時候被稱為一致性。Relu本身是分段線性函式,也具有一致性。換言之,在給定的節點足夠多的情況下用什麼啟用函式都是一樣的。

但是實際使用的節點都是有限的,這個時候我們考慮免費午餐的問題。由於不知道真正的待逼近函式本身,自然使用任何啟用函式的期望風險都是一樣的,因此就可以不存在所謂最優的啟用函式組合。

話雖如此,在已知待逼近函式某些性質的時候(如卷積層所隱含的區域性性結構),就可以通過設計網路來反應這種函式的性質,從而得到更好的表現。但目前並沒有從啟用函式的角度設計網路的工作,主要還是因為對待逼近函式本身的了解不足。

2樓:aluea

瀉藥這是需求層面上的問題,舉乙個模擬的例子,比如我們要用氫原子和氧原子生成水分子。

而氫原子有很多同位素,氕氘氚等等,用哪一種呢,用哪種都一樣,應為我們要的只是水分子。

用不同的同位素,固然會有不同的性質,但我們只要能生成水分子就夠了,不關心其性質。

在模型上,我們只要其能夠收斂並工作良好就夠了,並不關心其具有怎樣的隱藏性質。

對於DL而言一層神經網路加上Relu啟用,滿足了逼近乙個高階函式所有的條件。多層就是復合高階函式。世界上沒有任何一種現象是不能用函式描述的,如果有,那就是你的函式不夠複雜。

剩下的,無論是提高算力,調整結構,改善資料和訓練方法,預處理和初始化都比擺弄啟用函式的收益要高。

3樓:King Kong

問這個問題說明你是比我還白的小白

真的想嘗試的話當然可以,但那樣帶來的提公升比全都用一樣的relu幾乎可以忽略不計,甚至很難有提公升,也沒有意義。

4樓:Chuang

當然可以在不同的層設定不同的啟用函式,但是什麼樣的任務配什麼樣的啟用函式,前人也有過很多嘗試和經驗了。按前輩們的「基本法」來就好了。

如果非得標新立異,那就按照 @Strickland 說的,暴力遍歷就好。

總有一款適合你。

5樓:Strickland

煉丹就完事兒了,算力足夠的話,直接暴力遍歷啊;但其實花那麼大的代價去求activation function的最優組合的提公升沒那麼大,所以不值得這麼去做

神經網路中隱層有確切的含義嗎?

令狐arfmaof 產品渣剛好看nlp的書到這塊,有點懵,自己強行解釋130 120 250 360 110.兩者表示的意義是一樣的,但是表達的方式不太一樣。數學解釋是可以把這些數字分別換成兩組引數。看到這裡,原來真的不是演算法忽悠我,而是演算法真的是玄學啊。感覺羅博士說的最好哈。 已登出 大部分來...

卷積神經網路中,那個卷積輸出層的通道數 深度 的計算?

小心心 Fig.1影象卷積過程gif 關於這個問題,可能剛接觸卷積神經網路對這個都會有很多誤解。今天就來大體一說,根據從 笑可結緣https 那裡得到的圖 侵刪 一般我們的影象在輸入的時候是有通道的,例如黑白影象是單通道的 input channel 1 rgb是3通道的 如Fig.1所示,inpu...

神經網路中Belief Net和標準的神經網路有什麼區別?

金天 這個已經深埋地下的問題今天在下挖出來回答一番,拂去歲月的塵埃這個問題還是值得一答,也值得大家一讚.我的思考 1.DBN本質是RBM一層層的堆疊,那麼問題在於RBM與標準傳統簡單的神經網路有毛線區別呢?我們知道RBM可見層與隱藏層之間是全連線的,而hidden和hidden之間是沒有連線的,這個...