現在神經網路中的每一層的啟用函式為什麼都是一樣的？

1樓：ZhH Tan

首先根據萬能逼近定理，有界的連續啟用函式（不包括Relu）是能夠任意逼近連續函式的，這個性質有時候被稱為一致性。Relu本身是分段線性函式，也具有一致性。換言之，在給定的節點足夠多的情況下用什麼啟用函式都是一樣的。

但是實際使用的節點都是有限的，這個時候我們考慮免費午餐的問題。由於不知道真正的待逼近函式本身，自然使用任何啟用函式的期望風險都是一樣的，因此就可以不存在所謂最優的啟用函式組合。

話雖如此，在已知待逼近函式某些性質的時候（如卷積層所隱含的區域性性結構），就可以通過設計網路來反應這種函式的性質，從而得到更好的表現。但目前並沒有從啟用函式的角度設計網路的工作，主要還是因為對待逼近函式本身的了解不足。

2樓：aluea

瀉藥這是需求層面上的問題，舉乙個模擬的例子，比如我們要用氫原子和氧原子生成水分子。

而氫原子有很多同位素，氕氘氚等等，用哪一種呢，用哪種都一樣，應為我們要的只是水分子。

用不同的同位素，固然會有不同的性質，但我們只要能生成水分子就夠了，不關心其性質。

在模型上，我們只要其能夠收斂並工作良好就夠了，並不關心其具有怎樣的隱藏性質。

對於DL而言一層神經網路加上Relu啟用，滿足了逼近乙個高階函式所有的條件。多層就是復合高階函式。世界上沒有任何一種現象是不能用函式描述的，如果有，那就是你的函式不夠複雜。

剩下的，無論是提高算力，調整結構，改善資料和訓練方法，預處理和初始化都比擺弄啟用函式的收益要高。

3樓：King Kong

問這個問題說明你是比我還白的小白

真的想嘗試的話當然可以，但那樣帶來的提公升比全都用一樣的relu幾乎可以忽略不計，甚至很難有提公升，也沒有意義。

4樓：Chuang

當然可以在不同的層設定不同的啟用函式，但是什麼樣的任務配什麼樣的啟用函式，前人也有過很多嘗試和經驗了。按前輩們的「基本法」來就好了。

如果非得標新立異，那就按照 @Strickland 說的，暴力遍歷就好。

總有一款適合你。

5樓：Strickland

煉丹就完事兒了，算力足夠的話，直接暴力遍歷啊；但其實花那麼大的代價去求activation function的最優組合的提公升沒那麼大，所以不值得這麼去做