深度學習中如何選好啟用函式和損失函式?

時間 2021-05-14 11:41:44

1樓:雲程萬里

如果資料中的雜訊較強,可以考慮軟閾值函式:

軟閾值函式的梯度要麼是零,要麼是一,跟ReLU啟用函式相似:

問題在於,閾值τ該怎麼取值呢?

閾值τ必須為正數,而且不能太大。太大的話,輸出就全部為零了。

其實可以借助類似Squeeze-and-Excitation Network的結構,自動設定,就是深度殘差收縮網路

M. Zhao, S. Zhong, X.

Fu, et al., Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

2樓:

啟用函式和損失函式是深度學習領域中的兩個重要課題。其實應該加入更多因素,比如網路寬度,網路深度和權重初始化方法等。

1、啟用函式,提供非線性啟用,通常情況下,可以選ReLU。

2、損失函式,定義了網路的「任務」,通常情況下,回歸任務就是L1和L2,分類任務就是softmax+cross-entropy。

李巨集毅的課程可以給你更多啟示。Train不起了,著急,怎麼辦?

3樓:

啟用函式是為了加非線性,輸出一般最好有個限制,比如加tanh或者sigmoid,即使你是做regression,這樣往往更容易訓練。Loss一般做分類用CrossEntropy做回歸L2,做影象生成用L1。如果考慮到data imbalance的問題,可以用focal loss。

考慮data 歸一化問題應先將data歸一化後再進行訓練。

4樓:小小將

目前對於啟用函式一般選用ReLU等,對於損失函式,如果是分類就選用softmax+最大似然,如果是回歸用L2或者L1。對於深度學習模型來說,啟用函式和損失函式的選擇有限,不算太難調的。大部分的調參在於網路結構,學習速率等。。

深度學習中的優化演算法 NAdam 和 Nesterov Adam 有區別麼 區別在哪?

溪亭日暮 Ruder,S.2016 An overview of gradient descent optimization algorithms.arXiv preprint arXiv 1609.04747.Dozat,T.2016 Incorporating nesterov momentum...

機器學習(包括但不限於深度學習)和優化演算法中有哪些 fundamental trade off?

Ning Lee 最基本的兩個 exploration exploitation trade off 探索與守成 計算複雜度 vs 模型效能 舉例來說 增強學習中的典型問題,是探索新領域還是在舊的領域裡面取最好的 多臂賭博機問題 LSTM中sample word的數量,顯然考慮更多的word能提公升...

深度學習,神經網路中,如何調節weight(以及其原理)?

陳瀚可 半年後的我終於有能力回答我自己沒水準的問題 由於資料集非常大的緣故,在 batch size 比較大的情況下梯度較於平緩.local minimum 實際上已經是乙個很不錯的 solution 了.如果要跳出 local minimum,可以使用 sin 形狀的 learning rate ...