深度學習中如何選好啟用函式和損失函式？

1樓：雲程萬里

如果資料中的雜訊較強，可以考慮軟閾值函式：

軟閾值函式的梯度要麼是零，要麼是一，跟ReLU啟用函式相似：

問題在於，閾值τ該怎麼取值呢？

閾值τ必須為正數，而且不能太大。太大的話，輸出就全部為零了。

其實可以借助類似Squeeze-and-Excitation Network的結構，自動設定，就是深度殘差收縮網路：

M. Zhao, S. Zhong, X.

Fu, et al., Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

2樓：

啟用函式和損失函式是深度學習領域中的兩個重要課題。其實應該加入更多因素，比如網路寬度，網路深度和權重初始化方法等。

1、啟用函式，提供非線性啟用，通常情況下，可以選ReLU。

2、損失函式，定義了網路的「任務」，通常情況下，回歸任務就是L1和L2，分類任務就是softmax+cross-entropy。

李巨集毅的課程可以給你更多啟示。Train不起了，著急，怎麼辦？

3樓：

啟用函式是為了加非線性，輸出一般最好有個限制，比如加tanh或者sigmoid，即使你是做regression，這樣往往更容易訓練。Loss一般做分類用CrossEntropy做回歸L2，做影象生成用L1。如果考慮到data imbalance的問題，可以用focal loss。

考慮data 歸一化問題應先將data歸一化後再進行訓練。

4樓：小小將

目前對於啟用函式一般選用ReLU等，對於損失函式，如果是分類就選用softmax+最大似然，如果是回歸用L2或者L1。對於深度學習模型來說，啟用函式和損失函式的選擇有限，不算太難調的。大部分的調參在於網路結構，學習速率等。。