你在訓練RNN的時候有哪些特殊的trick？

1樓：無非

重要的事情說三遍：orthogonal初始化，orthogonal初始化，orthogonal初始化

乙個簡單易懂的文章見：Explaining and illustrating orthogonal initialization for recurrent neural networks

有時orthogonal初始化+prelu/elu activation 配合使用食味更佳。。。

如果是用gru，另外可以嘗試用最開始這篇文獻的decoder gru cell框架[1406.1078] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

就是cell的輸入多了乙個context/summary的hidden state 資訊。我用tf沒找到直接能呼叫的API不過在自帶的gru cell的基礎上改很方便

2樓：吳學陽

首先得驗證模型對不對，我們通常使用數字排序來驗證（即seq2seq的input sequence是亂序的數字，output sequence是排序後的結果），通常用比較小的網路就能做到。其次是語料，如果模型正確性有保障的話，在訓練Responding Machine的時候對語料的依賴性很大。如果語料中post和response的相關性低，很難訓練出正常的結果。

即使是從Github上clone的模型，也難以保證結果。一般訓練前要對語料進行一遍清洗。

關於訓練時長，我用pytorch實現的版本，訓練400萬對大概300分鐘乙個epoch。網路就是seq2seq with attention，單層單向，hidden_size 800, embedding size 400，2到3個epoch收斂。實際上訓練資料不用這麼多也能收斂，我試過20萬對的照樣能把ppl下降到正常範圍，也大概是3個epoch左右。

3樓：

最近我也發現gru竟然還沒全連線效果好，我也是醉了。試試樓上良心trick再瞅瞅

個人專案經驗：

1.gru替換fc之後，迭代次數相應變多

2.變數初始化使用正交向量

3.變數regularation

比較好一些..

你在訓練RNN的時候有哪些特殊的trick？

你在訓練機器學習模型的時候，有哪些關於 training dynamics 的經驗？

你有哪些特殊的Windows使用習慣？

你有哪些特殊的寫作技巧？

其他用戶還看了：