RNN神經網路訓練過程中weight幾乎不更新,只有bias更新?

時間 2021-05-31 05:24:54

1樓:大多萌萌噠

把梯度截斷的c的值增大吧,或者修改啟用函式。一般用ReLU函式的話不會出現這個問題啊。。而且你權重初始化是怎麼初始化的?單位矩陣還是隨機值?

2樓:

其實不太懂RNN,路過問一下

啟用函式用的是啥,relu?

這個網路用來做什麼的,輸入輸出是什麼樣子的,數值範圍?

感覺像是normalization或是初始化相關的問題,今天剛看一篇文章講新手常見坑,感覺值得一看(並不打算提供鏈結 )

3樓:

不太確定,或許可以嘗試下layer normalization。

類似的問題在普通MLP中遇到過,後來分析是梯度消失了,用上batch normalization就解決了。batch normalization可以讓梯度更好地傳遞,但是是針對mini batch,不適用於RNN。RNN可以嘗試下layer normalization。

4樓:王贇 Maigo

我記得我上個月的這次調參經歷中,觀察到最初那些失敗的模型呈現出「weight 幾乎不變,bias 越來越大」的現象。不過我並沒有去觀察最終成功的模型 weight 和 bias 是怎樣變化的。

我覺得可以結合你的 loss 或錯誤率的變化情況判斷一下。如果 loss 或錯誤率不下降,或者稍微下降然後停滯或回公升,那很可能是遇到了跟我一樣的問題。建議狠加 gradient clipping,同時把學習率調高幾個數量級。

卷積神經網路(CNN)和迴圈神經網路 RNN 有什麼區別?

不存在的1990 從字面區分 cnn 裡面的 c指 convolutional operation,是一種提取影象特徵方法。把這一operation加入到layer裡面構成了convolutional layer。rnn裡的r 指recurrent,中文是重複的意思。rnn構造的結構也是recurr...

相對於CNN和RNN, 利用圖神經網路 GCN GAT 進行文字分類有什麼不同,有什麼優勢

Thinkwee 基於圖的方法在處理短文本分類上有一些優勢,因為短文本本身資訊量不夠,而圖能夠引入額外的資訊,比如以詞作為節點,在構圖時引入的依存關係,實體資訊 這種沒看到應用在文字分類上,在關係抽取上有應用 或者用句子作為節點,可以利用語料裡樣本之間的關係,進行半監督學習,解決短文本分類語料的稀疏...

有沒有訓練神經網路的數字貨幣?

孫大波 Ekiden算是可以進行訓練神經網路的的區塊鏈專案。原理簡單的來說,就是一些節點執行可信硬體的方式來訓練資料,可信硬體是一模擬較專業的裝置,例如 Intel SGX。這類專案的想法都是訓練放在鏈下,再用密碼學來保證資料 結果的真實性。Ekiden 專案是由 Down Song 宋曉東主導的,...