如何評價NLP演算法ELECTRA的表現？

1樓：Solaris

提幾個insight上的疑問吧。

1 訓練難度增加了，生成器把簡單的mask給生成好了，只留下複雜的mask。但問題是，語言建模這個任務難道不是比二分類更難嗎？如果用lm作為判別器的loss，會怎樣呢？

2 所有的位置都能參與到loss中，而mlm只有15%的位置參與。作者文中的實驗也表明，二分類任務中參與loss的比例越多，最後的效果也越高，這個提公升很明顯。我的疑問是，一定要所有的位置都參與到loss中嗎？

重要的會不會是參與到loss中的token數量？從roberta的實驗來看，增大batch size，可以取得很大的提公升，batch size大了，參與到loss中的token不也多了嗎？既然如此，我可不可以猜測electra帶來的提高可以部分被batch size的增大覆蓋掉？

一點疑問，望指教。

2樓：

我理解的是ELECTRA相比於BERT效能的提公升和算力的節省主要來自於相對於BERT系列模型隨機MASK的策略，ELECTRA的策略實際上是去找縮小版BERT（generator）的易錯的樣本（或者直接說是對抗樣本或者負樣本我覺得也行），這應該也能解釋為什麼訓練乙個BERT當generator效果會差一些，因為BERT訓練的比較好（引數多），雖然生成的負樣本質量高了，但是相對的數量也少了，如果能補充乙個實驗，要求測試generator的大小和最終discriminator的效能的關係時，保證訓練時用於discriminator的負樣本數維持在一定水平，而不是隨著generator越來越好負樣本越來越少，我覺得結果應該會顯示generator的大小比現在大一些效果會更好。至於文章中利用率的說法我不確定有沒有效，畢竟LM雖然用得少但做的是詞表大小的分類，序列標註說到底還是個二分類任務。

所以節約算力肯定是有的，簡單粗暴的想法如果像累積梯度一樣累積負樣本，我覺得generator不用特別大也能訓練乙個還不錯的discriminator

如何評價NLP演算法ELECTRA的表現？

非CS科班出身NLP演算法工程師需要補哪些編譯原理知識？

如何評價JLPT的評分演算法？

計算機渣碩一枚，請問飛行員和nlp演算法工程師如何選擇？

其他用戶還看了：