BERT MLM輸出層引數為什麼要復用token embedding層的引數?不復用的話,效果更好?

時間 2022-01-03 18:03:14

1樓:鍇鍇不孤獨

可以看一下上面這篇文章,簡單來說就是如果是預訓練的話,完全可以不復用,因為資料足夠多。

優勢是增大輸出層的embedding維數(也可以理解為是預訓練的輸出層)有利於緩解過擬合,提高在下游任務上的表現。

同時增加輸出層embedding維數並不會提高fine-tuning時候的參數量,因為fine-tuning的時候這部分引數被丟掉了,當然現在可以考慮是否能夠通過保留這部分引數來提高prompt-tuning的表現(需要對比等量引數加寬或者加深transformer骨幹的效果和這乙個哪乙個更好)

2樓:百川

首先看token embedding做了什麼事情:token embedding層本質是全連線網路,將輸入向量(seq_len, vocab_size)隱射到輸出向量(seq_len, hidden_size)。

再看輸出層中,token embedding做了什麼事情:bert的輸出(seq_len, hidden_size)通過token embedding隱射到向量(seq_len, vocab_size)

結合來看,一方面(主要)是引數復用,另一方面也有點通過token embedding來還原vocab的味道。至於不復用,是否效果會更好,還得看實驗,這個token embedding的參數量對於整體bert的模型容量影響很小,預感效果差別很小,但是優勢是引數少。

為什麼總有很多坑子不會玩輸出非要輸出?

跑馬 我也很想玩輸出,但是他們都選那麼多了,我只有玩輔助了唄。每次我都安慰自己,沒事的,沒準他們會玩這個就是速推局了,事實證明我想錯了.很多次我都是敗方MVP,輔助MVP,嗯,很厲害的樣子.所以現在我每次都選輸出了,但是沒屁用,玩的再好,隊友!也沒辦法 那我不玩了成不,我單排吃雞去 海拉魯蘑菇 一般...

韓信為什麼打不出輸出?

逐鹿聞中翼 韓信不用用來打團的,帶線抓人反野。輸出低,你是切後排的攻擊範圍也不是很大,要想最高輸出你可以玩大範圍的法師或者後期秒肉的射手。或者改玩劉備打野輸出絕對高了。 首先韓信這個英雄的技能機制就不適合打輸出,一技能兩段位移,二技能一段位移,大招原地,這種技能機制你想打什麼輸出啊!韓信這個英雄適合...

JavaScript為什麼不實現捨去引數的用法?

navegador 折衷的土辦法 const e undefined在鍵盤上比 更靠近左手 鍵盤上 附近的字母只有e 和 r epsilon 形狀和 e 相近function tst a 400,b 20,c tst e e 555 400 20 555 tst 123,e 555 123 20 5...