為什麼沒有中英文預訓練模型?為什麼要將中文和英文分開訓練模型?

時間 2021-06-01 07:56:49

1樓:Zhou Kevin

目前有不錯的multilingual pretrained model, 例如XLM還有XLM-R, 這些模型都可以直接用來進一步微調來學習中文或者英文的下游任務。個人認為沒有必要特地搞乙個在中英文一起訓練的模型,首先這兩種語言差異很大,混在一起訓練出來的模型在各自語言上的下游任務的效果不一定會比單獨訓練好。如果是想要針對英文到中文的翻譯任務的話,我覺得中英文的bilingual預訓練可能還是會有一些幫助。

但鑑於這兩種語言現在有非常大量的翻譯資料集,提公升的效果可能不會特別明顯。

2樓:邱錫鵬

1)主要原因可能是一起訓練沒有分開訓練的效果好。

2)中文和英文的BPE的差異比較大,粒度不同。

3)中英文混合文字的資料少,需求不多,不夠重視。

3樓:Lanking

有中英文混合預訓練模型,huggingface model bert裡面有乙個mask的應用就是這樣的。中英文分開主要是因為分詞問題,兩種語言語法差異有點大而且相關度不是特別高,導致混合的效果不好...

英文為什麼要將單複數用不同拼寫?

摩西 英文如果名詞單複數不加以區分才會造成混亂呢,因為語言是為了交流的,表達清楚理解起來沒有異義是最基本的功能。如果單複數不區分,那形容詞的比較級最高端不要區分?動詞的過去式過去分詞不要區分?句子中的主謂賓順序不要區分? 英語原本是屈折語言,後來簡化了,但少數地方仍保留屈折語言的特點。複數加s或其他...

為什麼中文後圓括號裡要寫英文?

保持詞彙的準確性,便於減少歧義,以及方便進一步檢索其他資料。因為很多新詞彙,尤其是新興研究領域的詞彙,並無標準的翻譯。視乎譯者的不同 翻譯選詞的不同 乙個外文詞彙很可能有多個中文解釋,用於合成詞中,就可能產生不同的中文翻譯 有可能形成迥異的中文譯名。比如,Typography 常見的翻譯有 字型排印...

發明電腦鍵盤的人,為什麼要將26個英文本母亂序排列?其設計理念是什麼?

小森測點啥 最開始打字機的字母排列順序時按照順序排列的,但是打字員發現按照順序敲擊字母總是容易出現故障,然後這個打字員去找他姐夫幫忙,他姐夫告訴他把經常打字連在一起的按鍵放的近一點,經過兩個人多次的研究,才有了現在我們的26鍵鍵盤! Eura 因為早期的鍵盤受技術限制,按鍵之間是由連動杆連線起來的,...