在中文語料中,ELMo比word2vec好很多麼?

時間 2021-05-11 23:32:35

1樓:林澤輝

僅供參考:

最近的乙個比賽「萊斯杯」軍事智慧型挑戰賽,入圍的十支隊伍,第七名在決賽中彎道超車反超到第一名。在經驗分享中才得知是唯一一組使用了ELMo的隊伍。其實大部分隊伍應該都有嘗試過,但因為速度太慢(決賽是有限時且只有一張卡能跑),都放棄使用ELMo,我們組也是一樣,到最後用的普通的詞向量。

這次的結果讓我印象深刻,我相信,ELMo在中文上確實會比word2vec好很多。

2樓:紙風箏

我使用中文語料測試成功了, 使用200m新聞語料訓練語言模型, 然後在對該新聞語料進行分類(10類)。最終測試結果使用ELMO比word2vector高近2個百分點, 而且這還是沒有對ELMO優化的情況下。當前, 在Character Embedding處需要修改一下原始碼。

3樓:劉一佳

可以試一下我們release的用來參加今年CoNLL評測的多國語ELMo:HIT-SCIR/ELMoForManyLangs

另外可以參考一下我們的評測報告:Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation

我們在UD_Chinese-GSD的詞性,句法分析上的結果

詞性UPOS:baseline (biaffine-parser) - 94.6 | +ELMo - 94.3

句法LAS:baseline - 79.7 | +ELMo - 79.85

一些細節:UD_Chinese是正體中文,上面的結果是在正體中文上的結果(我們也release了簡體中文的ELMo)。我們的ELMo是用20M詞的生語料訓練的,用的是自己寫的訓練演算法。

經驗性講,視訊記憶體效率比bilm-tf好一點,訓練穩定性也要好一點。

關於什麼情況下ELMo會比word2vec好,從句法任務的角度出發,我們認為OOV比例高的資料中ELMo效果好。我們分析了OOV rate,training data size,morphological richness等因素。在多國語句法任務中,OOV rate與ELMo帶來的提公升的相關性最高(當然,這些因素之間實際上不是正交的,training data size比較小的往往OOV rate也高,morphology rich的資料OOV也往往更多)。

回到中文的問題,ELMo能否比word2vec好以及好多少,和實際任務的關係可能很大。

如果是訓練資料很少或者接近zero-shot,one-shot這種settings,ELMo很可能表現得更好。如果訓練資料很多(比如其他答案中提到的dureader資料),ELMo可能沒什麼效果。

除此之外,中文是形態學不豐富的語言,這點可能會影響ELMo的發揮。

(接下來是私貨)我覺得ELMo還是很值得研究的,而且中文的ELMo應該能做得更好。其中一點在於ELMo中詞級別的CNN背後的語言學直覺主要還是歐洲語言的形態學理論,他能否很好地表示中文詞彙(包括對中文詞彙的句法語義功能進行抽象)還是乙個問題。而且漢語處理中,詞的切分也是乙個問題。

怎樣改進ELMo使得他能在漢語、日語這類語言上表現得更好是很有趣的問題。

中文分詞有比較新的語料嗎?

可以提供給題主兩份相對較新的中文分詞語料 第乙份是SIGHAN的漢語處理評測的Bakeoff語料,從03年起首次進行評測,評測的內容針對漢語分詞的準確性和合理性,形成Bakeoff 2005評測集,包含簡 正體中文的訓練集和測試集,訓練集有四個,單句量在1.5W 8W 內容比較偏向於書面語。後面05...

有哪些好用的中文 英文和中英的語料庫?

TCF911 目前發現以下兩個,還不錯,當然譯文不是100 準確,但是可以略做參考,幫助提供一些思路。Linguee English Chinese dictionary Leading TM Search and Exchange Platform in China Tmxmall hain 推薦...

在語言研究中,如何看待語料的使用?

王泓硯 句子接受度體現個體的認知水平,認知水平包括兩個方面,一是對事物聯絡的認知,比如事物之間的相似性 能動性,由於生活環境不同個體對事物的認識水平差異很大,有的人可能還有特異功能,對事物有全新的解釋 二是對表達手段的認知,比如某些人的詞彙量很大,懂得承轉啟合 條分縷析,這種手段反應在句子上就是語法...