在中文語料中，ELMo比word2vec好很多麼？

首頁 > 科技

時間 2021-05-11 23:32:35

1樓：林澤輝

僅供參考：

最近的乙個比賽「萊斯杯」軍事智慧型挑戰賽，入圍的十支隊伍，第七名在決賽中彎道超車反超到第一名。在經驗分享中才得知是唯一一組使用了ELMo的隊伍。其實大部分隊伍應該都有嘗試過，但因為速度太慢（決賽是有限時且只有一張卡能跑），都放棄使用ELMo，我們組也是一樣，到最後用的普通的詞向量。

這次的結果讓我印象深刻，我相信，ELMo在中文上確實會比word2vec好很多。

2樓：紙風箏

我使用中文語料測試成功了，使用200m新聞語料訓練語言模型，然後在對該新聞語料進行分類（10類）。最終測試結果使用ELMO比word2vector高近2個百分點，而且這還是沒有對ELMO優化的情況下。當前，在Character Embedding處需要修改一下原始碼。

3樓：劉一佳

可以試一下我們release的用來參加今年CoNLL評測的多國語ELMo：HIT-SCIR/ELMoForManyLangs

另外可以參考一下我們的評測報告：Deep Contextualized Word Embeddings, Ensemble, and Treebank Concatenation

我們在UD_Chinese-GSD的詞性，句法分析上的結果

詞性UPOS：baseline (biaffine-parser) - 94.6 | +ELMo - 94.3

句法LAS：baseline - 79.7 | +ELMo - 79.85

一些細節：UD_Chinese是正體中文，上面的結果是在正體中文上的結果（我們也release了簡體中文的ELMo）。我們的ELMo是用20M詞的生語料訓練的，用的是自己寫的訓練演算法。

經驗性講，視訊記憶體效率比bilm-tf好一點，訓練穩定性也要好一點。

關於什麼情況下ELMo會比word2vec好，從句法任務的角度出發，我們認為OOV比例高的資料中ELMo效果好。我們分析了OOV rate，training data size，morphological richness等因素。在多國語句法任務中，OOV rate與ELMo帶來的提公升的相關性最高（當然，這些因素之間實際上不是正交的，training data size比較小的往往OOV rate也高，morphology rich的資料OOV也往往更多）。

回到中文的問題，ELMo能否比word2vec好以及好多少，和實際任務的關係可能很大。

如果是訓練資料很少或者接近zero-shot，one-shot這種settings，ELMo很可能表現得更好。如果訓練資料很多（比如其他答案中提到的dureader資料），ELMo可能沒什麼效果。

除此之外，中文是形態學不豐富的語言，這點可能會影響ELMo的發揮。

（接下來是私貨）我覺得ELMo還是很值得研究的，而且中文的ELMo應該能做得更好。其中一點在於ELMo中詞級別的CNN背後的語言學直覺主要還是歐洲語言的形態學理論，他能否很好地表示中文詞彙（包括對中文詞彙的句法語義功能進行抽象）還是乙個問題。而且漢語處理中，詞的切分也是乙個問題。

怎樣改進ELMo使得他能在漢語、日語這類語言上表現得更好是很有趣的問題。

中文分詞有比較新的語料嗎？

可以提供給題主兩份相對較新的中文分詞語料第乙份是SIGHAN的漢語處理評測的Bakeoff語料，從03年起首次進行評測，評測的內容針對漢語分詞的準確性和合理性，形成Bakeoff 2005評測集，包含簡正體中文的訓練集和測試集，訓練集有四個，單句量在1.5W 8W 內容比較偏向於書面語。後面05...

有哪些好用的中文英文和中英的語料庫？

TCF911 目前發現以下兩個，還不錯，當然譯文不是100 準確，但是可以略做參考，幫助提供一些思路。Linguee English Chinese dictionary Leading TM Search and Exchange Platform in China Tmxmall hain 推薦...

在語言研究中，如何看待語料的使用？

王泓硯句子接受度體現個體的認知水平，認知水平包括兩個方面，一是對事物聯絡的認知，比如事物之間的相似性能動性，由於生活環境不同個體對事物的認識水平差異很大，有的人可能還有特異功能，對事物有全新的解釋二是對表達手段的認知，比如某些人的詞彙量很大，懂得承轉啟合條分縷析，這種手段反應在句子上就是語法...

其他用戶還看了：