word embedding的所謂word analogy特性是有一定的應用性還是只是個玩具?

時間 2021-05-29 23:38:32

1樓:李韶華

個人認為這種特性儘管似乎在實踐中沒什麼卵用,但它間接支援了使用word embedding作為 NLP 任務的 feature。我無法給出嚴格的證明,只能在直覺上解釋一下。

feature 的線性模型是機器學習裡乙個基本元件,在文字分類、情感分析、NER 等 NLP 任務裡也是如此。即使非線性模型裡也往往有線性的成分,比如 NN、CRF、logistic regression,乙個 node 的多個輸入,仍然是求線性加權和然後做非線性變換。這樣的話,word embedding 體現出的「語義線性關係」就可能在模型的線性成分中,capture 一些用 one-hot encoding 所不能 capture 的資訊。

隨便舉個例子,比如乙個文件裡出現了 capital、England, 但沒出現 London(好吧,這種場景的可能性很小),另乙個文件裡出現了 London, 那麼由於v(capital) + v(England) ≈ v(London), 兩個文件有更大的機會被正確的歸為一類。

以上的例子也適用於類似 paragraph vector 之類的 sentence/document embedding 模型,因為它們往往是先算詞的 embedding 的加權和,再做某種變換來得到的。

2樓:張大帥

你要說直接的拿來用,那的確是沒有什麼應用性。但是這個特性可以表明embedding是有用的,或者說,有這個的特性的embedding可能會比較有用,因為畢竟embedding的初衷就是搞出這種特性來。

但是在工業界肯定是有用就行,哪怕你沒有這個特性的embedding,能解決好我的任務就行……

word embedding 詞向量能否用於判別中文詞彙難易度?

很討厭裝 的回答,搞一大堆圖,結果沒卵用。我試舉例如下。訏謨遠大巨集偉的謀劃 涯涘水邊 岸。邊際 界限。惠允得到對方獲准的敬稱 窈然深遠貌 幽深貌。乖蹇不好 不順遂 臆度憑主觀猜測 犟嘴頂嘴,強辯。繁鬧繁榮熱鬧 落枕又名失枕。因睡覺時受寒或枕枕頭的姿勢不合適,以致脖子疼痛,轉動不便 撫掌拍手。多表示...

Word Embedding 如何處理未登入詞?

張小白 1.直接當做unk處理 2.使用預訓練詞向量 3.使用ELMo等預訓練語言模型 4.考慮更細粒度,比如subwords技術,可能需要重頭開始訓練詞向量 暫時想到這麼多! 摸魚專家 BPEmb Tokenization free Pre trained Subword Embeddings i...

最近的所知 所感 所懂?

本質教育李澤宇 瀉藥。按照道家的觀點,萬物分陰陽,從某種角度上理解,陽 可以理解為乙個人的開創性,即企業家精神 我可以做成我想做的任何事情 而 陰 可以理解為乙個人的侷限性,這個世界上有很多東西不是根據我們的意願而轉移的,無論你付出多少努力。作為乙個交易員,無論我有多大的本事,由於不可能影響整個金融...