Word2vec如何解決未登入詞？

1樓：Xing Niu

你可以嘗試使用fastText。

官方版本：fastText

gensim版本：gensim: topic modelling for humans

fastText使用和word2vec幾乎一樣的演算法，但由於fastText考慮了每個詞的n-gram，如果未登入詞的n-gram在訓練資料中出現了，那這個未登入詞依然可以獲得詞向量。

例如"word"這個詞可以由""的向量表示合成出來。

不知道你使用的是什麼語言，如果是中文，那n-gram的覆蓋率比英文會差一點。不過fastText缺省會給完全無法檢索到的未登入詞輸出乙個統一的預設詞向量。

2樓：Zhang Bin

不考慮增加語料和詞庫的話，詞不在詞庫中需要自己定義向量。

try:

embedding

=word2vec_dict

[word

]except

Exception

:embedding=np

.random

.uniform

(low_bound

,high_bound

,embed_size)

word2vec和sentence2vec的真正差別是什麼？後者和簡單用詞向量累加有什麼差別？

教父1949 這兩天在試fb starspace 的sentence embedding,不知道是不是預料太少的原因，效果不咋滴。其中有個難題，如何給把語義相近的語句放在一起以便相互作為標籤獼猴桃kk 求平均求和 sqrtn都可以的，可以用tf.nn.embedding lookup spars...

word2vec缺少單詞怎麼辦？

匯入語料的格式不對或者沒有正確分詞不是二維格式，Genism缺省會將word分解成字母，從而報錯 KeyError word X not in vocabulary 有些低頻詞，被過濾掉了。可以修改過濾頻次閾值，引數 model Word2Vec min count 1 只要出現過1次的詞，就錄...

在中文語料中，ELMo比word2vec好很多麼？

林澤輝僅供參考最近的乙個比賽萊斯杯軍事智慧型挑戰賽，入圍的十支隊伍，第七名在決賽中彎道超車反超到第一名。在經驗分享中才得知是唯一一組使用了ELMo的隊伍。其實大部分隊伍應該都有嘗試過，但因為速度太慢決賽是有限時且只有一張卡能跑都放棄使用ELMo，我們組也是一樣，到最後用的普通的詞向量。這...

Word2vec如何解決未登入詞？

word2vec和sentence2vec的真正差別是什麼？後者和簡單用詞向量累加有什麼差別？

word2vec缺少單詞怎麼辦？

在中文語料中，ELMo比word2vec好很多麼？

其他用戶還看了：