Word2vec如何解決未登入詞?

時間 2021-05-11 16:15:34

1樓:Xing Niu

你可以嘗試使用fastText。

官方版本:fastText

gensim版本:gensim: topic modelling for humans

fastText使用和word2vec幾乎一樣的演算法,但由於fastText考慮了每個詞的n-gram,如果未登入詞的n-gram在訓練資料中出現了,那這個未登入詞依然可以獲得詞向量。

例如"word"這個詞可以由""的向量表示合成出來。

不知道你使用的是什麼語言,如果是中文,那n-gram的覆蓋率比英文會差一點。不過fastText缺省會給完全無法檢索到的未登入詞輸出乙個統一的預設詞向量。

2樓:Zhang Bin

不考慮增加語料和詞庫的話,詞不在詞庫中需要自己定義向量。

try:

embedding

=word2vec_dict

[word

]except

Exception

:embedding=np

.random

.uniform

(low_bound

,high_bound

,embed_size)

word2vec和sentence2vec的真正差別是什麼?後者和簡單用詞向量累加有什麼差別?

教父1949 這兩天在試fb starspace 的sentence embedding,不知道是不是預料太少的原因,效果不咋滴。其中有個難題,如何給把語義相近的語句放在一起以便相互作為標籤 獼猴桃kk 求平均 求和 sqrtn都可以的,可以用tf.nn.embedding lookup spars...

word2vec缺少單詞怎麼辦?

匯入語料的格式不對 或者沒有正確分詞 不是二維格式,Genism缺省會將word分解成字母,從而報錯 KeyError word X not in vocabulary 有些低頻詞,被過濾掉了。可以修改過濾頻次閾值,引數 model Word2Vec min count 1 只要出現過1次的詞,就錄...

在中文語料中,ELMo比word2vec好很多麼?

林澤輝 僅供參考 最近的乙個比賽 萊斯杯 軍事智慧型挑戰賽,入圍的十支隊伍,第七名在決賽中彎道超車反超到第一名。在經驗分享中才得知是唯一一組使用了ELMo的隊伍。其實大部分隊伍應該都有嘗試過,但因為速度太慢 決賽是有限時且只有一張卡能跑 都放棄使用ELMo,我們組也是一樣,到最後用的普通的詞向量。這...