word2vec和sentence2vec的真正差別是什麼?後者和簡單用詞向量累加有什麼差別?

時間 2021-05-11 16:00:04

1樓:教父1949

這兩天在試fb starspace 的sentence embedding,不知道是不是預料太少的原因,效果不咋滴。其中有個難題,如何給把語義相近的語句放在一起以便相互作為標籤

2樓:獼猴桃kk

求平均、求和、sqrtn都可以的,可以用tf.nn.embedding_lookup_sparse的combiner。

3樓:Zewei Chu

這篇文章比較有趣。大致上比較了Continuous bag of words和LSTM sentence vector的資訊量,結果發現bag of words也包含了相當大量的資訊,例如句子長度,單詞先後順序。LSTM也沒有強太多,這至少說明了其實word embedding已經包含了相當大量的句子資訊。

word2vec缺少單詞怎麼辦?

匯入語料的格式不對 或者沒有正確分詞 不是二維格式,Genism缺省會將word分解成字母,從而報錯 KeyError word X not in vocabulary 有些低頻詞,被過濾掉了。可以修改過濾頻次閾值,引數 model Word2Vec min count 1 只要出現過1次的詞,就錄...

Word2vec如何解決未登入詞?

Xing Niu 你可以嘗試使用fastText。官方版本 fastText gensim版本 gensim topic modelling for humans fastText使用和word2vec幾乎一樣的演算法,但由於fastText考慮了每個詞的n gram,如果未登入詞的n gram在訓...

在中文語料中,ELMo比word2vec好很多麼?

林澤輝 僅供參考 最近的乙個比賽 萊斯杯 軍事智慧型挑戰賽,入圍的十支隊伍,第七名在決賽中彎道超車反超到第一名。在經驗分享中才得知是唯一一組使用了ELMo的隊伍。其實大部分隊伍應該都有嘗試過,但因為速度太慢 決賽是有限時且只有一張卡能跑 都放棄使用ELMo,我們組也是一樣,到最後用的普通的詞向量。這...