使用glove詞向量,為什麼詞嵌入會占用這麼多引數?

時間 2021-05-06 12:24:48

1樓:

詞嵌入層的引數大小就是詞表長度乘以詞向量維度,假如你詞表長度是10000,詞向量是300維的話引數總量就是300X10000=3M。另外如果你使用預訓練詞向量的話,比較模型引數是不包括詞嵌入層的——因為通常情況下引入預訓練詞向量之後就不會再更新詞嵌入層引數了。

2樓:種菜演算法

embedding層的參數量是詞典數量乘embedding緯度,比如你有10000個詞,embedding後的詞緯度300,那麼相應的參數量就是300w。

3樓:TniL

很多人都會習慣性低估詞嵌入的參數量。詞嵌入中的引數形式主要是乙個 的矩陣,其中 是詞表大小, 是詞嵌入維度。假設你的詞表中有3萬個詞,詞嵌入維度是300,詞嵌入的參數量也能達到9M,很多人熟知的Transformer base中詞嵌入有近兩千萬引數(佔整體引數的29%)。

解答你的疑惑:

詞嵌入引數多主要是受到詞表大小影響,對小型模型而言,詞嵌入確實佔據很大一部分引數;

題目描述中問其他人比較模型引數是否包含詞嵌入引數,這一般是包含的。

事實上有一些工作嘗試了使用更複雜的結構替代這種簡單的查詢表詞嵌入,從而降低詞嵌入的參數量(因為在一些終端裝置沒法存下這麼大的模型),例如:

Compressing Word Embeddings via Deep Compositional Code Learning

DeFINE: DEep Factorized INput Token Embeddings for Neural Sequence Modeling

關於清詞,為什麼我覺得清詞才是詞發展到的最高峰?

浦靈 不得不說,我們的文學史觀存在問題。畢竟,社會變革後的文化斷層,使得清朝以後,文化傳承缺失。而我們的文學史,基本上是多講開山者,創新者,後期因循者雖能得前人精髓,並有繼續創新,也不會多講了。如果就兩者水準而非成就來看的話 水準是你能達到的高度,成就是自己創造的高度。舉個例子,朱棣的武功應當高於朱...

為什麼假面騎士圈經常使用吃癟這個詞?

人生三問 最強騎士,三集保護期,吊打,後期因為被A蜘蛛侵蝕,戰力迅速下滑,因為是新加入的烏丸所長也沒有製作他的融合變身器,有乙個死心塌地跟他的野蠻貼心女友卻和虎媽組成了cp,在梅花A和虎媽Q先後獻身後終於拿到融合變身器居然還給了塔七八啦桑?並且因為後期不死者戰力的提公升完全就跟不上了被各種吊錘,完全...

暖男 這個詞為什麼會變成貶義詞?

先假設暖男只對乙個人暖 對於女生。1.這個暖男是自己男朋友,不會說 我的男友真是暖男 2.這個暖男是別人男朋友,不會說 你的男友真是暖男 3.這個暖男是自己的備胎,這叫 這暖男備胎怎麼這麼煩 4.這個暖男是別人的備胎,這叫 這暖男備胎怎麼這麼煩 對於男生。1.這個暖男暖的物件是自己物件,這叫 臥槽你...