BERT預訓練出的詞向量是靜態的嗎?

時間 2021-06-08 05:09:17

1樓:Joeyfulness

bert不是乙個dictionary,而是乙個model。從bert獲取embedding需要給出相應的input,即單詞和上下文。所以如果input不一樣,output自然也不一樣。

2樓:張騫

Bert的根基就是Transformer,那麼其實在編碼的過程中乙個叫encoding乙個叫enbedding,enbedding的過程是固定的,但是encoding的過程中encoder的處理過程是非靜態的

3樓:磐石

有個類別的embedding,乙個是輸入word的表示的word embedding + pos embedding + segment embedding,這部分訓練完之後,基本就是固定了的;Bert屬於context embedding系列,就是用encoder那部分的輸出作為這個單詞的上下文表示,這個輸出隨著上下文的變換而變化,這個應該比較容易理解

4樓:李狗蛋

感覺BERT的動態詞向量是指經過BERT後的單詞的向量表示能夠具有上下文的語義資訊,使得同乙個單詞在不同的上下文中,得到的詞向量表示就不同,而不是像Glove那樣每個單詞的表示一成不變。

bert時代下的nlp領域,以傳統詞向量 glove等 為基礎的baseline是否還有意義?

採菇涼滴小蘑菇呀 你應該說的是投稿吧。我說一下工作中遇到的,有次組裡面分配的資源不夠支援bert線上部署,qps上不去。然後我們直接用線下訓練出的bert去生成標註樣本訓練lstm,最後僅僅犧牲微不足道的準確率將模型部署上線了。 大姑父 能用得起bert的公司沒幾家,都不考慮線上部署效能的麼?幾百兆...

NLP中詞向量的預訓練是什麼意思 有什麼用

馬東什麼 pre training 先用別的大量的語料資料預先訓練出通用性強的詞向量然後根據需要進行微調或者直接應用到具體任務上去,google搜尋nlp pretrain 答案一大把 扁豆燜面1.0 首先,詞向量指的是一組用來表示單詞的低緯稠密向量,這裡的低緯稠密是和onehot的高維稀疏對應的。...

小孩子是怎麼訓練出絕對音感的?

從小學鋼琴的話應該是有幫助的。小時候學琴我的老師有要求說要一邊彈一邊唱的,但是我有點害羞不太敢唱出來。就會一邊識譜一邊在腦子裡過固定音高就當我唱過惹。小學開始上視唱練耳課以後發現自己有絕對音高,而且當時並不能理解為啥別人不能聽懂。我自己的感覺是辨別樂器的音高就像聽懂別人講話一樣的。是後來才知道有首調...