bert輸入的每個字最先是用one hot進行表示的嗎？還是進行隨機向量表示？

1樓：磊爺

每個unique token用乙個（從0開始的）unique integer表示，然後你有個embedding table，每一行都是乙個unique token的embedding，然後你根據這個unique integer，查這個embedding table對應的那一行。這個查詢的方式可以通過one-hot vector和embedding table相乘的方式得到，也可以用其他方法得到，看你怎麼implement了。訓練前，初始embedding table是隨機的，所以這個embedding也是乙個隨機向量。

Transformer Explained in One Single Page

2樓：NLP

我覺得這個沒有區別吧，神經網路中，對文字的向量化都會有個字典，字典一般根據訓練語料生成的，可以直接生成乙個維度[vocab_size，embeding_size]的隨機初始化的二維向量，然後通過id獲取對應字的詞向量，都是矩陣操作，直接生成[batch_size，sentence_length，embeding_size]；也可以直接根據字典對文字進行 one-hot編碼[batch_size，sentence_length，vocab_size]，然後進過一層全連線網路[vocab_size，embeding_size]對映成[batch_size，sentence_length，embeding_size]，本質上是一樣的。

3樓：godweiyang

bert輸入是subword，bert自己自帶乙個詞表，輸入subword在詞表中的id，然後將bert輸出和你自己模型的隨機初始化詞向量拼接，

4樓：雞湯狗

我的理解就是onehot表示，和其他型別的處理文字的蛇精網路一樣，有人說是對映到id，和onehot是等價的，可以認為是onehot的稀疏表示。至於onehot表示你可以隨機把每個字元對映到one hot向量，或者說構建詞典的時候中字元id隨機選定，不過通常我會按照字的頻次排序原則。至於有沒有更科學的辦法，各路大神可以來回答一下。

5樓：wanddq

bert輸入的每個詞首先是用詞在詞表中的id表示，然後通過embedding矩陣轉換為詞向量表示，沒有用到one hot編碼。

bert輸入的每個字最先是用one hot進行表示的嗎？還是進行隨機向量表示？

「哦」這個字打出來輸入的是o，然而漢語拼音裡面「o」讀「窩」，為什麼我真的糊塗了！

求各位老師和朋友評價書法作品，包括每個字的優點與不足，希望客觀，真話，感謝大家。？

讀完了文章的每個字，但不明白整段話的意思，那我的大腦幹了什麼？

其他用戶還看了：

bert輸入的每個字最先是用one hot進行表示的嗎？還是進行隨機向量表示？

「哦」這個字打出來輸入的是o，然而漢語拼音裡面「o」讀「窩」，為什麼我真的糊塗了！

求各位老師和朋友評價書法作品，包括每個字的優點與不足，希望客觀，真話，感謝大家。？

讀完了文章的每個字，但不明白整段話的意思 ，那我的大腦幹了什麼？

其他用戶還看了：

讀完了文章的每個字，但不明白整段話的意思，那我的大腦幹了什麼？