bert輸入的每個字最先是用one hot進行表示的嗎?還是進行隨機向量表示?

時間 2021-05-11 16:18:40

1樓:磊爺

每個unique token用乙個(從0開始的)unique integer表示,然後你有個embedding table,每一行都是乙個unique token的embedding,然後你根據這個unique integer,查這個embedding table對應的那一行。這個查詢的方式可以通過one-hot vector和embedding table相乘的方式得到,也可以用其他方法得到,看你怎麼implement了。訓練前,初始embedding table是隨機的,所以這個embedding也是乙個隨機向量。

Transformer Explained in One Single Page

2樓:NLP

我覺得這個沒有區別吧,神經網路中,對文字的向量化都會有個字典,字典一般根據訓練語料生成的,可以直接生成乙個維度[vocab_size,embeding_size]的隨機初始化的二維向量,然後通過id獲取對應字的詞向量,都是矩陣操作,直接生成[batch_size,sentence_length,embeding_size];也可以直接根據字典對文字進行 one-hot編碼[batch_size,sentence_length,vocab_size],然後進過一層全連線網路[vocab_size,embeding_size]對映成[batch_size,sentence_length,embeding_size],本質上是一樣的。

3樓:godweiyang

bert輸入是subword,bert自己自帶乙個詞表,輸入subword在詞表中的id,然後將bert輸出和你自己模型的隨機初始化詞向量拼接,

4樓:雞湯狗

我的理解就是onehot表示,和其他型別的處理文字的蛇精網路一樣,有人說是對映到id,和onehot是等價的,可以認為是onehot的稀疏表示。至於onehot表示你可以隨機把每個字元對映到one hot向量,或者說構建詞典的時候中字元id隨機選定,不過通常我會按照字的頻次排序原則。至於有沒有更科學的辦法,各路大神可以來回答一下。

5樓:wanddq

bert輸入的每個詞首先是用詞在詞表中的id表示,然後通過embedding矩陣轉換為詞向量表示,沒有用到one hot編碼。

「哦」這個字打出來輸入的是o,然而漢語拼音裡面「o」讀「窩」,為什麼我真的糊塗了!

烏斯 o 應該讀成 哦 o 該怎麼讀?詞典上 o 旁邊標了 意思是它和 發音相同 屬於注音符號,中國大陸1958年前用注音符號給漢字注音,台灣地區至今仍在使用 讀 o 的字有喔 噢 哦和嚄 1 而 窩 旁邊標的是 明顯跟 不同。注意,它不是英文本母X,而是注音符號 該怎麼讀呢?它讀 烏 2 很明顯 ...

求各位老師和朋友評價書法作品,包括每個字的優點與不足,希望客觀,真話,感謝大家。?

aleliu 堅 字 注意左上 臣 的墨跡,先寫豎再寫橫,作品的筆順錯了。直接導致 臣 的下半部分汙成一團,什麼都看不清。下半部分 土 的結字太大太平。持 字 左邊提手旁,橫畫比以險絕著稱的歐陽詢還要斜。勾非常難看,沒有明顯的提按動作,提畫變成了橫畫,毫無出鋒。右上 土 部分毫無粗細變化,沒有出鋒,...

讀完了文章的每個字,但不明白整段話的意思 ,那我的大腦幹了什麼?

monster 視覺層資訊轉化成視覺影象 影象事物轉化成文字概念 讀出文字 識別出了影象事物對應的文字概念但不知道文字概念的內涵 文字概念轉化成腦中視覺影象 也就是找詞彙中的具象事物 並將抽象事物轉化成具象的象徵物 具象事物之間構建關係轉化成邏輯資訊 關係即理解 鹽選推薦 有的時候我說一半,老闆就在...