Bert做分類,用bert輸出的哪個特徵效果好

時間 2021-06-02 02:57:23

1樓:迷路森林

最近在用bert,可以簡單說說(畢竟我也是個菜雞)

bert會輸出兩個型別的特徵,乙個是token級別,乙個是sentence級別的。舉個例子,輸入一句話"我真的是個不擅長偽裝的人",我們在輸入BertTokenizer之前會首先處理為"[CLS]我真的是個不擅長偽裝的人[SEP]",假設padding之後長度為n, token級別的話是n*768sentence級別是1*768。

然後token級別的可以用來做token 級別的任務,比如序列標註類的。

sentence級別的可以用來做sentence級別的任務,比如句子分類(當然你如果輸入的是乙個文件,只有乙個cls,也可以做文件分類啥的)。

我之前做過句子的二分類,發現直接使用[CLS]作為句子表示的效果不如將token級別的表示通過乙個卷積+最大池化效果好,當然我也嘗試了用注意力機制從token表示聚合為句子表示,但效果都沒有卷積+最大池化的好。

bert最後輸出的字表示是使用固定的分類層進行分類的,為什麼能區分一字多義

烈焰之炬 題主的思路主要有兩個不對的地方。首先描述一下題主的問題。對兩個輸入 蘋 果很好吃和 蘋 果手機的兩個 蘋 模型分別給出兩個字向量 和 在pretrain時,對兩個輸入而言,w和b是共有的,Out也都是朝著 蘋 的onehot優化的,那麼和 自然也會非常的接近。而這樣的結果和語言模型能生成上...

bert輸入的每個字最先是用one hot進行表示的嗎?還是進行隨機向量表示?

磊爺 每個unique token用乙個 從0開始的 unique integer表示,然後你有個embedding table,每一行都是乙個unique token的embedding,然後你根據這個unique integer,查這個embedding table對應的那一行。這個查詢的方式可...

如何理解 BERT 的 NSP 訓練目標?

謝玉強 一直覺得Next Sentence Prediction NSP 是有道理的,是尋找自然語言中句子級的監督訊號,相對於ELMo和GPT自回歸語言模型,BERT是第乙個做這件事的。RoBERTa和SpanBERT的實驗都證明了,去掉NSP Loss效果反而會好一些,或者說去掉NSP這個Task...