Bert做分類，用bert輸出的哪個特徵效果好

1樓：迷路森林

最近在用bert，可以簡單說說(畢竟我也是個菜雞)

bert會輸出兩個型別的特徵，乙個是token級別，乙個是sentence級別的。舉個例子，輸入一句話"我真的是個不擅長偽裝的人"，我們在輸入BertTokenizer之前會首先處理為"[CLS]我真的是個不擅長偽裝的人[SEP]",假設padding之後長度為n, token級別的話是n*768，sentence級別是1*768。

然後token級別的可以用來做token 級別的任務，比如序列標註類的。

sentence級別的可以用來做sentence級別的任務，比如句子分類(當然你如果輸入的是乙個文件，只有乙個cls，也可以做文件分類啥的)。

我之前做過句子的二分類，發現直接使用[CLS]作為句子表示的效果不如將token級別的表示通過乙個卷積+最大池化效果好，當然我也嘗試了用注意力機制從token表示聚合為句子表示，但效果都沒有卷積+最大池化的好。

Bert做分類，用bert輸出的哪個特徵效果好

bert最後輸出的字表示是使用固定的分類層進行分類的，為什麼能區分一字多義

bert輸入的每個字最先是用one hot進行表示的嗎？還是進行隨機向量表示？

如何理解 BERT 的 NSP 訓練目標？

其他用戶還看了：