nlp序列標註任務如何處理類別極度不平衡問題？

1樓：會寫詩的程式猿

似乎基於實體級別計算F1就不會有這個問題。不能計算標籤級別的F1。比如predict=BIII golden=IIII 那就直接是錯的呀。這是針對評價指標。

損失函式的話，正常CE似乎就沒問題。

2樓：Bigbao

有幾個解決類別不平衡的問題

1.取樣到乙個平衡的比例，有過取樣和欠取樣；

2.資料增強，通過一定的方法來生產新的資料，盡量使資料平衡，自然語言可以基於生成模型或者交換順序來資料增強；

3.loss新增weight，不重要的類別loss權重降低，這種方法是最省事的，實際操作起來方便，效果親測不錯的，推薦。

3樓：崔果果

1，把f1統計指標作為reward，採用強化學習的方式進行訓練2，把非O的輸出權重加大，在softmax上處理權重3，過取樣，負取樣

不過，說回來，如果是由於標註人員標註量大，造成標註不全，有錯漏等等。再多的trick也是哄自己玩。

如果資料量少，標註質量較高，而某類實體過少，則說明特徵太少，過於單一，很容易造成過擬合。

只有在資料充足質量過關的情況下，才有可能訓練出好模型。而這種情況下，即便分布特別少，也是真實的資料分布。

4樓：香儂科技

可能大家對資料增強比較熟悉，reweight data examples比較少見。簡單的說，就是讓模型去少從easy examples中學習，從hard examples中多學習一些，這就需要loss上的設計。

近期我們會掛一篇reweight的文章，到時候再具體說說~最後給乙個CMU前幾天掛的文章：

5樓：快跑啊小女孩

我自己的實驗結果是加了crf怎麼樣都比不加的結果好

crf是對整條序列分類所以如果不是整條序列全是o的佔比特別高的話 crf基本不受影響(比如你句子中o特別多但不是整條全是o特別多 crf會把o-o的轉移得分降低來保持平衡)

如果大部分整條全是o 那估計是無關的文字太多？去掉一部分應該可以吧

6樓：zkdn

標註問題首先是分類問題，O一般都會特別多，會引起樣本不均衡的問題。好的一點是標註類任務是句子為乙個輸入，句子間關聯不大，在標註時可以隨機dorp一些全是O的句子。

7樓：roger

本菜雞強答一下，是否可以考慮訓練兩個模型，第乙個模型就是用原封不動的資料，第二個模型用去掉所有O的資料集訓練，然後第二個模型用乙個基於清晰度的後處理方法得出輸入非O prediction的清晰度特徵，用lr去得出乙個投票決策用模型一去判斷還是用模型二去判斷，這樣應該算是半個ensemble，能稍微緩解這個問題

8樓：Liyuan Liu

sequence labeling 一般都用f1 score 作為metric. 如果是BIO/BIOES, 實現 CRF (一般用linear chain 的) 確實挺重要的. 對CRF來說, 用NLL 就挺好的.

nlp序列標註任務如何處理類別極度不平衡問題？

任務清單如何處理睡覺和起床

人工智慧中的資料標註任務，如何監控標註質量？

優秀的人是如何處理工作學習中多工的壓力的？

其他用戶還看了：