nlp序列標註任務如何處理類別極度不平衡問題?

時間 2021-05-06 18:16:52

1樓:會寫詩的程式猿

似乎基於實體級別計算F1就不會有這個問題。不能計算標籤級別的F1。比如predict=BIII golden=IIII 那就直接是錯的呀。這是針對評價指標。

損失函式的話,正常CE似乎就沒問題。

2樓:Bigbao

有幾個解決類別不平衡的問題

1.取樣到乙個平衡的比例,有過取樣和欠取樣;

2.資料增強,通過一定的方法來生產新的資料,盡量使資料平衡,自然語言可以基於生成模型或者交換順序來資料增強;

3.loss新增weight,不重要的類別loss權重降低,這種方法是最省事的,實際操作起來方便,效果親測不錯的,推薦。

3樓:崔果果

1,把f1統計指標作為reward,採用強化學習的方式進行訓練2,把非O的輸出權重加大,在softmax上處理權重3,過取樣,負取樣

不過,說回來,如果是由於標註人員標註量大,造成標註不全,有錯漏等等。再多的trick也是哄自己玩。

如果資料量少,標註質量較高,而某類實體過少,則說明特徵太少,過於單一,很容易造成過擬合。

只有在資料充足質量過關的情況下,才有可能訓練出好模型。而這種情況下,即便分布特別少,也是真實的資料分布。

4樓:香儂科技

可能大家對資料增強比較熟悉,reweight data examples比較少見。簡單的說,就是讓模型去少從easy examples中學習,從hard examples中多學習一些,這就需要loss上的設計。

近期我們會掛一篇reweight的文章,到時候再具體說說~最後給乙個CMU前幾天掛的文章:

5樓:快跑啊小女孩

我自己的實驗結果是加了crf怎麼樣都比不加的結果好

crf是對整條序列分類所以如果不是整條序列全是o的佔比特別高的話 crf基本不受影響(比如你句子中o特別多但不是整條全是o特別多 crf會把o-o的轉移得分降低來保持平衡)

如果大部分整條全是o 那估計是無關的文字太多?去掉一部分應該可以吧

6樓:zkdn

標註問題首先是分類問題,O一般都會特別多,會引起樣本不均衡的問題。好的一點是標註類任務是句子為乙個輸入,句子間關聯不大,在標註時可以隨機dorp一些全是O的句子。

7樓:roger

本菜雞強答一下,是否可以考慮訓練兩個模型,第乙個模型就是用原封不動的資料,第二個模型用去掉所有O的資料集訓練,然後第二個模型用乙個基於清晰度的後處理方法得出輸入非O prediction的清晰度特徵,用lr去得出乙個投票決策用模型一去判斷還是用模型二去判斷,這樣應該算是半個ensemble,能稍微緩解這個問題

8樓:Liyuan Liu

sequence labeling 一般都用f1 score 作為metric. 如果是BIO/BIOES, 實現 CRF (一般用linear chain 的) 確實挺重要的. 對CRF來說, 用NLL 就挺好的.

任務清單如何處理睡覺和起床

Skypasserby 不需要糾結這個問題!我習慣性把當天的起床放和睡覺放同一天。因為我始終認為起床是一天的開始,睡覺是一天的結束。睡覺只是每天連續工作學習流水線運轉中的乙個暫停。在一天的任務清單中,可以把起床和睡覺當做兩個待做的專案,設定好時間點,然後努力去實現即可。另外,想提醒一下,只需要把這些...

人工智慧中的資料標註任務,如何監控標註質量?

史越 孩子成長過程中營養至關重要,不同的成長階段有著不同的需求。人工智慧的發展也是如此,依靠海量資料餵養的它們已經逐漸成長。AI企業在落地過程中發現,所需要的資料維度和複雜度也越來越高,高質量的資料服務行業火熱起來。當對於資料標註的規模和質量有一定標準要求時,單單依靠對標註員的管理優化無法從根本上解...

優秀的人是如何處理工作學習中多工的壓力的?

M沿途美好 很多時候,我們不是做不到多項任務同步處理,而是對能力和實力的確認感不夠強烈。所以比規劃多項任務同步處理更重要的是相信自己能有充分的規劃和掌控感,回憶之前自己發揮得優秀的事情,牢牢記住這件事帶給自己的成就滿足感,也相信自己能在其他事情同樣做得到。你有能力坐到這個位置,到達這個高度,你就同理...