資料不均衡對分類模型有什麼影響,該怎樣降低影響?

時間 2021-05-11 09:18:26

1樓:黃剛

針對不均衡資料集,保證評價指標的魯棒性與test符合真實分布的前提下,優先考慮修改成本的策略,然後是過/降取樣或樣本生成。

但是取樣的實現相對最容易被大多數場景採用,那麼何時過何時降呢?私以為比例小的樣本總數量較小時採用過取樣,當樣本量較大時,降取樣或者直接保留原有分布。

樣本生成通常要優先於過取樣,但也次於修改成本策略。

其他處理策略如採用整合方法,在樣本量較小時也優於過取樣。

當樣本量極小時考慮異常檢測的方法。

2樓:影隨風ysf

一般來說,對於非平衡資料集可以採取過取樣或者欠取樣的方法。對於訓練集樣本數特別多的情況下可採用欠取樣的方法,這樣來說丟失的資訊不至於過多,其實也得看後期效果。當然也可採用不同的模型,例如lightgbm,它是可以給少數類乙個比較大的權重,進而來減少不平衡所帶來的問題。

改變評價指標也是一種比較好的方法,準確率已經失去了它原有的意義,因為對於訓練非平衡資料,最後得到的準確率一定會很高,此時並不能說明其意義,需要改變評價指標,例如對於二分類問題可改用auc,auc只看排序,這種評價指標對於非平衡資料還是很有幫助的

3樓:Admu

看資料量,如果資料量百萬以上,不用管,直接訓練就可以。過取樣與欠取樣都有缺點,很難做到恰當的取樣。當然是否取樣還要根據驗證集的表現決定,記得驗證集不要取樣哦

不均衡資料,取樣是在劃分資料集(train valid test)之前做合適,還是在劃分之後呢

錢小z 補充一下樓上的回答,可以取樣四份 train,valid bridge,valid,test,前兩個相同分布,後兩個相同分布且符合資料的真實分布 阿爾卑斯的風 我覺得valid和train應該進行一樣的取樣,這樣valid可以用來評估train模型的有效性。而test不應該做取樣,盡量保證t...

左右手力量不均衡怎麼辦?

林Charles 單獨只說手臂的話不複雜呀。你可以每次練手臂的時候,力量弱的乙隻手的訓練量比另外乙隻多30 一段時間後就可以了。大白話 左手弱,右手舉10次,左手就13次。 阿雲 正常情況啊。這種建議你哪個手力量弱就先練哪個手,2個收的數量和力量一定要保持一致。不然長久下來乙個手臂就要比另乙個發達。...

怎樣改變運動時腰腹發力不均衡的問題?

MMM肌力健身 不知您在訓練腰腹是做哪種的動作,如果是卷腹這類的,這邊不太建議,尤其是在整個脊柱有過度彎曲的話更加不建議,您如果是感覺到右側痠痛感強烈,左側無感,有很多原因,但基本上您右側會處於比較緊張的狀態而左側的肌肉是未被啟用,如果長期代償訓練的話,很容易造成受傷 首先,我建議先改變練腹部的動作...