不均衡資料,取樣是在劃分資料集(train valid test)之前做合適,還是在劃分之後呢

時間 2021-06-01 06:36:10

1樓:錢小z

補充一下樓上的回答,可以取樣四份:train,valid_bridge,valid,test,前兩個相同分布,後兩個相同分布且符合資料的真實分布

2樓:阿爾卑斯的風

我覺得valid和train應該進行一樣的取樣,這樣valid可以用來評估train模型的有效性。

而test不應該做取樣,盡量保證test和真值分布一致

3樓:desperado

答案很簡單。

做離線測試有個基本原則,測試(驗證)資料集一定要盡可能地接近真實環境的資料分布。

要不然我每次從測試集中抽樣個能讓AUC=1.0的資料出來,匯報出去,怕不是會被打成豬頭 ,然後捲鋪蓋走人。。。

4樓:StefanChou

test集應該不做取樣,因為test是代表了真實世界的不均衡分布。取樣是為了更好的建模,所以應該在train上取樣。同樣道理valid是為了一定程度反映test的優劣,所以valid同樣不應該做取樣。

我不知道題主說的「訓練集和測試集的交叉」是什麼。因為除了訓練集(這裡包括訓練集全集和為了劃分驗證集之後的本地訓練集)之外,其他都不應該做取樣。

5樓:Profrabbit

嗨呀我也挺想知道這個問題的;我看mooc上老師在做下取樣時,是先進行下取樣工作,再進行切分和交叉驗證的步驟;但是有個問題,就是取樣後切出來的test資料集好像沒有什麼作用吧,因為最後是使用原始資料的test集評估的,那麼下取樣切出test set的步驟好像也沒有必要了吧,直接取樣後進行交叉驗證不好嗎,不太懂,入門新手求解答下。

資料不均衡對分類模型有什麼影響,該怎樣降低影響?

黃剛 針對不均衡資料集,保證評價指標的魯棒性與test符合真實分布的前提下,優先考慮修改成本的策略,然後是過 降取樣或樣本生成。但是取樣的實現相對最容易被大多數場景採用,那麼何時過何時降呢?私以為比例小的樣本總數量較小時採用過取樣,當樣本量較大時,降取樣或者直接保留原有分布。樣本生成通常要優先於過取...

向資料庫插入資料時,時間欄位的值,是在程式中新增還是依賴資料庫的函式,由資料庫去管理時間??

首先要看你的時間字段用於什麼場景。如果你要用來對賬或者做某時間段的冪等的話,也就是具有功能性業務性的,推薦還是由程式決定。因為程式本身會產生時間,和你儲存好的這種時間進行對比,必須統一由程式決定。如果與功能無關推薦資料庫來管理。這樣的話不僅能讓資料在落地的時候統一標準,還可以依賴資料庫的特性來方便的...

資料在電腦內是如何進行傳輸的?

1.金屬電路裡面,自由電子的定向移動速度是非常慢的。要傳遞訊號並不需要把電子移動過去,只要接收端能建立起與傳送端接近的電壓就可以了。在理想情況下,這個速度應該是電磁波的傳播速度。但實際上電路中會有電容和電感,這些儲能元件積累電荷或磁場需要時間,訊號的傳輸延遲主要受這個影響。2.在 CPU 內部 CP...