不均衡資料，取樣是在劃分資料集（train valid test）之前做合適，還是在劃分之後呢

1樓：錢小z

補充一下樓上的回答，可以取樣四份：train，valid_bridge，valid，test，前兩個相同分布，後兩個相同分布且符合資料的真實分布

2樓：阿爾卑斯的風

我覺得valid和train應該進行一樣的取樣，這樣valid可以用來評估train模型的有效性。

而test不應該做取樣，盡量保證test和真值分布一致

3樓：desperado

答案很簡單。

做離線測試有個基本原則，測試（驗證）資料集一定要盡可能地接近真實環境的資料分布。

要不然我每次從測試集中抽樣個能讓AUC=1.0的資料出來，匯報出去，怕不是會被打成豬頭，然後捲鋪蓋走人。。。

4樓：StefanChou

test集應該不做取樣，因為test是代表了真實世界的不均衡分布。取樣是為了更好的建模，所以應該在train上取樣。同樣道理valid是為了一定程度反映test的優劣，所以valid同樣不應該做取樣。

我不知道題主說的「訓練集和測試集的交叉」是什麼。因為除了訓練集（這裡包括訓練集全集和為了劃分驗證集之後的本地訓練集）之外，其他都不應該做取樣。

5樓：Profrabbit

嗨呀我也挺想知道這個問題的；我看mooc上老師在做下取樣時，是先進行下取樣工作，再進行切分和交叉驗證的步驟；但是有個問題，就是取樣後切出來的test資料集好像沒有什麼作用吧，因為最後是使用原始資料的test集評估的，那麼下取樣切出test set的步驟好像也沒有必要了吧，直接取樣後進行交叉驗證不好嗎，不太懂，入門新手求解答下。

不均衡資料，取樣是在劃分資料集（train valid test）之前做合適，還是在劃分之後呢

資料不均衡對分類模型有什麼影響，該怎樣降低影響？

向資料庫插入資料時，時間欄位的值，是在程式中新增還是依賴資料庫的函式，由資料庫去管理時間？？

資料在電腦內是如何進行傳輸的？

其他用戶還看了：