如何用測試集資料找到訓練集資料中與其分布相似的資料？

1樓：

不說競賽,只說真實業務.

如果測試集是時間外驗證,那首先要判斷的是這個"時間外"取的是否合理,是否正好趕上某些bad case 大規模爆發,然後結合業務看是否需要放入測試集中來驗證訓練出來模型的泛化性.

如果通過調整訓練樣本,特徵及模型引數強行擬合測試集,那基本就屬於過擬合測試集了，基本模型就廢了,一上線就崩.測試集就是測試集,只是看一眼模型泛化的效果,如果泛化效果不加,那就要考慮到底是因為哪些特徵的突變導致的,重做模型.

2樓：

我覺得你搞反了，應該取盡可能多的資料在訓練集，而不是用測試集過濾訓練集。因為最終模型還是要用到測試集之外的(可能有些名詞上的混淆，我把測試集看作in sample一部分)。你想做的事情我看來是over fitting in sample.

3樓：大龍貓

可以嘗試一下「adversarial validation」

Adversarial validation | Kaggle

輸入是train with label 1, test with label 0，就是乙個簡單的二分類問題。如果分類器不能識別成功區分train/test，那麼就可以說train/test有相同的分布。