如何用測試集資料找到訓練集資料中與其分布相似的資料?

時間 2021-05-11 15:38:22

1樓:

不說競賽,只說真實業務.

如果測試集是時間外驗證,那首先要判斷的是這個"時間外"取的是否合理,是否正好趕上某些bad case 大規模爆發,然後結合業務看是否需要放入測試集中來驗證訓練出來模型的泛化性.

如果通過調整訓練樣本,特徵及模型引數強行擬合測試集,那基本就屬於過擬合測試集了,基本模型就廢了,一上線就崩.測試集就是測試集,只是看一眼模型泛化的效果,如果泛化效果不加,那就要考慮到底是因為哪些特徵的突變導致的,重做模型.

2樓:

我覺得你搞反了,應該取盡可能多的資料在訓練集,而不是用測試集過濾訓練集。因為最終模型還是要用到測試集之外的(可能有些名詞上的混淆,我把測試集看作in sample一部分)。你想做的事情我看來是over fitting in sample.

3樓:大龍貓

可以嘗試一下「adversarial validation」

Adversarial validation | Kaggle

輸入是train with label 1, test with label 0,就是乙個簡單的二分類問題。如果分類器不能識別成功區分train/test,那麼就可以說train/test有相同的分布。

怎麼用pytorch對訓練集資料做十折交叉驗證

FUNNY AI 通過查詢資料發現PyTorch在對資料集的處理上,並沒有設定方便進行交叉驗證的API。在程式設計實踐中可以這麼完成k折交叉驗證 通過切片的方式,將訓練集和驗證集分成了k份,訓練集擁有k 1份資料。class MyDataset data Dataset 資料集類繼承PyTorch的...

將資料集分為訓練集和測試集,訓練集上網格搜尋調參,得到最優引數,能用到在訓練集交叉驗證上嗎?

liaoyanjun 我理解你的意思是先做網格搜尋,選擇一組引數,然後做交叉驗證是不。答案是完全可以,你得到的就是一組引數對應的交叉驗證的均值。交叉驗證的均值好,引數就說明優秀。但是如果資料很大,程式會很慢。 哈哈祥 GridSearchCV,它存在的意義就是自動調參,只要把引數輸進去,就能給出最優...

如何用資料驅動產品決策?

NancyIly 1 上課前,要研討教材 了解和把握教材。研討教材的意圖不完全在於講清楚教材內容,而在於怎麼利用好教材 一起,還要研討學生,因為教育是乙個師生雙方活動的程序。即教師在考慮怎麼 教 的時分,還要考慮學生在學的程序中會呈現什麼問題,思路的走向會是怎樣的,怎麼 學 是最有用 2 講堂上應面...