在深度學習中，如果訓練集和測試集的範圍不一致，該如何進行歸一化或者標準化處理？

1樓：王華

如果你的測試集和訓練集不能動。

那就乾脆縮放吧，都縮放到0-1之間。

雖說，前面有說訓練集和測試集要同分布，說的很堅決，必須要。我是不同意這種說法的，分布這種本身概念就很模糊。

打過各種比賽，神經網路需要效果優先的，你可以試試縮放法。

2樓：華矩數診台

你可以使用歸一化，訓練集0--10，歸一化不就是X（X為訓練集重的資料）/（10--0）；測試集0--20，歸一化不就是X（X為測試集重的資料）/（20--0）；這樣就都處於0,1之間了。

3樓：

樓上已經回答的跟清楚了，訓練集個測試集需要同分布，從邏輯和訓練模型角度都一定要有這個前提，這個我就不重複了。

我補充一點，很多學習任務的訓練資料確實和真實場景有差異，Ng介紹了一種方法：比如訓練集10萬條資料和測試集1萬條來自不同分布，可以將測試集分為兩部分，比如A和B分別大小為5000和5000，將A的資料加入訓練集，B的資料作為測試集，這樣對訓練效果有所提公升。需要注意的是，保證測試集的資料必須和真實場景同分布，這個前提是不能變的，所以測試集的資料不能混入訓練集的。

另外，還可以用一些data augment的方法，多提供一些接近實際場景的資料。

總之同分布的前提越接近越好。

4樓：DylanY

Test和Train不能用不同的歸一化方式，Train集用歸一化的方式的引數要原封不動的用在Test集上，這樣才保住兩個資料集有可比性。

5樓：TY Sun

訓練集和測試集分布不一致時，結果是不可靠的。你需要自己分析資料集的特徵來設法歸一化。

以前我參加過Nvidia的培訓，他們演示了MNIST的訓練，結果都很好。後來講師自己寫了乙個數字，卻死活認不出來。其實MNIST中資料集中，周圍的4個畫素都是空的，而講師寫的那個數字剛好有一筆落在了這個範圍，因此可以認為測試資料與訓練資料不屬於同一分布，認不出來也不奇怪。

在深度學習中，如果訓練集和測試集的範圍不一致，該如何進行歸一化或者標準化處理？

將資料集分為訓練集和測試集，訓練集上網格搜尋調參，得到最優引數，能用到在訓練集交叉驗證上嗎？

分類演算法中，訓練集和驗證集有什麼區別？

在訓練cnn的過程中，訓練集準確率逐漸公升高，loss平穩下降，但是測試集動盪劇烈是什麼原因？

其他用戶還看了：