在深度學習中,如果訓練集和測試集的範圍不一致,該如何進行歸一化或者標準化處理?

時間 2021-05-06 07:16:08

1樓:王華

如果你的測試集和訓練集不能動。

那就乾脆縮放吧,都縮放到0-1之間。

雖說,前面有說訓練集和測試集要同分布,說的很堅決,必須要。我是不同意這種說法的,分布這種本身概念就很模糊。

打過各種比賽,神經網路需要效果優先的,你可以試試縮放法。

2樓:華矩數診台

你可以使用歸一化,訓練集0--10,歸一化不就是X(X為訓練集重的資料)/(10--0);測試集0--20,歸一化不就是X(X為測試集重的資料)/(20--0);這樣就都處於0,1之間了。

3樓:

樓上已經回答的跟清楚了,訓練集個測試集需要同分布,從邏輯和訓練模型角度都一定要有這個前提,這個我就不重複了。

我補充一點,很多學習任務的訓練資料確實和真實場景有差異,Ng介紹了一種方法:比如訓練集10萬條資料和測試集1萬條來自不同分布,可以將測試集分為兩部分,比如A和B分別大小為5000和5000,將A的資料加入訓練集,B的資料作為測試集,這樣對訓練效果有所提公升。需要注意的是,保證測試集的資料必須和真實場景同分布,這個前提是不能變的,所以測試集的資料不能混入訓練集的。

另外,還可以用一些data augment的方法,多提供一些接近實際場景的資料。

總之同分布的前提越接近越好。

4樓:DylanY

Test和Train不能用不同的歸一化方式,Train集用歸一化的方式的引數要原封不動的用在Test集上,這樣才保住兩個資料集有可比性。

5樓:TY Sun

訓練集和測試集分布不一致時,結果是不可靠的。你需要自己分析資料集的特徵來設法歸一化。

以前我參加過Nvidia的培訓,他們演示了MNIST的訓練,結果都很好。後來講師自己寫了乙個數字,卻死活認不出來。其實MNIST中資料集中,周圍的4個畫素都是空的,而講師寫的那個數字剛好有一筆落在了這個範圍,因此可以認為測試資料與訓練資料不屬於同一分布,認不出來也不奇怪。

將資料集分為訓練集和測試集,訓練集上網格搜尋調參,得到最優引數,能用到在訓練集交叉驗證上嗎?

liaoyanjun 我理解你的意思是先做網格搜尋,選擇一組引數,然後做交叉驗證是不。答案是完全可以,你得到的就是一組引數對應的交叉驗證的均值。交叉驗證的均值好,引數就說明優秀。但是如果資料很大,程式會很慢。 哈哈祥 GridSearchCV,它存在的意義就是自動調參,只要把引數輸進去,就能給出最優...

分類演算法中,訓練集和驗證集有什麼區別?

武宗海山 一般來說,訓練集佔據了資料集的majority 例如百分之80 訓練集用於確定模型的basic引數。而驗證集 假設佔據10 則是在訓練模型的過程中不斷調整basic引數,也就是常說的 調參 當模型的引數最終確定後,停止訓練,採用測試集 10 來評估模型的泛化效能。 和煦 for each ...

在訓練cnn的過程中,訓練集準確率逐漸公升高,loss平穩下降,但是測試集動盪劇烈是什麼原因?

暴走的夢想 我覺得首先要看你的訓練集和測試集是否是同乙個資料集,同乙個資料集的話分布應該是大致相同的,當然要確保劃分資料集合理,比如訓練集是否包含了所有種類,是否對資料集進行了隨機劃分 這樣出現測試集acc和loss不穩定的情況就是過擬合了。還有一種情況就是訓練集和測試集沒有來自同乙個資料集,那這時...