交叉驗證法中的資料預處理如何去做呢?

時間 2021-06-03 18:08:02

1樓:毛仁傑

非得較真的話,取決於具體的某個「預處理」步驟,是對單獨乙個樣品的資料做的,還是要對乙個資料集做

通常我們特指預處理的時候都是說的後者,所以必須在每一折裡都做

總的來說,反正交叉驗證的時候,每一次的驗證集就是你這次模擬裡的「測試集」,該怎麼處理就怎麼處理

2樓:

注意一點即可,對訓練集和測試集要用相同的預處理方式。

在你給出的問題中,只用到了training和testing資料,沒法進行交叉驗證。如果要做交叉驗證,那麼就把訓練資料分成,訓練資料 train_data 和驗證資料 valid_data。

scaler = preprocessing.StandardScaler().fit(train_data)

train_normalization = scaler.transform(train_data)

valid_normalization = scaler.transform(valid_data)

x_test_normalization =scaler.transform(x_test)

這裡其實沒有任何玄學。仍然遵循上面說的要點,「訓練和測試資料要用相同的預處理方式」!

一般容易發生的錯誤是preprocess的時候是對資料進行scale的時候同時用到了訓練集和測試集。還有乙個錯誤是單獨對測試集進行scale。

3樓:水點三青

預處理本來就是可選的。如果原始資料足夠好,就不需要預處理。乙個需要預處理的栗子,就是原始資料feature太多,而資料量又沒那麼大,所以只能選一些feature或者根據原始資料整理出一些feature來。

交叉驗證跟預處理沒有關係。做不做預處理,怎麼做預處理,都完全不影響如何做交叉驗證。但是,交叉驗證的效果是受預處理影響的。你選了不同的feature出來的效果當然不一樣。

五折交叉驗證中,五折效果差別很大,應該如何分析?

椒鹽砒霜葉小沐 我們期望交叉驗證的結果和實際效果正相關,從而可以側面評估模型的真實效果。如果五折效果差異很大,我們就會擔心實際效果可能也與交叉驗證效果均值存在較大的差異,導致實際上線或競賽中的測試集效果很差。五折效果差別很大則說明五折的資料分布差異較大,出現這種情況一般有以下兩種原因 1.資料量較小...

無理數中的後面的數是前面的數決定的嗎?

甘文迪許 後面的數和前面的數難以找到明顯的關係,這一點其他回答者已經說得比較清楚了。如由 kolakoski 數列構成的無理數0.12211212212211 它是有規律的,因為 kolakoski數列的定義就是有規律的。kolakoski 數列的介紹 塵月 答案當然是 決定的啦 其實你注意一點 是...

等保2 0中的可信驗證具體是怎麼實現?

你的朋友 可信還需要人員全程參與,安全管理中心制定可信策略,出現非業務所必須的非授權事件 主體,客體,操作,環境 會認為這是不可信,進行切斷報警。這樣就要求單位要有一定的技術力量,能夠把規則梳理清楚,制定安全策略,同時對於系統的開發也需要很高的要求,系統一定要開發的規範。 祝三歲 中級等級測評師現場...