交叉驗證法中的資料預處理如何去做呢？

1樓：毛仁傑

非得較真的話，取決於具體的某個「預處理」步驟，是對單獨乙個樣品的資料做的，還是要對乙個資料集做

通常我們特指預處理的時候都是說的後者，所以必須在每一折裡都做

總的來說，反正交叉驗證的時候，每一次的驗證集就是你這次模擬裡的「測試集」，該怎麼處理就怎麼處理

2樓：

注意一點即可，對訓練集和測試集要用相同的預處理方式。

在你給出的問題中，只用到了training和testing資料，沒法進行交叉驗證。如果要做交叉驗證，那麼就把訓練資料分成，訓練資料 train_data 和驗證資料 valid_data。

scaler = preprocessing.StandardScaler().fit(train_data)

train_normalization = scaler.transform(train_data)

valid_normalization = scaler.transform(valid_data)

x_test_normalization =scaler.transform(x_test)

這裡其實沒有任何玄學。仍然遵循上面說的要點，「訓練和測試資料要用相同的預處理方式」!

一般容易發生的錯誤是preprocess的時候是對資料進行scale的時候同時用到了訓練集和測試集。還有乙個錯誤是單獨對測試集進行scale。

3樓：水點三青

預處理本來就是可選的。如果原始資料足夠好，就不需要預處理。乙個需要預處理的栗子，就是原始資料feature太多，而資料量又沒那麼大，所以只能選一些feature或者根據原始資料整理出一些feature來。

交叉驗證跟預處理沒有關係。做不做預處理，怎麼做預處理，都完全不影響如何做交叉驗證。但是，交叉驗證的效果是受預處理影響的。你選了不同的feature出來的效果當然不一樣。

五折交叉驗證中，五折效果差別很大，應該如何分析？

椒鹽砒霜葉小沐我們期望交叉驗證的結果和實際效果正相關，從而可以側面評估模型的真實效果。如果五折效果差異很大，我們就會擔心實際效果可能也與交叉驗證效果均值存在較大的差異，導致實際上線或競賽中的測試集效果很差。五折效果差別很大則說明五折的資料分布差異較大，出現這種情況一般有以下兩種原因 1.資料量較小...

無理數中的後面的數是前面的數決定的嗎？

甘文迪許後面的數和前面的數難以找到明顯的關係，這一點其他回答者已經說得比較清楚了。如由 kolakoski 數列構成的無理數0.12211212212211 它是有規律的，因為 kolakoski數列的定義就是有規律的。kolakoski 數列的介紹塵月答案當然是決定的啦其實你注意一點是...

等保2 0中的可信驗證具體是怎麼實現？

你的朋友可信還需要人員全程參與，安全管理中心制定可信策略，出現非業務所必須的非授權事件主體，客體，操作，環境會認為這是不可信，進行切斷報警。這樣就要求單位要有一定的技術力量，能夠把規則梳理清楚，制定安全策略，同時對於系統的開發也需要很高的要求，系統一定要開發的規範。祝三歲中級等級測評師現場...

交叉驗證法中的資料預處理如何去做呢？

五折交叉驗證中，五折效果差別很大，應該如何分析？

無理數中的後面的數是前面的數決定的嗎？

等保2 0中的可信驗證具體是怎麼實現？

其他用戶還看了：