將資料集分為訓練集和測試集，訓練集上網格搜尋調參，得到最優引數，能用到在訓練集交叉驗證上嗎？

1樓：liaoyanjun

我理解你的意思是先做網格搜尋，選擇一組引數，然後做交叉驗證是不。答案是完全可以，你得到的就是一組引數對應的交叉驗證的均值。交叉驗證的均值好，引數就說明優秀。

但是如果資料很大，程式會很慢。

2樓：哈哈祥

GridSearchCV，它存在的意義就是自動調參，只要把引數輸進去，就能給出最優化的結果和引數。但是這個方法適合於小資料集，一旦資料的量級上去了，很難得出結果。這個時候就是需要動腦筋了。

資料量比較大的時候可以使用乙個快速調優的方法——座標下降。它其實是一種貪心演算法：拿當前對模型影響最大的引數調優，直到最優化；再拿下乙個影響最大的引數調優，如此下去，直到所有的引數調整完畢。

這個方法的缺點就是可能會調到區域性最優而不是全域性最優，但是省時間省力，巨大的優勢面前，還是試一試吧，後續可以再拿bagging再優化。

通常演算法不夠好，需要除錯引數時必不可少。比如SVM的懲罰因子C，核函式kernel，gamma引數等，對於不同的資料使用不同的引數，結果效果可能差1-5個點，sklearn為我們提供專門除錯引數的函式grid_search。

Grid Search：一種調優方法，在引數列表中進行窮舉搜尋，對每種情況進行訓練，找到最優的引數；由此可知，這種方法的主要缺點是比較耗時！

網格搜尋 GridSearchCV\訓練集、驗證集和測試集