大規模lr訓練中,超引數除了暴力嘗試,是否有更好的優化方法?

時間 2021-06-03 04:35:54

1樓:

用scikit learn裡的random search就行了。

可以參考2023年的Random Search for Hyper-Parameter Optimization

裡面對比了其他的一些自動調參法包括grid search,low-discrepancy序列等等。

作者還在文末吐槽說明明有這麼多更好的自動尋參方法,為什麼你們還要暴力搜尋呢?

2樓:王贇 Maigo

怎麼說呢……

很多情況下,由於訓練一次的成本很高,往往只能隨便選幾組引數,挑個最好的。

當訓練一次的成本不高的時候,往往就直接暴力上grid search了。

只有在訓練一次的成本不高,引數空間的維數又十分高的情況下,才有各種調參方法的生存空間。

我曾經用過Powell's conjugate gradient method,不過因為它最終給出的引數都不是整數,最後還是改成了在grid search的空間上做hill climbing。

下面這個提問也提到了一種調參方法,不過我沒仔細看:

為什麼基於貝葉斯優化的自動調參沒有大範圍使用? - 機器學習

有什麼能加速大規模深度學習訓練又不損傷模型效能的方法嗎?

加速演算法了解的不多,說乙個小白在應用上 屢試不爽,尤其是自己寫的訓練指令碼 容易犯的錯誤 訓練啟動之後,nvidia smi你就盯著後面 volatile gpu util看 windows的話也可以看任務管理器 效能 要是波動特別大,尤其是linux環境經常性的0 說明你的訓練速度瓶頸可能在 C...

2023年中石油中石化會否大規模裁員?

李殿文 中石油從2000年就開始大量裁員,大搞特搞買斷工齡,不買斷不讓上班,天天開大會誘導,瓦解,欺騙職工說你們買斷了退休後和職工一樣待遇花樣多多弄的職工皮開肉綻沒有辦法實屬無奈。關於這些職工維權常常被打壓 裁員標籤看到的問題,吐槽下草民的身邊事。利益相關油二代,二線城市中石化家屬院長大,親戚多在北...

在戰爭中 包圍 戰術有多大價值?在多大規模能夠體現?實施的難點是什麼?

工頭喊俺去搬磚 pan seaeye知友回答的很棒,讓俺漲了不少姿勢。補充一點,就是現代作戰被包圍方是處在最為不利的狀況了。因為現代戰爭在行進中一般也就攜帶2.5個基數的彈藥。以使用7.62公釐口徑槍械的步兵為例一般隨身攜帶150發子彈。2.5個基數相當於375發子彈。同理坦克如果額定攜帶50發各型...