mxnet單卡訓練和多卡訓練的學習率如何設定？

1樓：Haozhi Qi

實驗室網掛了，不知道什麼時候能修好。於是我就來回答一下這個問題。

一句話總結，學習率沒有乙個萬能的設定方法，這個和 rescale_grad, learning rate, normalization 都有關係。關鍵是你要知道你的設定能不能達到你想要的效果。

這篇回答想要解決的問題是，「如果我想要多卡多圖達到的效果和單卡單圖的效果是理論上等效的，那麼 rescale_grad, lr, normalization 到底該怎麼設」。

（實驗上肯定不等效，batch size 256 和 512 還有可能等效，但 256 和 32 這種量級差別就肯定做不到了）

MxNet 中 SGD 的實現在下鏈結處。這裡複製了 without momentum 的 SGD，但下述所有結論均適用於 with momentum 的情況。

SGD 的實現是

其中，W 是這一層的引數，lr 是 learning rate，N 是 rescale grad，G 是 n 張卡反傳回來的梯度之和，wd 是 weight decay。可以看到，影響 W 更新的一共有 4 者。（下文論述中，n 代表卡數，k 代表每張卡的 batch size）。

舉個栗子來說。比如最單純的，image classification 的情況，如果你想要達到的效果是，用一張卡 (n = 1)，並且每張卡一張圖 (k = 1)訓練，學習率是。那當你加卡（變成 n 張卡）或者加圖（每張卡變成 k 張圖）的時候，應該如下設定：

（我就大膽假設用的就是 softmax loss 做分類了）

如果你的 loss 用的 normalization 選項是 null（預設設定），這個時候 G 變成了原來的 n * k 倍。那麼應該 N = (n * k), 同時放大 n * k 倍。

如果你的 loss 用的是 batch，那麼此時，G 變成了原來的 n 倍，所以這時的設定應該是 N = n，同時放大 n * k 倍。訓練的更新次數除以 (n * k)。

也就是說，這一項，應該永遠都和單卡單圖的情況等價。不同的是，通過 learning rate 的變化來控制每一步所走的距離。

另外說一句題外話，當時寫 msracver/Deformable-ConvNets 的時候，採取的策略是令 N 永遠等於 1。這樣的話 lr 可以每一次都不變。但這樣是有問題的，原因在於此時這一項和這一項的比例就發生了變化，跟單卡單圖時候的情形就不一樣了。

網好了，繼續搬磚。