如何計算CNN中batch normalization的計算複雜度（FLOPs）？

1樓：採石工

下面分析在推理 (或者說測試) 時 BN 層的計算量:

設是BN層的輸入, 其尺寸為 ; 是BN層的moving mean, 是BN層的moving variance, 是BN層的scale, 是BN層的shift, 它們的尺寸均為 . 為了簡化推導, 設 , 並令 , , , , , . 則BN層的輸出的第k個通道為:

, 式中是全1矩陣(而不是單位矩陣), 是乙個很小的正數, 防止除零的發生.

令 , 則 . 由於都是已知的, 和可以預先計算 (NCNN中就是這樣做的[1]), 在推理時不會占用額外的計算時間, 於是的計算量只有次乘法運算和次加法運算, 對於C個通道計算量則有次乘法運算和次加法運算. 這個計算量相對於一般卷積層的計算量是很小的.

對於一般卷積則需要次乘法運算, 次加法運算(有偏置項) 或次加法運算(無偏置項), 這些符號可以顧名思義, 這裡就不贅述了, 詳細的推導可以參考[2].

另外如果網路採用Conv-BN-ReLU的設定, 則BN的引數還可以摺疊 (fold) 到前面的卷積層的引數中, 這時BN的計算被包含到卷積的計算中了.