Pytorch為什麼使用分組卷積時訓練速度變慢了？

1樓：Angzz

可以參考ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design

裡面對現在depth-wise, group conv等op的bottleneck從訪存角度做了很詳細的分析。

2樓：

準確的說，是group conv和cudnn優化的3x3 conv比速度變慢了，而且是group越多，速度越慢的明顯。原因應該是group變多，運算可並行性降低。這個相關分析shufflenet v2裡有提到過。

所以框架一般會針對depthwise conv作特別的優化。看這個issue https://

，pytorch的FP16 depthwise conv是要比一般卷積快的，目前貌似是FP32還沒有優化好。

3樓：百思視界

參數量會減小

常規卷積做法：如果輸入feature map尺寸為，卷積核有個，輸出feature map與卷積核的數量相同也是，每個卷積核的尺寸為，個卷積核的總參數量為

Group Convolution則是對輸入feature map進行分組，然後每組分別卷積。假設輸入feature map的尺寸仍為，輸出feature map的數量為個，如果設定要分成個groups，則每組的輸入feature map數量為 /G，每組的輸出feature map數量為 / ，每個卷積核的尺寸為 / ，卷積核的總數仍為個，每組的卷積核數量為 / ，卷積核只與其同組的輸入map進行卷積，卷積核的總參數量為 / ，可見，總參數量減少為原來的1/ 。

速度上主要是用for迴圈實現，並不是並行，所以會變慢。現在有了更新：

Pytorch為什麼使用分組卷積時訓練速度變慢了？

為什麼Pytorch不能像sklearn一樣不用定義函式，都封裝好，直接調庫，幾行就搞定？

軍書十二卷，捲捲有爺名，為什麼每卷都有木蘭她爹的名字？

健身時為什麼要分組數？

其他用戶還看了：

Pytorch為什麼使用分組卷積時訓練速度變慢了？

為什麼Pytorch不能像sklearn一樣不用定義函式，都封裝好，直接調庫，幾行就搞定？

軍書十二卷，捲捲有爺名 ，為什麼每卷都有木蘭她爹的名字？

健身時為什麼要分組數？

其他用戶還看了：

軍書十二卷，捲捲有爺名，為什麼每卷都有木蘭她爹的名字？