pytorch 分布式計算你們都遇到過哪些坑 bug？

1樓：謝永斌

在DistributedDataParallel模式中，dataloader增加DistributedSampler，發現訓練中記憶體（記憶體！非視訊記憶體）會緩慢增加，直到最後出現OSError: [Errno 12] Cannot allocate memory。

到現在也沒解決這個坑。。。（如果有大佬解決了，能否提供下思路。。。torch==1.

7.1）

2樓：

1.UserWarning: Was asked to gather along dimension 0, but all input tensors were scalars;

will instead unsqueeze and return a vector.

Mario：Pytorch的nn.DataParallel2.沒有單卡訓練精度高

3樓：hzwer

多卡並行，需要存模型的時候，注意只在主卡和 cpu 之間進行操作，否則會引發記憶體洩漏

可能發生各種詭異的情況，包括資料產生變化，多卡梯度對不上，模型精度下降等

4樓：

講乙個引數吧。

呼叫DDP有類似version counter不對的inplace操作錯誤，可能是包裝的module有register buffer，設定下DDP的引數`broadcast_buffers=False`。

BN的runing mean和var也是不要求導的buffer。參考：Inplace error if DistributedDataParallel module that contains a buffer is called twice · Issue #22095 · pytorch/pytorch

RuntimeError: one of the variables needed for gradient computation has been modified by an inplace operation: [torch.

cuda.FloatTensor [1, 32]] is at version 3; expected version 2 instead

5樓：範汝超

說下我之前遇到的坑，如果是用pytorch實現同步梯度更新，然後資料介面是自己寫的話一定要注意保證每張卡分配的batch數是一樣的。因為如果某張卡少了乙個batch的話，其他卡就會等待，從而程式卡在torch.all_reduce()上。

最後的情況就會出現在第乙個epoch結尾處程式卡住，而且沒有報錯資訊。

當時調了半天，一度以為是pytorch的某種bug，最後檢查資料介面才發現了這個小錯誤。

6樓：鄭華濱

乙個武斷，不一定對：不要用看似方便的DataParallel或DistributedDataParallel，自己調torch.distributed裡面的通訊介面進行梯度通訊才是墜吼的。

pytorch 分布式計算你們都遇到過哪些坑 bug？

海量資料，分布式計算，平行計算，虛擬化與雲計算的關係是怎樣的？

分布式計算與雲和SOA有什麼關係？

有了分布式計算平台後，像天河這種超級計算機還有存在的必要嗎？

其他用戶還看了：

pytorch 分布式計算 你們都遇到過哪些 坑 bug？

海量資料，分布式計算，平行計算 ，虛擬化與雲計算的關係是怎樣的？

分布式計算與雲和SOA有什麼關係？

有了分布式計算平台後，像天河這種超級計算機還有存在的必要嗎？

其他用戶還看了：

pytorch 分布式計算你們都遇到過哪些坑 bug？

海量資料，分布式計算，平行計算，虛擬化與雲計算的關係是怎樣的？