分布式深度學習訓練中的通訊優化有哪些主流的研究方向？

1樓：顏深根

從系統實現上來分，可以分為PS和Allreduce兩個大的方向。對精度是否有影響來分，可以分為同步通訊和非同步通訊。從通訊的內容上來分，可以分為稠密通訊和稀疏通訊。

這裡面每乙個方向都會有很多可以優化的方法。比如從通訊底層，可以採用普通TCP/IP協議，也可以採用RDMA。PS可以採用單個Server，也可以採用多個Server，Allreduce可以採用全域性的Allreduce，也可以採用區域性的Allreduce。

同步通訊從策略上來講相對少一些，非同步通訊可以探索的空間會更大，需要考慮不同的非同步協議在不同的領域對精度影響的差別。稠密通訊做通訊合併、任務佇列，稀疏通訊的資料儲存、格式轉換，都有很多細節。

另外從系統層面，還需要考慮穩定性。計算節點故障如何處理？通訊是否容錯？

大規模的訓練，穩定性往往會是問題，如何設計乙個通訊庫，即能保證通訊效率，同時也穩定可靠，這個非常重要。另外也需要從使用者層面，兼顧各種不同的使用者使用場景，系統設計上具備一定的使用靈活性。

分布式隨機優化領域的研究如何開展？

青虫如果是Decentralized Optimization的話可以看看最近的一篇綜述 Nedi,Angelia,Alex Olshevsky,and Michael G.Rabbat.Network topology and communication computation tradeoff...

想學習分布式鎖分布式事務這些，有沒有好的書籍推薦？

吳垚說到分布式事務，不得不提兩位圖靈獎得主的合作文章Consensus on Transaction Commit.Jim Gray,Leslie Lamport.然後事務的話看一作的事務概念與事務的那本書，分布式的話看二作的個人主頁。與其看其他的把你搞的雲裡霧裡的二手知識，不如直接看原作者的書和...

人工智慧GPU的分布式計算推理訓練，又要有算力伸縮能力，現在有什麼好方案？

雲卷雲舒這個問題，我可以提供一些資訊，僅供參考。最近，我接觸到乙個叫做易學智慧型GPU 的平台，實現的功能與這裡問的挺相似，說說我的使用體驗。第一，我可以在每次開機前，選擇租用什麼型號的GPU 租多少塊GPU。當然，CPU 記憶體磁碟空間等，都是可選的。要搞訓練時，就多租幾塊GPU 否則，就少...

分布式深度學習訓練中的通訊優化有哪些主流的研究方向？

分布式 隨機優化領域的研究如何開展？

想學習分布式鎖 分布式事務這些，有沒有好的書籍推薦？

人工智慧GPU的分布式計算 推理 訓練 ，又要有算力伸縮能力，現在有什麼好方案？

其他用戶還看了：

分布式隨機優化領域的研究如何開展？

想學習分布式鎖分布式事務這些，有沒有好的書籍推薦？

人工智慧GPU的分布式計算推理訓練，又要有算力伸縮能力，現在有什麼好方案？