分布式深度學習訓練中的通訊優化有哪些主流的研究方向?

時間 2021-06-03 22:44:50

1樓:顏深根

從系統實現上來分,可以分為PS和Allreduce兩個大的方向。對精度是否有影響來分,可以分為同步通訊和非同步通訊。從通訊的內容上來分,可以分為稠密通訊和稀疏通訊。

這裡面每乙個方向都會有很多可以優化的方法。比如從通訊底層,可以採用普通TCP/IP協議,也可以採用RDMA。PS可以採用單個Server,也可以採用多個Server,Allreduce可以採用全域性的Allreduce,也可以採用區域性的Allreduce。

同步通訊從策略上來講相對少一些,非同步通訊可以探索的空間會更大,需要考慮不同的非同步協議在不同的領域對精度影響的差別。稠密通訊做通訊合併、任務佇列,稀疏通訊的資料儲存、格式轉換,都有很多細節。

另外從系統層面,還需要考慮穩定性。計算節點故障如何處理?通訊是否容錯?

大規模的訓練,穩定性往往會是問題,如何設計乙個通訊庫,即能保證通訊效率,同時也穩定可靠,這個非常重要。另外也需要從使用者層面,兼顧各種不同的使用者使用場景,系統設計上具備一定的使用靈活性。

分布式 隨機優化領域的研究如何開展?

青虫 如果是Decentralized Optimization的話可以看看最近的一篇綜述 Nedi,Angelia,Alex Olshevsky,and Michael G.Rabbat.Network topology and communication computation tradeoff...

想學習分布式鎖 分布式事務這些,有沒有好的書籍推薦?

吳垚 說到分布式事務,不得不提兩位圖靈獎得主的合作文章Consensus on Transaction Commit.Jim Gray,Leslie Lamport.然後事務的話看一作的事務概念與事務的那本書,分布式的話看二作的個人主頁。與其看其他的把你搞的雲裡霧裡的二手知識,不如直接看原作者的書和...

人工智慧GPU的分布式計算 推理 訓練 ,又要有算力伸縮能力,現在有什麼好方案?

雲卷雲舒 這個問題,我可以提供一些資訊,僅供參考。最近,我接觸到乙個叫做 易學智慧型GPU 的平台,實現的功能與這裡問的挺相似,說說我的使用體驗。第一,我可以在每次開機前,選擇租用什麼型號的GPU 租多少塊GPU。當然,CPU 記憶體 磁碟空間等,都是可選的。要搞訓練時,就多租幾塊GPU 否則,就少...