2018 LC3(LinuxCon ContainerCon CloudOpen)有哪些看點?

時間 2021-05-30 18:23:08

1樓:薛磊

Baidu Deep Learning Platform on Kubernetes

由於和工作相關,正好藉著LC3大會的機會,了解一下Baidu的PaddlePaddle以及基於kubernetes如何使用這個訓練框架的思路。

PaddlePaddle是Baidu自研的訓練框架,他從設計之初就是為分布式訓練服務,所以其框架也是有著獨到的設計,如下圖1,包含Master,Trainer以及Parameter Server。 其中master主要負責切分資料,分配資料到不同的任務;Trainer主要負責獲取並執行相應的訓練任務;Parameter Server主要負責引數調整以及拿到結果等功能。

PaddlePaddle其設計很複雜,要在眾多機器的集群中部署以及執行起來還是一件非常費時費力的事情。比較典型的工具,比如高效能計算領域的Slurm是一套很流行的任務分發平台,但是尤其其錯誤處理、自動擴容以及對各式各樣的硬體支援偏差,所以引入了Kubernetes作為其排程和部署平台,完成其深度學習框架的訓練平台定位。

Job-manager :作業任務的管理

Job-controller :作為任務的狀態控制以及監控

Report-manager : 負責容器埠管理,系統GPU狀態的收集工作

Collector收集資料

值得一提的是,他們沒有使用容器的網路,而是用host network,並自己維護埠。

在最後他們提出了為了的roadmap,比如支援RDMA、NCCL2以及FPGA/XPU,目前沒有用上RDMA,不知道延遲達到什麼程度,或許做了其他方面的優化,沒有細說。

最後有人問了一些問題,關於kubeflow他們的態度,還是比較曖昧,沒有特別的開放心態。

怎麼看待2018洲際賽lpl 3 2戰勝lck?

穹妹 這麼說,本來以為edg穩贏,看到劣勢就在想如果輸了rw壓力得多大,但是rw真的好棒阿,失誤很少的,反正克烈就一直不要命的開對面ad,賊帥。之後的rng幾乎碾壓。可以說贏的很瀟灑了。愛lpl真是太好了 koma 我想重點分析一下IG跟RW的一兩場。真的是驗證了一句話狹路相逢勇者勝。誰放得開,誰就...

如何評價2023年E3展會

展前最受期待的幾個遊戲,無主之地3和荒野大鏢客2沒戲了 死亡擱淺雖然有一點實際遊戲影像,但總體上依舊雲裡霧裡 賽博朋克,雖然除了播片沒啥乾貨,也能稍微緩解粉絲的飢渴。老滾6有點意外,但連片都沒得播。加上很多資訊都是在展前都已經通過網路散播開了的,總而言之,最期待的重磅內容幾乎全部希望落空,不是特別讓...

iPad2018比iPadAir3書寫感差很多嘛?

Mr.han iPad和air沒有太大差別,同樣都是60HZ的重新整理速率,差別在於兩個的螢幕不同,乙個是非貼合,乙個是全貼合,iPad的非貼合螢幕是真的醜,下筆感覺筆尖距離螢幕還有段距離,這個感覺很不爽,建議你到實體店試一下,能買air就買air,64G足夠用了 豆豆豆餅 自己的pad2018 舍...