人工智慧GPU的分布式計算 推理 訓練 ,又要有算力伸縮能力,現在有什麼好方案?

時間 2021-06-03 16:23:08

1樓:雲卷雲舒

這個問題,我可以提供一些資訊,僅供參考。

最近,我接觸到乙個叫做「易學智慧型GPU」的平台,實現的功能與這裡問的挺相似,說說我的使用體驗。

第一,我可以在每次開機前,選擇租用什麼型號的GPU、租多少塊GPU。當然,CPU、記憶體、磁碟空間等,都是可選的。要搞訓練時,就多租幾塊GPU;否則,就少一點。靈活性足夠。

第二,我的使用情況,比如我用了多少時間、用的什麼型別的GPU、選的開發環境等等,在使用記錄中都是一目了然的。這就實現了管理的功能。

第三,平台的主機,都預設安裝了ubuntu系統、cuda、cudnn、tensorflow、pytorch、opencv、numpy等,用起來很省心。

第四,我的個人資料,有自己的儲存空間,可以長期儲存。這樣,開關機就無壓力了,並不用擔心系統復原、資料丟失與程式重灌的問題。

最後,多GPU的併發,目前還是要自己寫程式。平台聲稱正在實現Kubeflow那一套,但目前還沒看到上線。

總的說,易學智慧型GPU平台,在算力可伸縮、可管理與易用方面,做的挺不錯。如果需要,可以找到他們諮詢,看他們是否可賣離線系統。

2樓:Terrance

搭建深度學習工作站,用nvidia-docker來進行資源分配。

對於題主所說,人手兩塊GPU的話,很大概率型號也是一樣的,更方便部署,弄一台專用的深度學習工作站,每個人拆掉一塊GPU移到工作站上,剩下一塊用於本地除錯,這是成本最低的方案。畢竟GPU貴其他東西相對便宜。

伺服器上環境建議安裝Ubuntu+NVdocker,需要用的時候遠端SSH或者jupyter提交計算任務,如果沒有條件做資源排程系統的話,把root金鑰分發給每個人也未嘗不可,畢竟你們是乙個團隊。

為什麼GPU比CPU更適合人工智慧計算?

Peter Yin cpu模擬成乙個會微積分的本科畢業生,gpu模擬成10000個小學生,你讓本科生計算10000道加減乘除的運算題消耗的時間肯定比10000個小學生一人算一題時間消耗久,但是本科生能做的微積分小學生解決起來就很困難,偏偏卷積神經網路的卷積就是這種大量的加減乘除的計算,所以用gpu比...

哪個廠商的GPU適合人工智慧深度學習領域呢?

13324050245 其實只有英偉達顯示卡叫GPU,其他的都叫顯示卡。儘管說有些顯示卡也能用於計算。但是真正意義上的GPU是指通用計算,GPU這個名字就是從英偉達開始這麼叫的。 詹姆斯林 首選是NVIDIA,顯示卡架構豐富,高效穩定,不斷迭代公升級,學生黨一般GTX1080 GTX3060就夠了,...

人工智慧機器學習的監督式和非監督式能解釋一下嗎。。能讓小白看懂的那種?

雪夢心 監督式就是你幫機器分類好了。大概就像你在教小朋友辨別動物,這只是貓,這只是狗 非監督式就是機器自己分類。小朋友自己辨別出了貓和狗不一樣,然後把這個結果告訴你。 殷瑋 監督學習就是考試前背題庫,只是做了總結方便記憶 通過網路梯度下降把特徵壓縮了 非監督就是直接看了無數考卷,雖然不知道這些是啥,...