有了分布式計算平台後,像天河這種超級計算機還有存在的必要嗎?

時間 2021-05-12 01:34:37

1樓:山梔

超算中心會雲計算化,雲計算平台也會提供越來越多的超算部署。雲計算和超算本質上沒有區別,兩者的趨同是商業模式適應時代大勢的不斷優化。這裡時代大勢指的是大資料量高效能的計算越來越普及。

「舊時王謝堂前燕,飛入尋常百姓家」。時至今日,乙個普通的本科生可能都能把1000個CPU或者100張GPU充分利用起來。

而像超算這樣高度同質,CPU core之間通訊效率/context共享效率極高的分布式計算中心,需求是越來越廣泛的。

也就是說,雲計算平台如AWS會提供越來越多逼近於超算中心的擴充套件(scalability)效率的計算服務(例如AWS的V100+RDMA配置已經非常普遍),而超算中心也會提供越來越多的雲服務來提高超算的使用效率,產生更好的投資回報。

2樓:

有必要,

這種裝置在科學前沿領域都是需要的。其計算能力和處理能力,可以解決一些問題

分布式計算平台是解決資源利用問題,兩者沒有強烈的對比性,都是為了解決不同程度的

問題存在。而且,其單台裝置相比,或者相同量級對比,都顯得沒有什麼意義。

3樓:Aaron Liu

《三體2黑暗森林》裡面,面壁人雷迪亞茲,一位狂熱的核彈愛好者,他擔任面壁人期間的主要工作就是全世界到處找超算為他計算巨型核彈。

4樓:

上面有很多同學回答的非常詳細了。

我簡單的回答,因為接觸過分布式平台和hpc系統,算是有所了解吧。

1. 分布式平台面臨的問題是io問題,各種IO都是問題2. HPC系統,要解決的是計算和節點的IO,而計算非常關鍵曾經用spark來執行乙個LR機器學習演算法,粗略的估計了一下,效能差了兩個數量級。

5樓:Dustin ZHOU

嚴格意義上說,超算也是一種分布式計算。

如果你指的分布式平台是hadoop之類的話,主要差異還是在網路連線的耦合度上,GFS(google file system)就是典型的松耦合網路,更多的考慮擴充套件性與容錯,而且追求價效比,注重使用許多低成本硬體搭建較高效能的網路。

6樓:zhen-liang

光腦出現前計算能力和能耗比的矛盾無法解決就有存在必要

克雷公司出現前,超級計算機是一台臺設計來買的,現在特指專門組合的集群

7樓:李大仁

按政治正確來說, 超算跟堆廉價硬體是不一樣的(嚴肅臉).

其實一回事, 堆廉價硬體這種思路不就是網際網路窮屌們玩不起超算才想出來的麼, 不過超算就是比較精細了, 對很多方面都有優化, 玩得全是高富帥級硬體(IB 級背板頻寬, 嘖嘖, 要是普及到戶就能永世宅了).

有幸我村校有乙個 WNY 地區唯一的超算中心, 於是蹭了門課有幸參觀了超算中心和順便蹭了個賬號實踐模擬了一下蛋白質摺疊. 這東西真不是你搭個 mapreduce 就玩得起的. 隔壁化學系和建築系, 生物系的連商學院的都跑過來蹭, 反倒是計算機系的用得少.

針對計算目的不一樣, 往往每個超算中心都有不通的通訊協議和分布排程策略. 你見過 Spark 或者 Hadoop 改變通訊協議和排程策略麼(不是沒有, 少)

還記得前段時間超算會議開完之後教授上的第一節課失落地嗚呼哀哉: top 10 裡面中國竟然佔了大部分, 美帝就2個, 美帝藥丸云云, 心中就充滿了自豪啊!(誰叫我們人多計算資源不夠啊!

中國應該是唯一乙個國家大部分地市級基本上都有超算中心, 要不天氣預報和疾控預防怎麼玩, 具體我也不知道聽這個波蘭教授吹的)

8樓:

別的不說啦,我們實驗室裡的計算集群已經用上了4倍速的INFINIBAND網路,插頭有兩個拇指那麼粗,點對點有效頻寬20G/s,就是任意兩台機器通訊的頻寬都不小於20G/s。網路延遲ping命令已經快測不出來了,微秒量級。硬體支援遠端讀寫記憶體,就是RDMA協議。

天河1A的網路是定製網路硬體和定製協議,點對點頻寬我記得是40G/s。天河二只會更快。

具體到程式來說,計算能力需求是一方面,更重要的還是資料通訊,比如我們組的計算程式一般要上千個程序,每乙個程序每秒要收發幾百兆的資料,計算要持續幾個小時到幾天。

裝完逼就閃人。

9樓:溫酒

有了git提供分布式開發支援以後,我這樣的資深碼農還有存在的必要嗎?

ps: 我就不吐槽天河和大型機不是一回事這種槽點了……因為我知道題主想問什麼。

10樓:Djvu

有。人類對速度的追求是無止境。之所以分布式今天這麼火,是因為廉價的集群可以獲得相當高的計算能力。

但是普通的分布式集群有很多的缺陷,比如網路開銷很大,這既受限制與網路鏈路,也受限制於協議。天河這種機器是精心設計,計算能力還是普通分布式集群無法達到的。如果你需要承擔像天氣預報計算這樣的系統,你最終也是會和天河的設計理念差不多。

11樓:hongyu yang

大型機指的是IBM Z系列這類機器,主要應用於銀行,英文翻譯為main frame.

天河這類機器和大型機完全是兩個不同的東西。

12樓:

有必要存在。

分布式計算有乙個重要的目標就是用一堆便宜的PC堆積出乙個能與大型機有相同計算能力的集群。想法非常好,但分布式計算的前提是,任務要可分解,才能「分布式」計算。

但是很多本質上是序列化的任務是無法並行拆分的,比如微積分計算、正規表示式匹配、航天、衛星軌道計算等,這些都依賴單機單執行緒的強大計算能力,因此大型機是不可或缺的。

還有,分布式要應對的主要問題是PC的穩定性,如果突然的宕機可能會對金融領域造成致命的不一致性,而大型機有著良好的可靠性和服務,自然有存在的市場。

13樓:余天公升

包括天河系列在內的各大超級計算機都是乙個大規模分布式計算集群,至少http://

top500.org

上榜的那500都是。

分布式計算與雲和SOA有什麼關係?

Shijie XU 總結 三個不同的名詞,側重點不一樣,又有重疊,分布式計算 側重多個程序 位於同乙個機器,不同機器,甚至雲上的主機 相互通訊,交流,然後共同完成乙個任務,請求等。分布式計算的概念出來很早,從80,90年代那個時候的RPC,CORBA通訊開始,通訊協議也多種多樣,比如底層的TCP,I...

海量資料,分布式計算,平行計算 ,虛擬化與雲計算的關係是怎樣的?

億方雲 海量資料涉及到一些方面。我給你介紹一下 第一點涉及到雲儲存和分布式儲存。第二點涉及到分布式計算和平行計算。分布式計算和平行計算 平行計算偏科學領域,偏單使用者,單請求,在配置多處理機的伺服器下處理。分布式計算偏多使用者,多請求,涉及多台伺服器多個計算單元的分布式處理。分布式計算本身又分為兩種...

pytorch 分布式計算 你們都遇到過哪些 坑 bug?

謝永斌 在DistributedDataParallel模式中,dataloader增加DistributedSampler,發現訓練中記憶體 記憶體!非視訊記憶體 會緩慢增加,直到最後出現OSError Errno 12 Cannot allocate memory。到現在也沒解決這個坑。如果有大...