Hadoop和Spark有什麼區別

時間 2021-05-06 18:45:35

1樓:姬不鬧

對比不恰當。應該去關注hove和spark的區別。不完整的比喻,hadoop是鐵軌,上面跑綠皮車hive和跑高鐵spark有區別。而不應該問鐵軌和高鐵有什麼區別。

2樓:windofjava

誕生的先後順序,hadoop屬於第一代開源大資料處理平台,而spark屬於第二代

屬於下一代的spark肯定在綜合評價上要優於第一代的hadoop

spark和hadoop在分布式計算的底層思路上,其實是極為相似的,即mapreduce分布式運算模型:將運算分成兩個階段,階段1-map,負責從上游拉取資料後各自運算,然後將運算結果shuffle給下游的reduce,reduce再各自對通過shuffle讀取來的資料進行聚合運算

spark和hadoop在分布式計算的具體實現上,又有區別;hadoop中的mapreduce運算框架,乙個運算job,進行一次map-reduce的過程;而spark的乙個job中,可以將多個map-reduce過程級聯進行

spark和hadoop的另乙個區別是,spark是乙個運算平台,而hadoop是乙個復合平台(包含運算引擎,還包含分布式檔案儲存系統,還包含分布式運算的資源排程系統),所以,spark跟hadoop來比較的話,主要是比運算這一塊

大資料技術發展到目前這個階段,hadoop(主要是說它的運算部分)日漸式微,而spark目前如日中天,相關技術需求量大,offer好拿,薪資相對更高

3樓:麒麟

Hadoop是目前最主流的大資料生態體系,其核心包含HDFS分布式儲存,hive資料倉儲,hbase列式資料庫及yarn分布式排程等元件。而spark是基於記憶體計算的分布式計算引擎。可以和Hadoop整合使用。

4樓:青牛

Spark位於記憶體處理引擎中,因此儘管它是基於MapReduce / Hadoop構建的,但它比MapReduce更快。Spark擁有豐富的庫集,用於資料處理,分析,機器學習,查詢等。

可以說,MapReduce是像C這樣的低階語言程式語言,而Spark是像SQL這樣的高階語言。因此,如果需要深入研究資料,那麼MapReduce將比Spark更好。另乙個比喻是MapReduce是PL / SQL語言,而Spark是SQL語言

hadoop和大資料的關係?和spark的關係?

我要來裝b了 hadoop生態提供了一些解決大資料問題的元件 分布式儲存系統HDFS 提供高可靠性,高擴充套件性,高吞吐率的資料儲存服務 分布式計算框架MapReduce 高容錯,高擴充套件 資源管理系統YARN 資源管理,任務排程 還有其他亂七八糟的什麼zookeeper hbase ambari...

學習Spark一定要先學Hadoop嗎?

windofjava hadoop和spark,有關係,但並不是需要先學hadoop才能學spark的關係,它倆之間的對比如下 誕生的先後順序,hadoop屬於第一代開源大資料處理平台,而spark屬於第二代 屬於下一代的spark肯定在綜合評價上要優於第一代的hadoop spark和hadoop...

Sun Grid Engine 和 hadoop 是什麼關係?

老程式設計師 我司大規模使用SGE 現在開源的叫UGE 啊,也不是什麼超級計算機,就是計算能力比較高的計算機吧,其實這個不是必須的,就算你家裡的計算機一樣可以加入UGE作為乙個節點的,我們主要用來跑nightly regression,大概2000臺的規模,以前裡面有HP,IBM,LINUX,SUN...