Hadoop和Spark有什麼區別

1樓：姬不鬧

對比不恰當。應該去關注hove和spark的區別。不完整的比喻，hadoop是鐵軌，上面跑綠皮車hive和跑高鐵spark有區別。而不應該問鐵軌和高鐵有什麼區別。

2樓：windofjava

誕生的先後順序，hadoop屬於第一代開源大資料處理平台，而spark屬於第二代

屬於下一代的spark肯定在綜合評價上要優於第一代的hadoop

spark和hadoop在分布式計算的底層思路上，其實是極為相似的，即mapreduce分布式運算模型：將運算分成兩個階段，階段1-map，負責從上游拉取資料後各自運算，然後將運算結果shuffle給下游的reduce，reduce再各自對通過shuffle讀取來的資料進行聚合運算

spark和hadoop在分布式計算的具體實現上，又有區別；hadoop中的mapreduce運算框架，乙個運算job，進行一次map-reduce的過程；而spark的乙個job中，可以將多個map-reduce過程級聯進行

spark和hadoop的另乙個區別是，spark是乙個運算平台，而hadoop是乙個復合平台（包含運算引擎，還包含分布式檔案儲存系統，還包含分布式運算的資源排程系統），所以，spark跟hadoop來比較的話，主要是比運算這一塊

大資料技術發展到目前這個階段，hadoop（主要是說它的運算部分）日漸式微，而spark目前如日中天，相關技術需求量大，offer好拿，薪資相對更高

3樓：麒麟

Hadoop是目前最主流的大資料生態體系，其核心包含HDFS分布式儲存，hive資料倉儲，hbase列式資料庫及yarn分布式排程等元件。而spark是基於記憶體計算的分布式計算引擎。可以和Hadoop整合使用。

4樓：青牛

Spark位於記憶體處理引擎中，因此儘管它是基於MapReduce / Hadoop構建的，但它比MapReduce更快。Spark擁有豐富的庫集，用於資料處理，分析，機器學習，查詢等。

可以說，MapReduce是像C這樣的低階語言程式語言，而Spark是像SQL這樣的高階語言。因此，如果需要深入研究資料，那麼MapReduce將比Spark更好。另乙個比喻是MapReduce是PL / SQL語言，而Spark是SQL語言