MapReduce和Spark主要解決哪些方面的問題？

1樓：

框架不一樣

Tasks 並行化：

MapReduce:

Map()把上傳到hdfs的檔案一行一行拆分，然後你coding一對key-value pair，傳送給不同worker nodes，Reduce()進行統一key的歸納操作

Data 並行化：

Spark

2樓：

mapreduce和spark都是分布式計算框架，相對於傳統分布式計算來說，兩者給程式設計師提供了方便的分布式計算環境，我們不需要考慮底層怎麼平行計算，怎麼協調同步，怎麼容錯，我們只需考慮我們的業務就可以完成分布式計算。

而兩者的側重點也不同，mr適合批處理，對時效性要求不高的離線計算等等，因為它在計算的時候會將計算中間結果溢寫到磁碟上，io消耗比較大，而spark是基於記憶體的計算框架，直接在記憶體中完成計算，從這點來說它的計算速度是很好的，spark有很多模組比如實時計算，圖計算，sparkSQL等等，從程式設計上來說如果用Scala會非常方便。

上述說明並不意味著spark完全優於Mr，只是兩者側重點不同，在大資料生態中對於計算引擎的選擇要考慮多方面因素，比如資源消耗，計算效能，穩定性，計算場景等。

3樓：

從 MR 和 spark 解決的問題來說吧。

1. disk io 密集問題的分布式求解2. 自動容錯，解放了人類生產力

如果沒有這個系統，會很累很累的

spark 是對 MR 的公升級，兩者本質上是一致的。

MapReduce和Spark主要解決哪些方面的問題？

spark的出現,對Mapreduce的影響有多大？

spark和deeplearning的關係，想做大資料處理分析，是該專注於學spark還是深度學習呢？

Hadoop和Spark有什麼區別

其他用戶還看了：