MapReduce和Spark主要解決哪些方面的問題?

時間 2021-12-26 20:55:27

1樓:

框架不一樣

Tasks 並行化:

MapReduce:

Map()把上傳到hdfs的檔案一行一行拆分,然後你coding一對key-value pair,傳送給不同worker nodes,Reduce()進行統一key的歸納操作

Data 並行化:

Spark

2樓:

mapreduce和spark都是分布式計算框架,相對於傳統分布式計算來說,兩者給程式設計師提供了方便的分布式計算環境,我們不需要考慮底層怎麼平行計算,怎麼協調同步,怎麼容錯,我們只需考慮我們的業務就可以完成分布式計算。

而兩者的側重點也不同,mr適合批處理,對時效性要求不高的離線計算等等,因為它在計算的時候會將計算中間結果溢寫到磁碟上,io消耗比較大,而spark是基於記憶體的計算框架,直接在記憶體中完成計算,從這點來說它的計算速度是很好的,spark有很多模組比如實時計算,圖計算,sparkSQL等等,從程式設計上來說如果用Scala會非常方便。

上述說明並不意味著spark完全優於Mr,只是兩者側重點不同,在大資料生態中對於計算引擎的選擇要考慮多方面因素,比如資源消耗,計算效能,穩定性,計算場景等。

3樓:

從 MR 和 spark 解決的問題來說吧。

1. disk io 密集問題的分布式求解2. 自動容錯,解放了人類生產力

如果沒有這個系統,會很累很累的

spark 是對 MR 的公升級,兩者本質上是一致的。

spark的出現,對Mapreduce的影響有多大?

take me mapreduce肯定是要深入學習的,最好看看原始碼,對你理解分布式計算大有裨益。mapreduce,spark,flink都是計算框架,每一種都有其設計的優劣,至於背不背淘汰看公司和業需求吧。 大資料技術架構 首先,Spark的出現對MapReduce的影響巨大,甚至Spark可以...

spark和deeplearning的關係,想做大資料處理分析,是該專注於學spark還是深度學習呢?

這得看題主將來是想找更偏重演算法還是更偏重系統開發的工作?當然兩者都擅長是最好了,但是Spark好像不太適合deep learning,題主可以嘗試一下別的框架,例如tensorflow,caffe。ps,我覺得你應該聽你導師的,逃! 沒啥關係。Spark只是乙個框架而已,在上面跑什麼都可以。把Sp...

Hadoop和Spark有什麼區別

姬不鬧 對比不恰當。應該去關注hove和spark的區別。不完整的比喻,hadoop是鐵軌,上面跑綠皮車hive和跑高鐵spark有區別。而不應該問鐵軌和高鐵有什麼區別。 windofjava 誕生的先後順序,hadoop屬於第一代開源大資料處理平台,而spark屬於第二代 屬於下一代的spark肯...