spark的出現,對Mapreduce的影響有多大?

時間 2021-06-21 10:50:35

1樓:take me

mapreduce肯定是要深入學習的,最好看看原始碼,對你理解分布式計算大有裨益。mapreduce,spark,flink都是計算框架,每一種都有其設計的優劣,至於背不背淘汰看公司和業需求吧。

2樓:大資料技術架構

首先,Spark的出現對MapReduce的影響巨大,甚至Spark可以完全取代MapReduce,具體優勢總結有三點:

1、基於記憶體的迭代計算,中間結果可以不落地,綜合性能比MapReduce提公升10~100倍

2、提供更豐富的運算元,不侷限於map與reduce,還包括filter、flatmap、groupbykey...

3、生態比較完善,不像MapReduce只提供離線計算,Spark不僅提供了Spark Core程式設計模型,還提供Spark SQL、Spark Streaming、GraphX、MLlib等模組解決不同場景下的問題。

其次,要不要學習或者深入學習MapReduce?個人覺得是必須要學習的,學習MapReduce是乙個不可跳躍的過程,掌握MapReduce的整體機制,包括它的資料就近原則、計算遷移的思想、shuffle的過程等,更深入理解它的原理與機制,對後面其他相關引擎包括Spark的學習都大有裨益。此外,相對Spark,MapReduce資源控制粒度更細、相對比較穩定,目前仍由很多公司在使用MapReduce。

最後,MapReduce未來會不會被淘汰?這個說不好,短期內不會,即使後面大家都不怎麼用MapReduce了,基於上面的分析,學習MapReduce也是很有必要的。

3樓:喵感資料

完全替代目前還是不可能吧,乙個技術的出現到成熟需要很長的過程,只會有乙個技術漸漸沒落直至用的人越來越少,這個過程很漫長,現在很多公司做離線計算還是用MapReduce的。

4樓:Hoyt Ren

我再補充一句,我這裡說的mr特指hadoop的mr。實際上適合用mr解決的問題,不管spark還是別的啥,完成業務邏輯的過程中,跟hadoop基本沒區別,只是說spark和其它工具能做更多的事情,有更好的表現。所以現在學hadoop,以後換了別的工具,稍微學習下,就一樣用。

我感覺,spark已經面臨被替代了,就像兩三年前它替代mr一樣。當然,替代是乙個長期的過程,就好比Oracle現在還是有人在用一樣。

Spark中的narrow wide dependency如何理解,有什麼作用

Dennis Mikolaj Spark 區分narrow 和 shuffle dependency的目的其實就是確定是否要shuffle。也就是劃分stage。而stage的目的是什麼呢?stage的英文意思是階段,也就是說要等前乙個stage的tasks全部計算完成才能進行下乙個stage。弄明...

spark和deeplearning的關係,想做大資料處理分析,是該專注於學spark還是深度學習呢?

這得看題主將來是想找更偏重演算法還是更偏重系統開發的工作?當然兩者都擅長是最好了,但是Spark好像不太適合deep learning,題主可以嘗試一下別的框架,例如tensorflow,caffe。ps,我覺得你應該聽你導師的,逃! 沒啥關係。Spark只是乙個框架而已,在上面跑什麼都可以。把Sp...

有什麼關於 Spark 的書推薦?

Lijie Xu 推薦一下自己寫的書 大資料處理框架Apache Spark設計與實現 書的內容是以Apache Spark為主,系統總結了大資料處理框架的一些基本問題 設計原理 實現方案 以及效能和可靠性。相比之前在github上寫的 SparkInternals 內容更完善專業深入,書中大概有一...