spark的出現,對Mapreduce的影響有多大？

1樓：take me

mapreduce肯定是要深入學習的，最好看看原始碼，對你理解分布式計算大有裨益。mapreduce，spark,flink都是計算框架，每一種都有其設計的優劣，至於背不背淘汰看公司和業需求吧。

2樓：大資料技術架構

首先，Spark的出現對MapReduce的影響巨大，甚至Spark可以完全取代MapReduce，具體優勢總結有三點：

1、基於記憶體的迭代計算，中間結果可以不落地，綜合性能比MapReduce提公升10~100倍

2、提供更豐富的運算元，不侷限於map與reduce，還包括filter、flatmap、groupbykey...

3、生態比較完善，不像MapReduce只提供離線計算，Spark不僅提供了Spark Core程式設計模型，還提供Spark SQL、Spark Streaming、GraphX、MLlib等模組解決不同場景下的問題。

其次，要不要學習或者深入學習MapReduce？個人覺得是必須要學習的，學習MapReduce是乙個不可跳躍的過程，掌握MapReduce的整體機制，包括它的資料就近原則、計算遷移的思想、shuffle的過程等，更深入理解它的原理與機制，對後面其他相關引擎包括Spark的學習都大有裨益。此外，相對Spark，MapReduce資源控制粒度更細、相對比較穩定，目前仍由很多公司在使用MapReduce。

最後，MapReduce未來會不會被淘汰？這個說不好，短期內不會，即使後面大家都不怎麼用MapReduce了，基於上面的分析，學習MapReduce也是很有必要的。

3樓：喵感資料

完全替代目前還是不可能吧，乙個技術的出現到成熟需要很長的過程，只會有乙個技術漸漸沒落直至用的人越來越少，這個過程很漫長，現在很多公司做離線計算還是用MapReduce的。

4樓：Hoyt Ren

我再補充一句，我這裡說的mr特指hadoop的mr。實際上適合用mr解決的問題，不管spark還是別的啥，完成業務邏輯的過程中，跟hadoop基本沒區別，只是說spark和其它工具能做更多的事情，有更好的表現。所以現在學hadoop，以後換了別的工具，稍微學習下，就一樣用。

我感覺，spark已經面臨被替代了，就像兩三年前它替代mr一樣。當然，替代是乙個長期的過程，就好比Oracle現在還是有人在用一樣。

spark的出現,對Mapreduce的影響有多大？

Spark中的narrow wide dependency如何理解，有什麼作用

spark和deeplearning的關係，想做大資料處理分析，是該專注於學spark還是深度學習呢？

有什麼關於 Spark 的書推薦？

其他用戶還看了：