Hadoop的MapReduce階段為什麼要進行排序呢，這樣的排序對後續操作有什麼好處麼？

1樓：Maxbin

map階段可以有一種方法可以實現不排序，把輸出作為value，不要作為key，不進行reduce階段。但是這樣的結果為什麼是倒序的。。。求大神解答

2樓：桂能

sort是用來shuffle的，shuffle就是把key相同的東西弄一起去，其實不一定要sort也能shuffle，但是sort的好處是他可以通過外排降低記憶體使用量

3樓：買買桐

其實我也為此困擾了很久，我一直覺得shuffle階段的sort作用不大(但是Partition分組絕對十分必要！)，應該做成可插拔的。到了Hadoop 2.

X中，shuffle階段確實做成了可插拔的，但是貌似只是可以使用自定義的排序演算法，而不能真正將shuffle階段的sort設定為False(也可能是我了解不足，望大牛糾正)。

所以sort的作用，可能確實只限於方便後續的其他應用開發。

PS：shuffle階段是MR的核心，需要多多鑽研。

4樓：

MR在reduce階段需要分組，將key相同的放在一起進行規約，為了達到該目的，有兩種演算法：hashmap和sort，前者太耗記憶體，而排序通過外排可對任意資料量分組，只要磁碟夠大就行。map端排序是為了減輕reduce端排序的壓力。

在spark中，除了sort的方法，也提供hashmap，使用者可配置，畢竟sort開銷太大了。

Sun Grid Engine 和 hadoop 是什麼關係？

老程式設計師我司大規模使用SGE 現在開源的叫UGE 啊，也不是什麼超級計算機，就是計算能力比較高的計算機吧，其實這個不是必須的，就算你家裡的計算機一樣可以加入UGE作為乙個節點的，我們主要用來跑nightly regression，大概2000臺的規模，以前裡面有HP，IBM，LINUX，SUN...

Hadoop 就業前景如何？

張建國國內對雲計算和大資料做的特別好的廠家還不多，大家對雲計算的研究還處於起步階段，我們正好趕在這種技術發展的成長期，機會還是很多的，相應的薪酬起點比較高。我不能魯莽的下乙個最低薪酬底線，告訴大家這是hadoop起薪啊，你們都比這個高這不是我的風格。但是，我可以說肯定如果大家有兩三年工作經驗，...

Hadoop 是不是很慢？

Polaris Chen hadoop處理大規模問題才能體現優勢。你這樣做就好比你作個簡單程式用設計模式，然後覺得設計模式好羅嗦沒意義。其實，設計模式也是在專案達到規模才體現出優勢，同樣的道理。弓長十七 hadoop產生於特定的應用場景，官方說法是為解決巨大資料離線批量計算的需要，所以判斷慢不...

Hadoop的MapReduce階段為什麼要進行排序呢，這樣的排序對後續操作有什麼好處麼？

Sun Grid Engine 和 hadoop 是什麼關係？

Hadoop 就業前景如何？

Hadoop 是不是很慢？

其他用戶還看了：