Hadoop的MapReduce階段為什麼要進行排序呢,這樣的排序對後續操作有什麼好處麼?

時間 2021-05-31 14:12:23

1樓:Maxbin

map階段可以有一種方法可以實現不排序,把輸出作為value,不要作為key,不進行reduce階段。但是這樣的結果為什麼是倒序的。。。求大神解答

2樓:桂能

sort是用來shuffle的,shuffle就是把key相同的東西弄一起去,其實不一定要sort也能shuffle,但是sort的好處是他可以通過外排降低記憶體使用量

3樓:買買桐

其實我也為此困擾了很久,我一直覺得shuffle階段的sort作用不大(但是Partition分組絕對十分必要!),應該做成可插拔的。到了Hadoop 2.

X中,shuffle階段確實做成了可插拔的,但是貌似只是可以使用自定義的排序演算法,而不能真正將shuffle階段的sort設定為False(也可能是我了解不足,望大牛糾正)。

所以sort的作用,可能確實只限於方便後續的其他應用開發。

PS:shuffle階段是MR的核心,需要多多鑽研。

4樓:

MR在reduce階段需要分組,將key相同的放在一起進行規約,為了達到該目的,有兩種演算法:hashmap和sort,前者太耗記憶體,而排序通過外排可對任意資料量分組,只要磁碟夠大就行。map端排序是為了減輕reduce端排序的壓力。

在spark中,除了sort的方法,也提供hashmap,使用者可配置,畢竟sort開銷太大了。

Sun Grid Engine 和 hadoop 是什麼關係?

老程式設計師 我司大規模使用SGE 現在開源的叫UGE 啊,也不是什麼超級計算機,就是計算能力比較高的計算機吧,其實這個不是必須的,就算你家裡的計算機一樣可以加入UGE作為乙個節點的,我們主要用來跑nightly regression,大概2000臺的規模,以前裡面有HP,IBM,LINUX,SUN...

Hadoop 就業前景如何?

張建國 國內對雲計算和大資料做的特別好的廠家還不多,大家對雲計算的研究還處於起步階段,我們正好趕在這種技術發展的成長期,機會還是很多的,相應的薪酬起點比較高。我不能魯莽的下乙個最低薪酬底線,告訴大家 這是hadoop起薪啊,你們都比這個高 這不是我的風格。但是,我可以說肯定如果大家有兩三年工作經驗,...

Hadoop 是不是很慢?

Polaris Chen hadoop處理大規模問題才能體現優勢。你這樣做就好比你作個簡單程式用設計模式,然後覺得設計模式好羅嗦沒意義。其實,設計模式也是在專案達到規模才體現出優勢,同樣的道理。 弓長十七 hadoop產生於特定的應用場景,官方說法是為解決 巨大資料離線批量計算 的需要,所以判斷慢不...