讓小白明白什麼是Hadoop

時間 2021-05-29 22:47:24

1樓:zhangxiaoyang

狹義的理解,就是乙個命令。

和ls、awk、python一樣,就是乙個命令。

這個命令能幹啥?

1.把檔案提交到分布式檔案系統

hadoop fs -put 本地檔案遠端路徑2.把檔案從分布式檔案系統拿到本地

hadoop fs -get 遠端路徑本地路徑3.執行分布式程式

hadoop jar jar包

為什麼要把檔案放到分布式系統?為什麼要分布式來執行程式?

非常直接的原因是,快。本地處理超大的檔案顯然是困難的。儲存難,處理也難。

如何編寫分布式程式?

需要先按照分布式的角度思考問題,即理解mapreduce程式設計正規化,剩下的程式排程,交給hadoop即可。

綜上,啥是hadoop?

乙個命令,乙個系統,甚至是一套生態。

2樓:CLCC

如果你仔細看我剛寫的這個優化過程,你可能就會對mapreduce有直觀的了解了。

我一開始也是很暈。但最近專案中用到的乙個情況寫著寫著就mapreduce了。

CLCC:記錄一次spark 優化過程 (對每一行進行模糊匹配的演算法)

簡單解釋,map :對每一行做一些特定運算(比如大小寫,統計字數或者其他)。reduce:把所有行的結果用一定規則彙總(比如把a和b相加,或者陣列連線到一起)。

3樓:小艦

我來嘗試講乙個故事。

就拿挑水上山來講吧。

單機階段(單人完成):在谷歌的「三駕馬車「出來之前,要完成這樣一件事情,普通人可能不行,必須要身強體壯的人才能完成。但是,這不是長久之計,如果需要挑兩桶水、三桶水...

怎麼辦,按照之前的思路,就是不斷去找更強壯的人去做這件事。

分布式集群階段(多人分擔):大資料的處理思想,其實是分而治之或者人多力量大的思路,把這乙份任務進行切割(也就是map階段),分別分給各個普通人(廉價機器)去做一小塊任務,如果人夠多的話(計算機節點足夠多),每人可能只需要負責挑一碗水的量(每個節點只需要處理少量資料),那這樣這個任務就一下子輕鬆多了。到了山頂,再由乙個人拿著桶收集各個人的一碗水(reduce階段),這樣就完成了一次任務,也就是乙個MapReduce過程。

資源管理(人力調配):因為山上有飯店,一直需要水(我們假設是原始的那種只能人工挑水上山的處境),所以會不斷的有挑水爬山的任務。有的人運了一趟,就在山腳下開始偷懶休息了,有的人比較實在,一趟一趟的往上運,這樣怎麼行,偷懶的人就白白浪費了他的勞動力。

所以就出現了工頭(yarn資源管理器),工頭奉皇帝旨意(此處有點穿越)來統一管理這些勞動力,讓他們有序的工作,不讓任何乙個人閒著,充分利用他們的時間(充分利用節點資源)幹活。

資料傾斜問題(不公平對待):有時候工頭看某個別人不順眼,就分給他半桶水的任務,其他人每個人就半碗水,這就導致了他們任務量的嚴重不平衡,挑半桶水的人爬山速度明顯慢於其他人,所用的時間也是別人的好幾倍,這就是我們常說的不公平對待(資料傾斜)。

還什麼概念需要解釋,實在編不下去了哈哈哈哈

4樓:曾二爺

Hadoop 是個大資料平台專案,為了解決大資料計算問題。

專案包含hdfs yarn mapreduce 這三大元件。

Hdfs:分布式檔案系統。

yarn:分布式就意味著機器有很多了,yarn就是用來管理這些機器上的記憶體和cpu資源的。

mapreduce:計算引擎,定義了乙個計算的正規化,幫你計算資料。

後面的hive kafka spark 這些專案雖然依賴於Hadoop專案但是不屬於Hadoop專案。

5樓:huangshiliang

Hadoop包括HDFS分布式檔案系統、Yarn資源排程管理,Mapreduce程式執行時一般是向yarn申請資源,然後讀取HDFS資料進行map端處理和reduce端匯聚處理然後得到結果寫出到HDFS

前任讓你明白了什麼?

相信自己的第六感。我前任在和我談戀愛的時候,我很明顯不安,他沒有和我說過他的前女友,我就是很好奇且不安,但我從沒問過。談了大約六個月,發現原來他和他前女友一直保持非常曖昧的關係。之後因為他對待感情問題我單方面提了分手,他還是和沒分手時一樣對我非常好,我換什麼頭像他就截我頭像裡一小部分當他頭像。身邊的...

科研讓你明白了什麼?

袁豔芳 當乙個現象或者科學問題你想了很久,也做了很多test但都沒法準確回答的時候,你開始相信上帝。於是你明白,神真正存在在人們心中的意義。 1 黑和白之間一系列灰度,考慮三原色的話,範圍更大。個人價值類似。2 很多複雜問題之所以複雜,只是多個簡單問題需要做取捨,難在取捨 很多 一切。3 人其實不複...

Hadoop到底是幹什麼用的?

Hadoop 是用來代替 Excel 的。乙個個體戶可以用 Excel 來記錄資料 分析資料 共享資料。乙個稍大一點的公司就需要用 Hadoop 來幹同樣的事,因為資料量比較大Excel搞不定。 小術曉術 Hadoop依賴MapReduce計算模型及HDFS Hadoop Distributed F...