讓小白明白什麼是Hadoop

1樓：zhangxiaoyang

狹義的理解，就是乙個命令。

和ls、awk、python一樣，就是乙個命令。

這個命令能幹啥？

1.把檔案提交到分布式檔案系統

hadoop fs -put 本地檔案遠端路徑2.把檔案從分布式檔案系統拿到本地

hadoop fs -get 遠端路徑本地路徑3.執行分布式程式

hadoop jar jar包

為什麼要把檔案放到分布式系統？為什麼要分布式來執行程式？

非常直接的原因是，快。本地處理超大的檔案顯然是困難的。儲存難，處理也難。

如何編寫分布式程式？

需要先按照分布式的角度思考問題，即理解mapreduce程式設計正規化，剩下的程式排程，交給hadoop即可。

綜上，啥是hadoop？

乙個命令，乙個系統，甚至是一套生態。

2樓：CLCC

如果你仔細看我剛寫的這個優化過程，你可能就會對mapreduce有直觀的了解了。

我一開始也是很暈。但最近專案中用到的乙個情況寫著寫著就mapreduce了。

CLCC：記錄一次spark 優化過程（對每一行進行模糊匹配的演算法）

簡單解釋，map ：對每一行做一些特定運算（比如大小寫，統計字數或者其他）。reduce：把所有行的結果用一定規則彙總（比如把a和b相加，或者陣列連線到一起）。

3樓：小艦

我來嘗試講乙個故事。

就拿挑水上山來講吧。

單機階段（單人完成）：在谷歌的「三駕馬車「出來之前，要完成這樣一件事情，普通人可能不行，必須要身強體壯的人才能完成。但是，這不是長久之計，如果需要挑兩桶水、三桶水...

怎麼辦，按照之前的思路，就是不斷去找更強壯的人去做這件事。

分布式集群階段（多人分擔）：大資料的處理思想，其實是分而治之或者人多力量大的思路，把這乙份任務進行切割（也就是map階段），分別分給各個普通人（廉價機器）去做一小塊任務，如果人夠多的話（計算機節點足夠多），每人可能只需要負責挑一碗水的量（每個節點只需要處理少量資料），那這樣這個任務就一下子輕鬆多了。到了山頂，再由乙個人拿著桶收集各個人的一碗水（reduce階段），這樣就完成了一次任務，也就是乙個MapReduce過程。

資源管理（人力調配）：因為山上有飯店，一直需要水（我們假設是原始的那種只能人工挑水上山的處境），所以會不斷的有挑水爬山的任務。有的人運了一趟，就在山腳下開始偷懶休息了，有的人比較實在，一趟一趟的往上運，這樣怎麼行，偷懶的人就白白浪費了他的勞動力。

所以就出現了工頭（yarn資源管理器），工頭奉皇帝旨意（此處有點穿越）來統一管理這些勞動力，讓他們有序的工作，不讓任何乙個人閒著，充分利用他們的時間（充分利用節點資源）幹活。

資料傾斜問題（不公平對待）：有時候工頭看某個別人不順眼，就分給他半桶水的任務，其他人每個人就半碗水，這就導致了他們任務量的嚴重不平衡，挑半桶水的人爬山速度明顯慢於其他人，所用的時間也是別人的好幾倍，這就是我們常說的不公平對待（資料傾斜）。

還什麼概念需要解釋，實在編不下去了哈哈哈哈

4樓：曾二爺

Hadoop 是個大資料平台專案，為了解決大資料計算問題。

專案包含hdfs yarn mapreduce 這三大元件。

Hdfs:分布式檔案系統。

yarn：分布式就意味著機器有很多了，yarn就是用來管理這些機器上的記憶體和cpu資源的。

mapreduce：計算引擎，定義了乙個計算的正規化，幫你計算資料。

後面的hive kafka spark 這些專案雖然依賴於Hadoop專案但是不屬於Hadoop專案。

5樓：huangshiliang

Hadoop包括HDFS分布式檔案系統、Yarn資源排程管理，Mapreduce程式執行時一般是向yarn申請資源，然後讀取HDFS資料進行map端處理和reduce端匯聚處理然後得到結果寫出到HDFS

讓小白明白什麼是Hadoop

前任讓你明白了什麼？

科研讓你明白了什麼？

Hadoop到底是幹什麼用的？

其他用戶還看了：