1樓:zhangxiaoyang
狹義的理解,就是乙個命令。
和ls、awk、python一樣,就是乙個命令。
這個命令能幹啥?
1.把檔案提交到分布式檔案系統
hadoop fs -put 本地檔案遠端路徑2.把檔案從分布式檔案系統拿到本地
hadoop fs -get 遠端路徑本地路徑3.執行分布式程式
hadoop jar jar包
為什麼要把檔案放到分布式系統?為什麼要分布式來執行程式?
非常直接的原因是,快。本地處理超大的檔案顯然是困難的。儲存難,處理也難。
如何編寫分布式程式?
需要先按照分布式的角度思考問題,即理解mapreduce程式設計正規化,剩下的程式排程,交給hadoop即可。
綜上,啥是hadoop?
乙個命令,乙個系統,甚至是一套生態。
2樓:CLCC
如果你仔細看我剛寫的這個優化過程,你可能就會對mapreduce有直觀的了解了。
我一開始也是很暈。但最近專案中用到的乙個情況寫著寫著就mapreduce了。
CLCC:記錄一次spark 優化過程 (對每一行進行模糊匹配的演算法)
簡單解釋,map :對每一行做一些特定運算(比如大小寫,統計字數或者其他)。reduce:把所有行的結果用一定規則彙總(比如把a和b相加,或者陣列連線到一起)。
3樓:小艦
我來嘗試講乙個故事。
就拿挑水上山來講吧。
單機階段(單人完成):在谷歌的「三駕馬車「出來之前,要完成這樣一件事情,普通人可能不行,必須要身強體壯的人才能完成。但是,這不是長久之計,如果需要挑兩桶水、三桶水...
怎麼辦,按照之前的思路,就是不斷去找更強壯的人去做這件事。
分布式集群階段(多人分擔):大資料的處理思想,其實是分而治之或者人多力量大的思路,把這乙份任務進行切割(也就是map階段),分別分給各個普通人(廉價機器)去做一小塊任務,如果人夠多的話(計算機節點足夠多),每人可能只需要負責挑一碗水的量(每個節點只需要處理少量資料),那這樣這個任務就一下子輕鬆多了。到了山頂,再由乙個人拿著桶收集各個人的一碗水(reduce階段),這樣就完成了一次任務,也就是乙個MapReduce過程。
資源管理(人力調配):因為山上有飯店,一直需要水(我們假設是原始的那種只能人工挑水上山的處境),所以會不斷的有挑水爬山的任務。有的人運了一趟,就在山腳下開始偷懶休息了,有的人比較實在,一趟一趟的往上運,這樣怎麼行,偷懶的人就白白浪費了他的勞動力。
所以就出現了工頭(yarn資源管理器),工頭奉皇帝旨意(此處有點穿越)來統一管理這些勞動力,讓他們有序的工作,不讓任何乙個人閒著,充分利用他們的時間(充分利用節點資源)幹活。
資料傾斜問題(不公平對待):有時候工頭看某個別人不順眼,就分給他半桶水的任務,其他人每個人就半碗水,這就導致了他們任務量的嚴重不平衡,挑半桶水的人爬山速度明顯慢於其他人,所用的時間也是別人的好幾倍,這就是我們常說的不公平對待(資料傾斜)。
還什麼概念需要解釋,實在編不下去了哈哈哈哈
4樓:曾二爺
Hadoop 是個大資料平台專案,為了解決大資料計算問題。
專案包含hdfs yarn mapreduce 這三大元件。
Hdfs:分布式檔案系統。
yarn:分布式就意味著機器有很多了,yarn就是用來管理這些機器上的記憶體和cpu資源的。
mapreduce:計算引擎,定義了乙個計算的正規化,幫你計算資料。
後面的hive kafka spark 這些專案雖然依賴於Hadoop專案但是不屬於Hadoop專案。
5樓:huangshiliang
Hadoop包括HDFS分布式檔案系統、Yarn資源排程管理,Mapreduce程式執行時一般是向yarn申請資源,然後讀取HDFS資料進行map端處理和reduce端匯聚處理然後得到結果寫出到HDFS
前任讓你明白了什麼?
相信自己的第六感。我前任在和我談戀愛的時候,我很明顯不安,他沒有和我說過他的前女友,我就是很好奇且不安,但我從沒問過。談了大約六個月,發現原來他和他前女友一直保持非常曖昧的關係。之後因為他對待感情問題我單方面提了分手,他還是和沒分手時一樣對我非常好,我換什麼頭像他就截我頭像裡一小部分當他頭像。身邊的...
科研讓你明白了什麼?
袁豔芳 當乙個現象或者科學問題你想了很久,也做了很多test但都沒法準確回答的時候,你開始相信上帝。於是你明白,神真正存在在人們心中的意義。 1 黑和白之間一系列灰度,考慮三原色的話,範圍更大。個人價值類似。2 很多複雜問題之所以複雜,只是多個簡單問題需要做取捨,難在取捨 很多 一切。3 人其實不複...
Hadoop到底是幹什麼用的?
Hadoop 是用來代替 Excel 的。乙個個體戶可以用 Excel 來記錄資料 分析資料 共享資料。乙個稍大一點的公司就需要用 Hadoop 來幹同樣的事,因為資料量比較大Excel搞不定。 小術曉術 Hadoop依賴MapReduce計算模型及HDFS Hadoop Distributed F...