請問Hadoop Hbase Hive三者有什麼關係?

時間 2021-06-09 17:11:13

1樓:高威

Hadoop本質上是:分布式檔案系統(HDFS) + 分布式計算框架(Mapreduce) + 排程系統Yarn搭建起來的分布式大資料處理框架。

Hive:是乙個基於Hadoop的資料倉儲,適用於一些高延遲性的應用(離線開發),可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能。

Hive可以認為是MapReduce的乙個包裝,把好寫的HQL轉換為的MapReduce程式,本身不儲存和計算資料,它完全依賴於HDFS和MapReduce,Hive中的表是純邏輯表。hive需要用到hdfs儲存檔案,需要用到MapReduce計算框架。

HBase:是乙個Hadoop的資料庫,乙個分布式、可擴充套件、大資料的儲存。hbase是物理表,不是邏輯表,提供乙個超大的記憶體hash表,搜尋引擎通過它來儲存索引,方便查詢操作。

HBase可以認為是HDFS的乙個包裝。他的本質是資料儲存,是個NoSql資料庫;HBase部署於HDFS之上,並且克服了hdfs在隨機讀寫方面的缺點,提高查詢效率。

2樓:農業一二事

猜你想問的是HDFS、HBase和Hive之間的區別吧,Hadoop範圍最廣可代指大資料,是hadoop生態圈,當然不包括spark部分。話歸原題。HDFS、HBase和Hive都有儲存功能,HDFS偏向結構化資料儲存最佳,HBase能儲存非結構化和半結構化資料效能好,當然也能儲存結構化資料。

Hive則是資料倉儲,帶分析功能,只適合儲存和分析主題資料,結構化資料。一般網際網路公司都只用HDFS+Hive配合。此外用於儲存的還有Kudu,更適合結構化、半結構化和非結構化資料混合。

分析計算模組則是別人提的MR、Storm、spark、spark streaming

請問Hadoop Spark Storm Flink的區別是什麼?分別適用什麼場景?

hadoop是乙個檔案系統,外加乙個離線處理框架 map reduce執行框架 主要用於海量資料檔案的儲存,非實時的海量資料的計算,不過由於提供的上層api不是太友好,加上mapreduce處理框架比較慢,現在基本上都拿它來作為檔案系統使用。spark是乙個執行引擎,本身不儲存資料,所以需要外部的檔...

請問 Eat clean, train sweaty 是什麼意思?什麼語法形式?

沒有查到相關的語法解釋。前半句有點兒類似 Play cool,play cute。有答案提到的stay是系動詞,和題目中的用法還是不同的。最好找大學老師問下吧。 答主非專業,只是推xia測cai了一下.Clean這裡是名詞的用法。同意樓上說的eat the clean things 類似於Do go...

請問tan tan x,arc tan(tan x),tan(arc tan x)都是怎麼算出來的?

Jameson tan tanx 這種就只能由內而外算,後兩個是反函式的性質,比如tanx有 0.25 1,那麼在arctanx就有1 0.25 因此arctan tan0.25 arctan1 0.25 tan arctan1 tan 0.25 1,可以簡單的理解為arctan tanx x,ta...