請問Hadoop Hbase Hive三者有什麼關係？

1樓：高威

Hadoop本質上是：分布式檔案系統(HDFS) + 分布式計算框架(Mapreduce) + 排程系統Yarn搭建起來的分布式大資料處理框架。

Hive：是乙個基於Hadoop的資料倉儲，適用於一些高延遲性的應用（離線開發），可以將結構化的資料檔案對映為一張資料庫表，並提供簡單的sql查詢功能。

Hive可以認為是MapReduce的乙個包裝，把好寫的HQL轉換為的MapReduce程式，本身不儲存和計算資料，它完全依賴於HDFS和MapReduce，Hive中的表是純邏輯表。hive需要用到hdfs儲存檔案，需要用到MapReduce計算框架。

HBase：是乙個Hadoop的資料庫，乙個分布式、可擴充套件、大資料的儲存。hbase是物理表，不是邏輯表，提供乙個超大的記憶體hash表，搜尋引擎通過它來儲存索引，方便查詢操作。

HBase可以認為是HDFS的乙個包裝。他的本質是資料儲存，是個NoSql資料庫；HBase部署於HDFS之上，並且克服了hdfs在隨機讀寫方面的缺點，提高查詢效率。

2樓：農業一二事

猜你想問的是HDFS、HBase和Hive之間的區別吧，Hadoop範圍最廣可代指大資料，是hadoop生態圈，當然不包括spark部分。話歸原題。HDFS、HBase和Hive都有儲存功能，HDFS偏向結構化資料儲存最佳，HBase能儲存非結構化和半結構化資料效能好，當然也能儲存結構化資料。

Hive則是資料倉儲，帶分析功能，只適合儲存和分析主題資料，結構化資料。一般網際網路公司都只用HDFS+Hive配合。此外用於儲存的還有Kudu，更適合結構化、半結構化和非結構化資料混合。

分析計算模組則是別人提的MR、Storm、spark、spark streaming