HDFS Hive能幹什麼?

時間 2021-05-31 01:47:30

1樓:張戎

HIVE 基礎介紹

對每乙個在資料探勘行業工作的人,在工作中都會時刻面對海量的資料,此時 EXCEL 處理資料的時候就會有一定的困難。此時就需要工程師使用 HIVE 語言去運算元據庫。本文從乙個初學者的角度來簡要介紹一下 HIVE 和基本的使用場景,作為初學者,在整理的過程中難免會出現錯誤,希望大家多多指教。

HIVE 介紹

(1)hive 是基於 Hadoop 的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供完整的 sql 查詢功能,可以將 sql 語句轉換為 MapReduce 任務進行執行。其優點是學習成本低,可以通過類 SQL 語句快速實現簡單的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合資料倉儲的統計分析。

使用 hive 的命令列介面,感覺很像操作關聯式資料庫,但是 hive 和關聯式資料庫還是有很大的不同,下面我就比較下 hive 與關聯式資料庫的區別,具體如下:

Hive 和關聯式資料庫儲存檔案的系統不同,Hive 使用的是 hadoop 的 HDFS(hadoop 的分布式檔案系統),關聯式資料庫則是伺服器本地的檔案系統;

hive 使用的計算模型是 mapreduce,而關聯式資料庫則是自己設計的計算模型;

關聯式資料庫都是為實時查詢的業務進行設計的,而 Hive 則是為海量資料做資料探勘設計的,實時性很差;實時性的區別導致 Hive 的應用場景和關聯式資料庫有很大的不同;

Hive 很容易擴充套件自己的儲存能力和計算能力,這個是繼承 hadoop 的,而關聯式資料庫在這個方面要比資料庫差很多。

以上都是從巨集觀的角度比較 Hive 和關聯式資料庫的區別,下面介紹一下在實際工作中遇到的一些常用語句和方法。

HIVE 基礎介紹

2樓:珞珈閒人

分布式檔案系統HDFS可以儲存海量的資料(以T為單位的資料量),分布式計算框架MapReduce可以對儲存在HDFS的資料進行處理後再將結果寫回到HDFS。MapReduce + HDFS可以完成對海量資料的批量處理,但是這套組合會導致很多重複性的工作,有些處理起來比較繁瑣,例如從檔案中選取特定行數的資料,按照某些欄位對資料進行排序,統計某些字段出現的字數,將多個資料來源的資料join在一起。Hive的出現很好的解決了以上問題,用建立表的方式定義分布式檔案中資料的meta資訊後,使用者可以使用像在關係型資料庫中經常使用的SQL語句對這些資料進行操作,實際上Hive將這些SQL語句轉化為了對應的MapReduce任務。

參考:hive資料傾斜的解決方案

學程式設計能幹什麼?

笏緹 資料分析,資料處理,資料採集等大資料方面的,還有網路服務配置,網路安全等網路方面的,以及軟體測試,軟體框架構造,軟體開發等軟體方面的,等等 C語言 1 C語言是大學生接觸的第一門程式語言,它的重要性也是不言而喻的。2 C語言是乙個面向過程的程式語言,而Python是一門物件導向的計算機解釋型程...

輟學打工能幹什麼

恰同學少年 沒理想的,搬磚,進電子廠,擺地攤,貼膜等等 有理想的,學一門手藝,自己開店。學一門技術,自己當老闆。學一種眼光,自己創業。學一種思維,利用別人的資源,為自己掙錢。 zta7 創業,其他的還有搞運輸,客服,銷售,健身房教練,庫管,保安,快遞。在北京常見常招人,適合過度。建議有生之年一定要試...

學好Python能幹什麼?

Python作為人工智慧的第一語言,在最近幾年可謂是非常紅火。只要你學會Python你就可以考慮做這些。一 常規軟體的開發 Python支援函式程式設計和OOP物件導向程式設計,能夠承擔任何種類軟體開發工作。二 資料分析與科學計算 隨著NumPy,Scipy等許多程式的開發,Python越來越適合資...