資料倉儲與大資料的區別?

時間 2021-06-05 02:25:58

1樓:小蘿蔔運算元

先直接說區別:大資料是一種技術手段;資料倉儲是乙個存放資料的集合;乙個是手段,乙個是結果。

大資料:

現在的我,一看到【大資料】三個字,腦子立刻蹦出各種工具:

離線計算:hadoop,hive...

實時計算:flink,storm,spark,kafka...

還記得我大學剛畢業在一家傳統行業的公司工作,每天處理不到10G的資料,用的是Oracle、db2 ,再加上公司伺服器效能不太好,跑了一上午,資料也沒跑完,當時就覺得10G的資料好大啊;

現在每天要處理pb級的資料,再看10G的資料,就感覺不值一提(當然,具體資料大小還是跟壓縮格式有關)。

我的理解:現在說【大資料】 是泛指處理大量資料(不管是結構化的,還是非結構化的)的一些技術手段

資料倉儲:

這個。。。 從字面上看,數倉就是存放各種資料的集合。

一看到【資料倉儲】這四個字,腦子立刻蹦出:etl,各種形式的資料來源,各種資料表,倉庫建模,各種展示的圖表,BI... 這些都是構建資料倉儲過程中的各個模組

資料倉儲按照實效性可分為:

離線資料倉儲:一般基於hive構建,t+1

實時的資料倉儲:我們是用flink、storm來做

最後最後,我們利用大資料技術來實現資料倉儲的構建和管理。

胡亂說一通哈

我搞不清「大資料開發」「etl開發」「資料倉儲開發」這三個崗位的區別,求解?

個人愚見,etl主要是對資料的採集和儲存,數倉是資料進行大量清洗 建模 實時和離線 資料開發是對各種框架的二次開發和對資料平台的開發 目前從事資料領域的開發工作。勉強答一下。大資料開發 ETL開發 資料倉儲開發這個三個方向其實有很多的交集。不能被完全區分開。一般來說,我們講大資料開發本身是包含了ET...

基於hive的資料倉儲如何處理資料更新(update)問題?

tharvest 肯定不能使用hive更新,所謂的更新也是用增量資料merge歷史資料後儲存而替換歷史資料。如果對實效性要求不高,比如T 1,一般是按天分割槽,按天分割槽實際上已經儲存了一條記錄按天的變化維。按天同步資料存在乙個缺點,就是業務資料庫的一條記錄在一天內更新多次,只能取到資料同步時該記錄...

大資料分析和大資料研發的區別?

Rorschach 比較常見的情況下,大資料分析這種強調的是從複雜的資料和關係裡面尋找關係 趨勢等等顯著地統計量來給決策提供資訊支援的。比較強調的能力是公司所在行業的領域知識,資料分析能力,對資料的敏感程度,資料視覺化技術,溝通能力特別是面向非技術職能人員的共同能力。大資料開發人員有一部分是做資料平...