資料倉儲與大資料的區別？

1樓：小蘿蔔運算元

先直接說區別：大資料是一種技術手段；資料倉儲是乙個存放資料的集合；乙個是手段，乙個是結果。

大資料：

現在的我，一看到【大資料】三個字，腦子立刻蹦出各種工具：

離線計算：hadoop，hive...

實時計算：flink,storm,spark,kafka...

還記得我大學剛畢業在一家傳統行業的公司工作，每天處理不到10G的資料，用的是Oracle、db2 ，再加上公司伺服器效能不太好，跑了一上午，資料也沒跑完，當時就覺得10G的資料好大啊；

現在每天要處理pb級的資料，再看10G的資料，就感覺不值一提（當然，具體資料大小還是跟壓縮格式有關）。

我的理解：現在說【大資料】是泛指處理大量資料（不管是結構化的，還是非結構化的）的一些技術手段

資料倉儲：

這個。。。從字面上看，數倉就是存放各種資料的集合。

一看到【資料倉儲】這四個字，腦子立刻蹦出：etl，各種形式的資料來源，各種資料表，倉庫建模，各種展示的圖表，BI... 這些都是構建資料倉儲過程中的各個模組

資料倉儲按照實效性可分為：

離線資料倉儲：一般基於hive構建，t+1

實時的資料倉儲：我們是用flink、storm來做

最後最後，我們利用大資料技術來實現資料倉儲的構建和管理。

胡亂說一通哈

我搞不清「大資料開發」「etl開發」「資料倉儲開發」這三個崗位的區別，求解？

個人愚見，etl主要是對資料的採集和儲存，數倉是資料進行大量清洗建模實時和離線資料開發是對各種框架的二次開發和對資料平台的開發目前從事資料領域的開發工作。勉強答一下。大資料開發 ETL開發資料倉儲開發這個三個方向其實有很多的交集。不能被完全區分開。一般來說，我們講大資料開發本身是包含了ET...

基於hive的資料倉儲如何處理資料更新（update）問題？

tharvest 肯定不能使用hive更新，所謂的更新也是用增量資料merge歷史資料後儲存而替換歷史資料。如果對實效性要求不高，比如T 1，一般是按天分割槽，按天分割槽實際上已經儲存了一條記錄按天的變化維。按天同步資料存在乙個缺點，就是業務資料庫的一條記錄在一天內更新多次，只能取到資料同步時該記錄...

大資料分析和大資料研發的區別？

Rorschach 比較常見的情況下，大資料分析這種強調的是從複雜的資料和關係裡面尋找關係趨勢等等顯著地統計量來給決策提供資訊支援的。比較強調的能力是公司所在行業的領域知識，資料分析能力，對資料的敏感程度，資料視覺化技術，溝通能力特別是面向非技術職能人員的共同能力。大資料開發人員有一部分是做資料平...

資料倉儲與大資料的區別？

我搞不清「大資料開發」「etl開發」「資料倉儲開發」這三個崗位的區別，求解？

基於hive的資料倉儲如何處理資料更新（update）問題？

大資料分析和大資料研發的區別？

其他用戶還看了：