基於hive的資料倉儲如何處理資料更新（update）問題？

1樓：tharvest

肯定不能使用hive更新，所謂的更新也是用增量資料merge歷史資料後儲存而替換歷史資料。如果對實效性要求不高，比如T+1，一般是按天分割槽，按天分割槽實際上已經儲存了一條記錄按天的變化維。

按天同步資料存在乙個缺點，就是業務資料庫的一條記錄在一天內更新多次，只能取到資料同步時該記錄的最後狀態。

如果對資料的實效性和記錄變化狀態有要求，那麼就需要採用實時資料同步，實時同步可以採用流處理技術（structured streaming，flink等）結合實時插入效率較高的儲存引擎如hbase，kudu，clickhouse等。

2樓：王小新

hive更新用overwrite關檢詞可以做，也可以做拉鍊，前提是你的資料量要小，每天新增資料量可控，不然速度超級慢，最好的方式就是不處理，因為有分割槽的存在，每次選取分割槽時間最近的，也就相當於做了乙個拉鍊，不考慮效能可以用overwrite

3樓：taisenki

基本不用hive做資料更新……

資料更新還是考慮修改底層支撐來的更快，比如換HBase或者Kudu，或者其他的一些支撐架構。