大資料檔案的查詢?

時間 2021-06-03 04:19:13

1樓:

第乙個問題:

可以用現有的大資料處理框架來處理這個大檔案,如果時效性要求比較高可以用spark來快速處理,spark可以將這個大的輸入檔案切分為乙個個的小檔案來併發的查詢。

第二個問題:

可以用hive資料倉儲來做,首先基於hdfs的分布式儲存可以解決的你超大資料量,其次可以按照時間粒度來分割槽,你存180天的資料可以按照天來劃分第一級分割槽,按照小時來劃分第二級分割槽,這樣分割槽能減少每個分割槽的資料量,對每個分割槽併發查詢效率會比較高,並且hive查詢是類sql,能比較容易與你查詢業務對接,而如果使用hbase的話分割槽和查詢都是不方便的。

如果這樣分割槽設計還是查詢不理想,就可以考慮一下給hive換一下執行引擎,預設是mapreduce的框架,可以考慮tez或者hive on spark ,已經impala查詢等方式.

要做到這些需要對大資料框架資料倉儲都有一定的理解,比如hadoop hive spark 等等

求推薦電子資料檔案管理軟體?

我是菜菜啊 電腦檔案混亂,沒有形成知識分類 企業知識庫,目錄建立不科學,檔案的具體位置不清楚,文件管理方式各異,容易造成工作難交接,效率成倍下降,這些都是企業很常見的問題,所以現在很多人都開始用知識管理系統,廣州的有天翎KMS知識管理系統,深圳的普華,可以選擇用群組當成企業的部門的劃分,也可以分許可...

大資料場景下的查詢優化 vs 資料庫場景下的查詢優化

樹懶學堂 在樹懶君眼中,查詢優化的核心思路應該是這樣的 盡量使語句符合查詢優化器的規則避免全表掃瞄而使用索引查詢 盡量避免向客戶端返回大資料量,若資料量過大,應該考慮相應需求是否合理 建立高效的索引。而在大資料場景下,樹懶君認為,可以從下面的思路來解決查詢優化的問題 合理設計索引,盡量形成索引覆蓋 ...

MongoDB 如何應對大資料量查詢做優化,並做結果過濾處理?

johnson 還是得具體問題具體分析,有很多因素要考慮 1.資料集大小 決定了需要處理多少資料,理想狀態是能全部載入到記憶體中處理 2.結果集大小 決定了要返回多少資料。比如聚合排序時記憶體使用超過100m就要開啟allowDiskUse開關,並且效能下降很大。3.查詢邏輯的複雜度 決定了是可以用...