大資料檔案的查詢？

1樓：

第乙個問題：

可以用現有的大資料處理框架來處理這個大檔案，如果時效性要求比較高可以用spark來快速處理，spark可以將這個大的輸入檔案切分為乙個個的小檔案來併發的查詢。

第二個問題：

可以用hive資料倉儲來做，首先基於hdfs的分布式儲存可以解決的你超大資料量，其次可以按照時間粒度來分割槽，你存180天的資料可以按照天來劃分第一級分割槽，按照小時來劃分第二級分割槽，這樣分割槽能減少每個分割槽的資料量，對每個分割槽併發查詢效率會比較高，並且hive查詢是類sql，能比較容易與你查詢業務對接，而如果使用hbase的話分割槽和查詢都是不方便的。

如果這樣分割槽設計還是查詢不理想，就可以考慮一下給hive換一下執行引擎，預設是mapreduce的框架，可以考慮tez或者hive on spark ，已經impala查詢等方式.

要做到這些需要對大資料框架資料倉儲都有一定的理解，比如hadoop hive spark 等等

求推薦電子資料檔案管理軟體？

我是菜菜啊電腦檔案混亂，沒有形成知識分類企業知識庫，目錄建立不科學，檔案的具體位置不清楚，文件管理方式各異，容易造成工作難交接，效率成倍下降，這些都是企業很常見的問題，所以現在很多人都開始用知識管理系統，廣州的有天翎KMS知識管理系統，深圳的普華，可以選擇用群組當成企業的部門的劃分，也可以分許可...

大資料場景下的查詢優化 vs 資料庫場景下的查詢優化

樹懶學堂在樹懶君眼中，查詢優化的核心思路應該是這樣的盡量使語句符合查詢優化器的規則避免全表掃瞄而使用索引查詢盡量避免向客戶端返回大資料量，若資料量過大，應該考慮相應需求是否合理建立高效的索引。而在大資料場景下，樹懶君認為，可以從下面的思路來解決查詢優化的問題合理設計索引，盡量形成索引覆蓋 ...

MongoDB 如何應對大資料量查詢做優化，並做結果過濾處理？

johnson 還是得具體問題具體分析，有很多因素要考慮 1.資料集大小決定了需要處理多少資料，理想狀態是能全部載入到記憶體中處理 2.結果集大小決定了要返回多少資料。比如聚合排序時記憶體使用超過100m就要開啟allowDiskUse開關，並且效能下降很大。3.查詢邏輯的複雜度決定了是可以用...

大資料檔案的查詢？

求推薦電子資料檔案管理軟體？

大資料場景下的查詢優化 vs 資料庫場景下的查詢優化

MongoDB 如何應對大資料量查詢做優化，並做結果過濾處理？

其他用戶還看了：