大資料必備的技術棧有哪些？

1樓：咕嘰咕嘰

1）Spark core：是其它元件的基礎，spark的核心，主要包含：有向迴圈圖、RDD、Lingage、Cache、broadcast等，並封裝了底層通訊框架，是Spark的基礎。

2）SparkStreaming是乙個對實時資料流進行高通量、容錯處理的流式處理系統，可以對多種資料來源（如Kafka、Flume、Twitter、Zero和TCP 套接字）進行類似Map、Reduce和Join等複雜操作，將流式計算分解成一系列短小的批處理作業。

3）Spark sql：Shark是SparkSQL的前身，Spark SQL的乙個重要特點是其能夠統一處理關係表和RDD，使得開發人員可以輕鬆地使用SQL命令進行外部查詢，同時進行更複雜的資料分析。

4）BlinkDB ：是乙個用於在海量資料上執行互動式 SQL 查詢的大規模並行查詢引擎，它允許使用者通過權衡資料精度來提公升查詢響應時間，其資料的精度被控制在允許的誤差範圍內。

5）MLBase是Spark生態圈的一部分專注於機器學習，讓機器學習的門檻更低，讓一些可能並不了解機器學習的使用者也能方便地使用MLbase。MLBase分為四部分：MLlib、MLI、ML Optimizer和MLRuntime。

6）GraphX是Spark中用於圖和圖平行計算

2樓：

大資料處理框架相關：如hadoop、spark(spark sql / streaming等)、ELK(elasticsearch、logstash、kibana)、kafaka等

資料儲存相關：hbase、mongodb等資料分析引擎：Impala、Druid、Presto等資料探勘演算法: 基本的機器學習演算法相關

3樓：小艦

我對大資料生態做了一些總結，我感覺可以在這裡面選一選你感興趣的元件然後深入研究。

小艦：大資料計算生態之資料儲存

小艦：大資料計算生態之資料計算

4樓：pjb

資料提取技術（ETL），資料儲存技術，資料處理技術，資料視覺化技術等，Hadoop和spark是目前主流的大資料技術平台，包括儲存、處理方面的技術支援。kafka是資料流均衡系統，用於資料接入管理。儲存技術還可以包括其他各類資料庫，如關聯式資料庫、列資料庫、文字資料庫、圖資料庫等。