大資料必備的技術棧有哪些?

時間 2021-06-03 19:41:48

1樓:咕嘰咕嘰

1)Spark core:是其它元件的基礎,spark的核心,主要包含:有向迴圈圖、RDD、Lingage、Cache、broadcast等,並封裝了底層通訊框架,是Spark的基礎。

2)SparkStreaming是乙個對實時資料流進行高通量、容錯處理的流式處理系統,可以對多種資料來源(如Kafka、Flume、Twitter、Zero和TCP 套接字)進行類似Map、Reduce和Join等複雜操作,將流式計算分解成一系列短小的批處理作業。

3)Spark sql:Shark是SparkSQL的前身,Spark SQL的乙個重要特點是其能夠統一處理關係表和RDD,使得開發人員可以輕鬆地使用SQL命令進行外部查詢,同時進行更複雜的資料分析。

4)BlinkDB :是乙個用於在海量資料上執行互動式 SQL 查詢的大規模並行查詢引擎,它允許使用者通過權衡資料精度來提公升查詢響應時間,其資料的精度被控制在允許的誤差範圍內。

5)MLBase是Spark生態圈的一部分專注於機器學習,讓機器學習的門檻更低,讓一些可能並不了解機器學習的使用者也能方便地使用MLbase。MLBase分為四部分:MLlib、MLI、ML Optimizer和MLRuntime。

6)GraphX是Spark中用於圖和圖平行計算

2樓:

大資料處理框架相關:如hadoop、spark(spark sql / streaming等)、ELK(elasticsearch、logstash、kibana)、kafaka等

資料儲存相關:hbase、mongodb等資料分析引擎:Impala、Druid、Presto等資料探勘演算法: 基本的機器學習演算法相關

3樓:小艦

我對大資料生態做了一些總結,我感覺可以在這裡面選一選你感興趣的元件然後深入研究。

小艦:大資料計算生態之資料儲存

小艦:大資料計算生態之資料計算

4樓:pjb

資料提取技術(ETL),資料儲存技術,資料處理技術,資料視覺化技術等,Hadoop和spark是目前主流的大資料技術平台,包括儲存、處理方面的技術支援。kafka是資料流均衡系統,用於資料接入管理。儲存技術還可以包括其他各類資料庫,如關聯式資料庫、列資料庫、文字資料庫、圖資料庫等。

大資料開發工程師必備的技術棧有哪些?

王sir說大資料 Apache Ambari是乙個基於web的工具,用於配置 管理和監視Apache Hadoop集群,支援Hadoop HDFS,Hadoop MapReduce Hive HCatalog,HBase ZooKeeper Oozie Pig和Sqoop。Ambari同樣還提供了集...

機器學習是大資料分析的必備技能嘛?

加公尺谷熊老師 機器學習是大資料分析的一部分,它使用演算法和統計資訊來理解提取的資料。大資料分析是對資料的廣泛研究。它用於通過演算法開發,資料推斷來分析和處理資料,以簡化複雜的分析問題並提取資訊。機器學習是人工智慧的乙個分支,它使計算機可以通過任何人工干預從經驗中自動學習。機器學習的整個概念圍繞著在...

大資料技術是否有可能拯救計畫經濟?

能鬥圖就不要跳臉 阿瘋 如何評價蘇聯的公有制和計畫經濟? 淡定二號 人的行為測不准或不可測,你永遠無法獲取他 她 它的所有準確資訊 或根本無法測準其資訊。在此基礎上的任何精確計畫就是扯淡。至於為什麼人的行為測不准或不可測?在未有證明證明此公理錯誤時,它即為正確。 沉默的真實 我覺得不可以 如果是利用...