大資料開發工程師必備的技術棧有哪些?

時間 2021-06-04 01:38:50

1樓:王sir說大資料

Apache Ambari是乙個基於web的工具,用於配置、管理和監視Apache Hadoop集群,支援Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀錶盤,比如heatmaps和檢視MapReduce、Pig、Hive應用程式的能力,以友好的使用者介面對它們的效能特性進行診斷。

Oozie是乙個管理 Hadoop 作業(job)的工作流程排程管理系統。可以週期性或者定時對任務進行排程和編排管理。

hive是基於 Hadoop 的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,可以將 sql 語句轉換為 MapReduce 任務進行執行。其優點是學習成本低,可以通過類 SQL 語句快速實現簡單的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合資料倉儲的統計分析。

Zookeeper是 Google 的 Chubby 乙個開源的實現。它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。

ZooKeeper 的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。

sqoop是一款開源的工具,主要用於在 Hadoop(Hive)與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 : MySQL ,Oracle 等)中的資料導進到Hadoop 的 HDFS 中,也可以將 HDFS 的資料導進到關係型資料庫中。

Flume是 Cloudera 提供的乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,Flume 支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。

Kafka是一種高吞吐量的分布式發布訂閱訊息系統 (1)通過 O(1)的磁碟資料結構提供訊息的持久化,這種結構對於即使數以 TB 的訊息儲存也能夠保持長時間的穩定性能。 (2)高吞吐量:即使是非常普通的硬體 Kafka 也可以支援每秒數百萬的訊息。

(3)支援通過 Kafka 伺服器和消費機集群來分割槽訊息。

Spark是當前最流行的開源大資料記憶體計算框架。可以基於 Hadoop 上儲存的大資料進行計算。

HBase是乙個分布式的、面向列的開源資料庫。HBase 不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。

大資料運維一路走來

2樓:加公尺谷大資料

大資料開發工程師的必備技術棧,其實從大致上來說,就是Hadoop、Spark、Storm、Flink等幾個技術體系框架,而具體到實際工作當中,這些大資料技術生態圈當中的相關元件工具,也都是需要有相應程度的掌握的。

從通用的角度上來說,大資料開發工程師必備技術包括但不限於以下這些:

1、利用Hadoop以及其他相關技術設計分布式系統

2、利用Pig和Spark設計在Hadoop集群上運算資料的指令碼

3、利用HBase、Cassandra和MongoDB等來分析非關係型資料

4、熟練掌握資料儲存技術

5、利用Kafka、Sqoop和Flume等技術將資料發布到Hadoop集群上

6、利用HDFS和MapReduce來儲存分析大規模的資料

7、利用Hive和MySQL分析關係型資料

8、利用Drill、Phoenix和Presto查詢資料

9、理解YARN、Tex、Mesos、Zookeeper、Zepplin、Hue以及Oozie等是如何管理Hadoop集群的

10、利用Spark Streaming、Flink、Storm等消耗流資料

大資料必備的技術棧有哪些?

咕嘰咕嘰 1 Spark core 是其它元件的基礎,spark的核心,主要包含 有向迴圈圖 RDD Lingage Cache broadcast等,並封裝了底層通訊框架,是Spark的基礎。2 SparkStreaming是乙個對實時資料流進行高通量 容錯處理的流式處理系統,可以對多種資料來源 ...

商用大資料平台普遍起來,大資料開發工程師會失業嗎?

看屋雲 當然不會。從業內的實際情況看,不如說剛好相反,商用大資料平台的推廣程度越高,大資料開發工程師的崗位需求越多。讓我們從兩個方面來講清楚這個問題 1.目前在國內,大資料開發工程師的崗位需求與商用大資料平台的推廣呈同步推進關係。2.長期來看,商用大資料平台不能取代自研資料平台,也不會導致開發工程師...

演算法工程師需要具備哪些大資料相關知識?

笑個不停 34er5 害,做為一名已經從業2年多快3年的風控演算法工程師的視角來回答一下這個問題,不過看題主是從事計算機視覺的童鞋,可以參考一下 以乙個業務驅動的演算法模型的上線流程來具體說一下需要用到的一些資料處理技術 業務爸爸說,這邊有一塊使用者的風險近期抬頭了,需要壓降,老闆說那個xx童鞋你來...