自學flink和spark,應該如何去學習呢?

時間 2021-05-06 06:45:44

1樓:

搞個虛擬機器,三颱起

按照文件的描述去部署

然後乙個個運算元實驗過去

嘗試各種不同的配置項

嘗試各種高階特性,例如狀態後台,cep,機器學習等看更有深度的原理性文章,然後去實驗

嘗試看原始碼跟原理相互印證

這樣你大概能混過一些面試,但幹活還差了一點自學也就到這水平了,大資料是屠龍技,還得真的屠過龍才能有質的飛躍

2樓:

英語不錯的話,建議直接去讀官網的文件, 找下 Get Started 或者 Tutorial,直接手擼 Examples。

另外就是 Spark 和 Flink 安裝包裡都有大量的 Examples,結合文件仔細乙個個看下來,上手很快的。

3樓:加公尺谷大資料老師

想走大資料方向的話,Flink和Spark要學,但是建議Hadoop生態圈的元件也學一學,先學Hadoop,然後上Spark比較好。因為Spark本身是在Hadoop的MapReduce基礎上進行了改進,離線批處理的思想,兩者是一致的。

另一方面,Hadoop生態圈,作為大資料分布式基礎架構來說,在企業級的應用場景當中,還是保持著比較高的市場占有率的,早先開始布局大資料的企業,很多都是從Hadoop開始的,所以基本基礎還是在的。

Spark的學習的話,有了Hadoop的基礎,其實是更順理成章的。其次是在學Spark之前,最好是能夠稍微學一下Scala這門語言,這是Spark的源語言,對於後續提公升,研讀原始碼有好處。

Spark學習路線可參考:Spark快速入門——Spark程式設計模型——SparkSQL——Spark Streaming

Spark之後,其實也可以學一學Kafka,這兩者的配合使用在實際應用場景當中還是比較多的。

Flink的話,作為流批一體的代表框架,建立的是一種新的資料處理思想。

大致學習路線可參考:Flink入門——Flink程式設計模型及核心概念——Flink API程式設計——Flink中Time及Windows的使用——Flink 內部機制

Flink的反壓與Spark相比有什麼差別?

青牛 你好。spark是乙個很強大的生態系統,flink目前也只能替代spark的Spark Streaming元件,1 處理可以實時 Spark Streaming 是微批處理,執行的時候需要指定批處理的時間,每次執行 job 時處理乙個批次的資料,嚴格來講達不到實時處理,Flink 是基於事件驅...

spark和deeplearning的關係,想做大資料處理分析,是該專注於學spark還是深度學習呢?

這得看題主將來是想找更偏重演算法還是更偏重系統開發的工作?當然兩者都擅長是最好了,但是Spark好像不太適合deep learning,題主可以嘗試一下別的框架,例如tensorflow,caffe。ps,我覺得你應該聽你導師的,逃! 沒啥關係。Spark只是乙個框架而已,在上面跑什麼都可以。把Sp...

MapReduce和Spark主要解決哪些方面的問題?

框架不一樣 Tasks 並行化 MapReduce Map 把上傳到hdfs的檔案一行一行拆分,然後你coding一對key value pair,傳送給不同worker nodes,Reduce 進行統一key的歸納操作 Data 並行化 Spark mapreduce和spark都是分布式計算框...