做基於spark的離線和實時日誌分析,需要搭建hadoop集群嗎,偽分布式可以嗎?

時間 2021-05-12 17:05:15

1樓:

首先看你的技術棧選型了,一般是不需要搭建hadoop集群的,可能需要的是hbase或者HDFS就夠用了

是不是要搭建偽分布式這個要看你的使用目的了,如果你的目的是為了學習或者熟練掌握是可以的

正式環境是沒有必要的,為spark是可以完全把資源占用的,不用乙個機器多個節點部署沒有必要

另外也達不到高可用特性。

2樓:大資料技術與數倉

spark的部署可以是單機、standalone或者yarn,單機的話最簡單,standalone是spark本身提供的cluster manager,基於standalone模式可以不依賴Hadoop的,yarn部署是需要Hadoop集群的。

一般集群的話,有apache版本,自己隨意組合使用,可以用一些新版本,學習一些新特性。還有就是CDH或者HDP版本,這些是封裝好的,提供視覺化部署。再者就是阿里雲的一些產品,比如emr等。

回歸到問題本身,如果是單純學習的話,就沒有那麼多講究了,電腦配置高的,可以裝虛擬機器模擬集群。最好是搭建乙個集群,把常見的大資料元件搭建一遍,這樣方便理解和使用。

如果是生產環境,那麼肯定是要有集群的,其實Hadoop是基礎,因為好多框架是部署在yarn上,使用yarn作為資源管理器的,除此之外,hdfs也是必不可少的儲存系統,比如hive,hbase都是基於hdfs的。問題說是要做日誌分析,那資料量應該會很大,所以最好是有Hadoop集群。

其實,生產環境的集群是對應的大資料元件是很全面的,比如會同時使用hive,hdfs,yarn,hbase,sqoop,Kafka,spark等等,所以一般不是單純的只裝某個元件,因為不能滿足需求。

大資料技術與數倉:第一篇|Spark概覽

大資料技術與數倉:第二篇|Spark core程式設計指南

大資料技術與數倉:第三篇|Spark SQL程式設計指南

大資料技術與數倉:第四篇|Spark Streaming程式設計指南(1)

大資料技術與數倉:第五篇|Spark-Streaming程式設計指南(2)

大資料技術與數倉:第六篇|Spark MLlib機器學習(1)

大資料技術與數倉:第七篇|Spark平台下基於LDA的k-means演算法實現

大資料技術與數倉:第八篇|Spark SQL百萬級資料批量讀寫入MySQL

大資料技術與數倉:第九篇|Spark的五種JOIN策略解析

大資料技術與數倉:第十篇|SparkStreaming手動維護Kafka Offset的幾種方式

大資料技術與數倉:專案實踐|基於Flink的使用者行為日誌分析系統

3樓:加公尺谷大資料

如果是自己做專案練習,小資料量跑著玩玩兒,那就無妨。

但是在正式的生產環境當中,肯定是要Hadoop集群上的,而且要完全分布式,才能拉得動跑得起來,看得到真實表現。

Spark在大資料生態圈,其實主要是作為計算引擎,在Hadoop生態當中,替代了原生的MapReduce引擎,負責資料計算,包括離線計算和準實時計算(Spark Streaming)。要做離線和實時的日誌分析,光靠Spark計算不夠,資料獲取到資料轉存到資料計算,以及計算之後的結果儲存和結果展現,都是需要系統支援的。

4樓:濕人彭

1、需要;

理由:Spark只是計算引擎,本身就有很多Hadoop生態中其他元件的依賴。另外,你算好的資料也要放好。

2、不可以。

日誌資料太大,偽分布根本跑不動。

spark和deeplearning的關係,想做大資料處理分析,是該專注於學spark還是深度學習呢?

這得看題主將來是想找更偏重演算法還是更偏重系統開發的工作?當然兩者都擅長是最好了,但是Spark好像不太適合deep learning,題主可以嘗試一下別的框架,例如tensorflow,caffe。ps,我覺得你應該聽你導師的,逃! 沒啥關係。Spark只是乙個框架而已,在上面跑什麼都可以。把Sp...

hadoop和大資料的關係?和spark的關係?

我要來裝b了 hadoop生態提供了一些解決大資料問題的元件 分布式儲存系統HDFS 提供高可靠性,高擴充套件性,高吞吐率的資料儲存服務 分布式計算框架MapReduce 高容錯,高擴充套件 資源管理系統YARN 資源管理,任務排程 還有其他亂七八糟的什麼zookeeper hbase ambari...

請問各位大神,spark的ML和MLLib兩個包區別和聯絡?!

張玉鷹 mlib主要是基於RDD的,抽象級別不夠高,ml主要是把資料處理的流水線抽象出來,演算法相當於流水線的乙個元件,可以被其他演算法隨意的替換,這樣就讓演算法和資料處理的其他流程分割開來,實現低耦合 技術角度上,面向的資料集型別不一樣 ML的API是面向Dataset的 Dataframe是Da...