做基於spark的離線和實時日誌分析，需要搭建hadoop集群嗎，偽分布式可以嗎？

1樓：

首先看你的技術棧選型了，一般是不需要搭建hadoop集群的，可能需要的是hbase或者HDFS就夠用了

是不是要搭建偽分布式這個要看你的使用目的了，如果你的目的是為了學習或者熟練掌握是可以的

正式環境是沒有必要的，為spark是可以完全把資源占用的，不用乙個機器多個節點部署沒有必要

另外也達不到高可用特性。

2樓：大資料技術與數倉

spark的部署可以是單機、standalone或者yarn，單機的話最簡單，standalone是spark本身提供的cluster manager，基於standalone模式可以不依賴Hadoop的，yarn部署是需要Hadoop集群的。

一般集群的話，有apache版本，自己隨意組合使用，可以用一些新版本，學習一些新特性。還有就是CDH或者HDP版本，這些是封裝好的，提供視覺化部署。再者就是阿里雲的一些產品，比如emr等。

回歸到問題本身，如果是單純學習的話，就沒有那麼多講究了，電腦配置高的，可以裝虛擬機器模擬集群。最好是搭建乙個集群，把常見的大資料元件搭建一遍，這樣方便理解和使用。

如果是生產環境，那麼肯定是要有集群的，其實Hadoop是基礎，因為好多框架是部署在yarn上，使用yarn作為資源管理器的，除此之外，hdfs也是必不可少的儲存系統，比如hive，hbase都是基於hdfs的。問題說是要做日誌分析，那資料量應該會很大，所以最好是有Hadoop集群。

其實，生產環境的集群是對應的大資料元件是很全面的，比如會同時使用hive，hdfs，yarn，hbase，sqoop，Kafka，spark等等，所以一般不是單純的只裝某個元件，因為不能滿足需求。

大資料技術與數倉：第一篇|Spark概覽

大資料技術與數倉：第二篇|Spark core程式設計指南

大資料技術與數倉：第三篇|Spark SQL程式設計指南

大資料技術與數倉：第四篇|Spark Streaming程式設計指南(1)

大資料技術與數倉：第五篇|Spark-Streaming程式設計指南(2)

大資料技術與數倉：第六篇|Spark MLlib機器學習(1)

大資料技術與數倉：第七篇|Spark平台下基於LDA的k-means演算法實現

大資料技術與數倉：第八篇|Spark SQL百萬級資料批量讀寫入MySQL

大資料技術與數倉：第九篇|Spark的五種JOIN策略解析

大資料技術與數倉：第十篇|SparkStreaming手動維護Kafka Offset的幾種方式

大資料技術與數倉：專案實踐|基於Flink的使用者行為日誌分析系統

3樓：加公尺谷大資料

如果是自己做專案練習，小資料量跑著玩玩兒，那就無妨。

但是在正式的生產環境當中，肯定是要Hadoop集群上的，而且要完全分布式，才能拉得動跑得起來，看得到真實表現。

Spark在大資料生態圈，其實主要是作為計算引擎，在Hadoop生態當中，替代了原生的MapReduce引擎，負責資料計算，包括離線計算和準實時計算（Spark Streaming）。要做離線和實時的日誌分析，光靠Spark計算不夠，資料獲取到資料轉存到資料計算，以及計算之後的結果儲存和結果展現，都是需要系統支援的。

4樓：濕人彭

1、需要；

理由：Spark只是計算引擎，本身就有很多Hadoop生態中其他元件的依賴。另外，你算好的資料也要放好。

2、不可以。

日誌資料太大，偽分布根本跑不動。

做基於spark的離線和實時日誌分析，需要搭建hadoop集群嗎，偽分布式可以嗎？

spark和deeplearning的關係，想做大資料處理分析，是該專注於學spark還是深度學習呢？

hadoop和大資料的關係？和spark的關係？

請問各位大神，spark的ML和MLLib兩個包區別和聯絡？！

其他用戶還看了：