什麼是大資料的主流框架?

時間 2021-05-30 00:00:27

1樓:成都加公尺谷大資料

1、Hadoop

Hadoop 是採用了 Map Reduce 的一種分布式的計算框架,它是根據 GFS去開發了 HDFS 分布式檔案系統,還有根據 Big Table 開發了 HBase資料儲存系統。可以了解到的是,Hadoop 的開源特性成為了分布式計算系統事實上的國際標準。

2、Spark

Spark 是一種存在在 Hadoop 的基礎上進行了一些改良。Spark 和Hadoop 有一些區別,在於Hadoop它是使用硬碟來作為儲存資料的,而Spark 則是使用記憶體來儲存資料的,因此 Spark 可以提供超過 Ha?doop 大約100 倍的運算速度。

3、 Storm

Storm 作為一種 Twitter 主推的分布式計算系統。它在Hadoop的基礎上提供了乙個實時運算的特性,它可以實時的處理各種大資料流。Storm是不進行資料的收集和儲存工作的,它是直接通過網路實時的接受資料並且實時的處理資料,然後直接通過網路實時的傳回結果。

4、Samza

Samza 它是由 Linked In 開源的一項技術,它是乙個分布式處理框架,用來作為實時資料的處理,非常像Twitter的流處理系統Storm。

2樓:浪尖

大資料儲存排程,主流框架hadoop的hdfs和yarn。

大資料sql,主流框架hive和spark sql。

大資料的訊息佇列,kafka,pulsar。

大資料離線計算,spark,mr。

大資料實時計算,flink,spark。

3樓:資料一哥

主流的現在離線和實時都可以用spark。

實時計算可以使用Flink。

OLAP大資料量資料儲存可以使用GP。

訊息佇列使用kafka

每秒10W的資料寫入用什麼大資料框架合適?

Sprout 前段時間有個應用有這樣的要求,對於每條記錄節的資料要求每秒寫入8000以上,於是花了些時間在這方面研究,做了乙個輕量級 功能方面 的持久層。作了最好值 平均值 最差值的測試,分別是18000條 s,9900條 s,2090條 s。很容易想到的就是oracle 的copy命令,但是對於應...

什麼是大資料?

數之聯大資料 經過多年來的發展和沉澱,人們對大資料已經形成基本共識 大資料現象源於網際網路及其延伸所帶來的無處不在的資訊科技應用以及資訊科技的不斷低成本化。大資料泛指無法在可容忍的時間內用傳統資訊科技和軟硬體工具對其進行獲取 管理和處理的巨量資料集合,具有海量性 多樣性 時效性及可變性等特徵,需要可...

什麼是教育大資料?

一丟丟喜歡 大資料 概念不是突然出現的,而是資訊科技發展的結果,大資料是新資訊科技的寶藏。相較於傳統的資料,人們將大資料的特徵總結為5個 V 即體量大 Volume 速度快 Velocity 模態多 Variety 難辨識 Veracity 和價值密度低 Value 這五個特徵都對資訊科技帶來了巨大...