普及一下什麼是大資料技術？

1樓：小愛同學

隨著社會發展，大資料時代的到來，我們生活發生了翻天覆地的變化。

很多都會疑問什麼是大資料技術？那麼下面我們看看。

大資料技術，其實說起來也是IT行業術語，是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大資料的時代對於我們是非常好的，不然龐大的資料，我們不知道如何儲存和處理資料。而大資料技術的戰略意義不在於掌握龐大的資料資訊，而在於對這些含有意義的資料進行專業化處理。能把我們需要的資料盡快的給我們處理轉化，讓我們很好的使用。

換而言之，如果把大資料比作一種產業，那麼這種產業實現盈利的關鍵，在於提高對資料的「加工能力」，通過「加工」實現資料的「增值」。

然而大資料需要特殊的技術，以有效地處理大量的容忍經過時間內的資料。它適用於大資料的技術，而還包括大規模的資料庫、雲計算、網際網路、可擴充套件的儲存系統、資料探勘、分布式檔案系統、分布式資料庫等等。

2樓：Seven0007

我理解的大資料就是利用一些技術手段來處理海量資料並實現其價值。首先是海量資料，如果沒有資料支撐，大資料就只是空談。其次是技術手段，用來離線或者實時處理資料，其中的Hadoop你一定有所耳聞。

目前，大資料應用比較廣泛的行業有：電商、運營商、金融、醫療等。

紙上得來終覺淺，絕知此事要躬行。大資料其實是不難學的，只是要求技術層面比較廣，涉及程式設計、網路、主機等方面知識，需要多方面知識的沉澱。大資料的深入學習需要在理論的基礎上加以實踐。

在學習技術框架的時候，最好動手在阿里雲或者虛擬機器上搭建集群，一方面可以提高Linux的使用能力和了解集群的執行原理,另一方面可以在集群上進行操作練習。

其次，大資料技術在生產和測試環境中其實是不一樣的。生產環境會有實際的業務場景和各種各樣的問題，所以有機會接觸到大資料生產環境的話，學習效率會事半功倍。

大資料中，不同的業務場景對應著不用的技術選型，大資料技術運用方向主要是離線計算和實時計算。在此之前，我們先了解一下Hadoop。

大部分人都知道Hadoop，Hadoop作為最基本大資料框架，佔據著核心的位置。Apache Hadoop是社群開源版本，而生產中使用最多的，還是基於Apache的第三方發行版的Hadoop，例如HDP和CDH，這兩家是免費的，目前我們使用的是HDP。當然也有收費，例如華為、Intel。

那麼，Hadoop發揮著什麼樣的作用？

在傳統思維中，程式的執行只占用執行程式主機的計算資源，例如CPU和記憶體；檔案只占用所在主機的磁碟儲存。而Hadoop可以利用多台機器組成集群，從而提供「分布式計算和分布式儲存的能力」。

HDFS由主節點NameNode和從節點DataNode組成。在大資料中，主從結構是最常見的架構。

NameNode負責管理整個檔案系統的元資料，例如某個檔案存放在哪台機器上。當NameNode故障無法工作，則HDFS就變得不可用。目前解決方法的就是HA高可用，即集群中有兩個NameNode，平時乙個處於Active狀態，乙個處於StandBy狀態。

當處於Active的NameNode無法工作時，StandBy的NameNode會變成Active狀態並接管工作。

DataNode負責資料檔案的儲存，每個檔案根據預先設定的副本數被儲存在不同的機器上。假如你設定的副本數為3，那麼乙個檔案將會額外被複製三份，生成三個副本。根據機架感知策略，存放在不同的節點上。

副本1放在和Client相同機架的節點上（Client不在集群內則選擇最近的節點）

副本2放在與第乙個機架不同的機架中的任意節點上

副本3放在與第二個節點所在機架的不同的節點

這樣，當乙個節點故障導致檔案損壞，也可以通過其他節點的檔案副本保證正常使用，這就是資料容災策略，通過犧牲空間、資料冗餘來保證資料的可用性，類似於raid。同時，Kafka也是通過副本來保證資料可用性。

MapReduce是乙個分布式計算模型，將任務的執行分為Map和Reduce兩個階段，每個階段都拆分成多個任務來併發執行，類似於演算法中的分治思想。

如圖，分治思想是將任務拆分成多個子任務同時計算，以此得出最終結果。MapReduce也是將任務拆分，分發到Hadoop的各個節點上進行計算，這樣就可以利用多個主機的計算資源。至於MapReduce底層的實現細節，有興趣的話可以研究一下。

離線資料通常是指已經持久化到磁碟的資料，例如儲存於檔案、資料庫。我把離線計算理解成有邊界計算，因為檔案、資料庫中的資料是已知的、通常不會改變。狹義上也可以理解為資料庫SQL計算，利用大資料技術在海量離線資料中進行分析，用於營銷決策或者報表展示等。

離線計算一般使用的是Hive。Hive作為資料倉儲工具，其資料檔案存放於HDFS之上，通過HiveSQL對資料檔案進行增刪改查操作。雖然Hive提供著資料庫的操作方式，但HiveSQL會被Hive的執行引擎解析成MapReduce任務，分發在Hadoop節點上執行，所以Hive本身並不是乙個資料庫，底層計算還是依賴於MapReduce。

經常使用的技術還有SparkSQL、Kylin、Hbase、Druid等。

電商舉例，分析出乙個月內成交量最多的商品Top100，製作視覺化報表。

與離線計算對應的就是實時計算，可以理解為無邊界流式計算。資料就像河水一樣，源源不斷的進入程式中。而程式也會一直執行，直到出現異常或者被人工停止。

目前企業使用最多的實時計算框架的就是Flink和SparkStreaming，並配合Kafka作為訊息佇列來構建實時計算。這裡簡單模擬一下流處理：

如圖，採集程式作為生產者，實時生成資料寫入Kafka；Flink程式作為消費者，實時讀取Kafka中的資料來源來進行計算處理，最終將計算結果寫入Kafka或者HDFS中。

日常中比較常用的流處理技術還有Storm、RabbitMQ等，而Redis通常作為快取為流式計算提供服務。

電商舉例，找出目前正在瀏覽某書籍的使用者，推送書籍優惠券。

Seven0007：我的程式設計師之路03：我和大資料

3樓：冷暖吖

大資料指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合。通過大量的統計了解大家的喜好，想要的東西，從而得到他們想要的，比如精準營銷，徵信分析，消費分析等等。

4樓：前嗅大資料

從技術上看，網際網路大資料有三個層次：

一是用於資料管理的底層技術，比如「雲」的概念，很多科技公司對「雲」的投入都是非常巨大的。

第二個層次就是人工智慧技術。現在的智慧型基本上是用大資料驅動的，所以我把它叫「大資料智慧型」。其中乙個很重要的基礎技術是機器學習，在很多領域都有廣泛的應用。

第三個層次，就是大資料在行業中的一些創新應用。

5樓：醒職場

大資料營銷是通過收集、分析、執行從大資料所得的洞察結果，並以此鼓勵客戶參與、優化營銷過程和評估內部責任的過程。

由此可見，大資料營銷依託的基礎是大資料，其前提是能夠對客戶/使用者進行洞察。

近幾年，大資料營銷非常迅速，在美國400家從事市場營銷的公司中，54%的企業已投資大資料，其中61%的投資企業獲得了可觀的經濟回報。

如今，國內大資料產業也已經達到了8000億元的規模。

但是，根據最新的大資料人才報告，全國只有46萬大資料人才，未來3~5年人才缺口將高達150萬。

而且，大資料行業的薪酬水平也明顯高於網際網路其他職位。

兄弟，我只能提示你們到這裡了。

6樓：極道科技（北京）有限公司

所謂大資料技術，是指大資料的應用技術，涵蓋各類大資料平台、大資料指數體系等大資料應用技術。

目前為止，企業級的海量資料佔據了大量的儲存空間，但是佔據大量儲存空間的資料都「胖資料」Fat Data，不是「大資料」Big Data，企業級胖資料豐富多樣的資料特徵才是真正的大資料。資料處理過程中，需要被「感知」，感知儲存在系統裡的海量非結構化資料的特徵，然後通過對資料管理、分析和計算，讓企業資料變得有序，成為真正的資料資產。

而資料管理的物件是資料特徵，也就是元資料，不僅是工業標準的元資料，還包括各行業使用者根據行業特徵對資料打的標籤，也就是追加的任何資料特徵。

企業可以通過對大資料的管理進行索引、查詢、分析和建模，達到企業發現資料、組織動態的資料集合、分析挖掘、甚至學習資料特徵的目的，甚至進一步理解資料和資料之間的關聯關係，資料和特徵之間的關係，特徵和特徵之間的關係，這才是資料管理的終極目標。

7樓：一公尺陽光

大資料概念：指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

業界主流大資料技術框架：

磁碟儲存

HDFS、HBASE、S3、Cassandra、MongoDB、Redis

記憶體儲存

Alluxio 、Redis

資料分析

Spark（SQL、Streaming、MLlib、GraphX）、Storm、MapReduce、Mahout、Hive、Pig

分步式協調服務

ZooKeeper

集群系統監控

CDH-CMS， Metrics， Grafana、Ambari訊息匯流排

kafka、ActiveMQ、Apollo、 Redis索引系統

Solr、Lucene、ElasticSearch

8樓：達內IT學院

大資料是海量資料儲存和處理的技術,近幾年隨著網際網路、移動網際網路的快速發展, 產生了大量的資料,而傳統的基於資料庫、資料倉儲的資料儲存和處理技術已經很難在可接受的時間和空間下完成對這些資料的儲存和處理,因此,大資料技術就應運而生了，大資料技術基於分布式的架構,實現了近乎無限的儲存和處理的能力, 為海量資料的儲存和處理提供了新的可能。

而正是基於這樣的能力, 越來越多的基於大資料的精準、個性化的服務開始大量的出現,可以說大資料已經徹底改變了人們的生活。

下面由我們達內集團的大資料教研總監老師來詳細講解一下，關於大資料知識

普及一下什麼是大資料技術？

可以幫我分析一下大資料分析和大資料工程的區別嗎？

什麼是大資料？

資料科學與大資料技術將來是做什麼的，為什麼有些屬於計算機學院有些屬於數學學院？這兩者有什麼區別？

其他用戶還看了：