如何搭建大資料分析平台?

時間 2021-05-06 22:00:21

1樓:帆軟

通常來說,企業內部的運營和業務系統每天會積累下大量歷史資料,一些企業最多是對一些零散的資料進行淺層次的分析,真正的海量資料其實並沒有得到真正有效的分析利用。

同時,隨著系統的不斷增加和積累,沉澱在系統深處的資料也更加難以提取和整合,後期的報表展示和視覺化分析也就成了空殼應用。

所以大資料分析平台的建設就十分必要了,一方面它可以匯通企業的各個業務系統,從源頭打通資料資源,另一方面也可以實現從資料提取、整合到資料清洗、加工、視覺化的一站式分析,幫助企業真正從資料中提取價值,提高企業的經營能力。

一、神秘的大資料分析平台究竟是什麼?

通俗一點說,資料分析平台就是將公司所有的資料進行進行收集整理,包括系統資料、業務資料等等,在統一的資料框架下實現對資料的挖掘和分析,最後通過視覺化的手段進行資料展示。

因為資料分析平台涉及的元件眾多、功能複雜,如何將其有機的結合起來是其建設過程中最關鍵的核心。我們不妨以某集團的資料分析平台為例,來看一下具體的資料分析平台架構是什麼樣的:

在搭建資料分析平台之前,要先明確業務需求場景以及使用者的需求,通過大資料分析平台,想要得到哪些有價值的資訊,需要接入的資料有哪些,明確基於場景業務需求的資料平台要具備的基本的功能,以上圖為例從下至上可分為四個層次:

資料採集層:底層就是各種資料來源,主要是對企業底層資料的採集和解析,將零散的資料整合起來,包括企業的核心業務資料、使用者資料、日誌資料、集團資料等等,通常有傳統的ETL離線採集和實時採集兩種方式

資料儲存和處理層:有了資料底層的資料,然後根據需求和場景的不同進行資料預處理,儲存到乙個合適的持久化儲存層中,比如說OLAP、機器學習、資料庫等等

資料分析層:這裡就要用到報表系統和BI分析系統,比如FineBI和FineReport,這一層主要是對資料進行簡單加工,然後進行深層次的分析和挖掘。

資料應用層:根據業務需求不同劃分出不同類別的應用,主要是對最終的資料進行展示和視覺化,如上圖的資料包表、儀表板、數字大屏、及時查詢等等。

總結來說,企業對資料、效率要求的逐步提高,也給大資料提供了展現能力的平台,企業構建大資料平台,歸根到底是構建企業的資料資產運營中心,發揮資料的價值,支撐企業的發展。

在企業在進行資料分析平台建設之前,經常會有乙個疑問:企業資料系統每天都在正常跑資料,業務系統也都正常穩定,那我們還需要資料分析平台嗎?

答案是當然需要,在實際的企業資料管理中,業務系統往往不是單一的,而是多源的。業務人員看似每天都在用業務資料,但實際上彼此的資料都是相互割裂、不打通的,如果想要實現資料分析,就要從多系統中取數,然後手動整合分析,這個顯然是不能靠人力就能做到的。

這就叫做資料孤島,這個問題的難點在於需要跨資料來源進行分析,不同資料來源之間的對接很難打通;其次,企業的資料一定是海量的,有的還需要二次加工,如果沒有資料分析平台的支撐很難實現。

另外從企業業務系統的角度看,我們如果把資料分析的工作直接單獨放在業務系統上,一來系統的效能支撐不了這麼耗費資源的事情,系統壓力會很大,二來隨著資料的積累,單獨的業務系統很難承受大資料量的處理,所以重新構建乙個大資料處理平台就是必須的了。

所以,乙個資料分析平台的出現,不僅可以承擔資料分析的壓力,同樣可以對業務資料進行整合,也會不同程度的提高資料處理的效能,基於資料平台實現更豐富的功能需求。

資料分析平台的建設流程基本上可以從資料分析流程來理解,比如資料採集、資料整合、資料加工、資料視覺化等等,一般的大資料平台都會包括這些流程,叫做一站式大資料平台。

這裡要注意一點,很多企業通常把基礎資料平台建設錯以為是一站式資料平台,二者最大的區別就在於架構上有沒有實現業務探索式分析。

一站式資料平台架構有很多態別,現在比較流行的是自助式分析,也就是主動式的企業資料分析平台,讓業務人員直接參與資料分析,借助於BI平台充分探索分析資料,並能將龐大的任務分解為小任務處理。

下面就以FineBI為例,簡單梳理一下自助式資料分析平台的具體建設流程:

1、資料採集

企業資料從產生到應用依次經過了資料產生、資料儲存與處理、資料應用三個階段,由業務系統產生的資料經過ETL載入到資料倉儲,並在資料倉儲中進一步加工處理後進入BI工具,最後通過BI工具實現資料分析與視覺化展示。

要想頂層應用良好,那麼底層的資料建設就相當重要,所以自助式資料分析平台建設的第一步就是要搭建資料倉儲。如上圖所示,一般來說,數倉在技術上採用三層架構設計:ODS、DW、DM。

ODS全稱是Operational Data Store,即運算元據儲存。它是最接近資料來源中資料的一層,資料來源中的資料,經過抽取、洗淨、傳輸,也就說傳說中的ETL之後,裝入本層。本層的資料,總體上大多是按照源頭業務系統的分類方式而分類的。

DW全稱是Data Warehouse,即資料倉儲,是資料倉儲的主體。在這裡,從ODS層中獲得的資料按照主題建立各種資料模型。

DM全稱為Date Market,即資料集市或寬表,也可稱為或DWS。DM層為面向最終應用的主題層,一般依據前端報表/業務包需求進行設計,對DW層明細資料進行多表關聯,用於提供後續的業務查詢,其主要作用是提公升報表查詢效能。

在經過ETL清洗後的資料就是我們建立BI系統所需要的資料,這時候就需要通過FineBI連線企業的資料倉儲。

其次,FineBI中是通過業務包的形式進行資料儲存,IT人員基於業務需求將資料進行分類管理,通過設立表間的關聯關係和多路徑設定來進行資料整合。

這樣就得到了企業業務系統的底層資料,但是這些來自不同系統的資料指標基本是混亂的、沒有意義的,所以下一步就要對資料進行加工。

2、資料加工

我們整合過的資料往往也是異構資料來源中的資料,因此要先對關係資料進行初步的處理,比如說指標的篩選等等,將處理後的表存到業務包中作為資料分析的基礎,這就叫做自助資料集。

而FineBI實現自助分析的方法也是通過自助資料集的方式,它就相當於乙個資料容器,IT將清洗好的資料放入資料集中,如果業務覺得基礎資料不滿意,或者是需要進行跨表聯用,就可以自主建立資料集,自己進行資料的加工處理。

IT人員建立了資料連線和業務包以後,為業務人員構建BI基礎的資料模型,分析使用者配置好關聯關係,分配好許可權和設定好資料更新的頻率,提供一層可供業務理解的基礎模型。然後業務再在資料集中對這些資料進行進一步的加工處理,比如篩選資料、過濾資料、資料分組彙總、資料行列轉行等等,經過加工後的資料就是業務進行分析的最終資料了。

4、資料分析和展示

得到了清洗後的資料,業務就可以進行自助式分析了。FineBI 的視覺化探索分析,是面向分析使用者,讓他們能夠以最直觀快速的方式,了解自己的資料,發現資料問題的模組。業務人員只需要進行簡單的拖拽操作,選擇自己需要分析的字段,幾秒內就可以看到自己的資料。

在這一步我們還可以對視覺化元件進行OLAP分析操作,比如FineBI如果想要實現國家地圖與省份地圖的切換,就可以使用鑽取功能,將某個特定分組資料按第二維度繼續細化的方式。

類似的還有元件放大、元件復原、檢視元件過濾條件、元件維度切換、元件跳轉、聯動設定、元件懸浮、元件標題、元件匯出Excel、元件復用等。

四、總結

總的來說,無論是大資料平台的流程,還是業務分析平台的建設,必須要注意保證平台的效能:大資料分析平台的效能一定要保證高效,在資料量激增的情況下可以支撐海量資料分析。

最後,在大資料時代,企業的資料分析平台架構必然向著分布式、可擴充套件及多元化發展,這樣才能通過對資料流程的梳理,去推動公司梳理整個業務體系。

2樓:胡海

先來談談企業搭建大資料分析平台的背景。

1、搭建大資料平台離不開BI。在大資料之前,BI就已經存在很久了,簡單把大資料等同於BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。

BI是達成業務管理的應用工具,沒有BI,大資料就沒有了價值轉化的工具,就無法把資料的價值呈現給使用者,也就無法有效地支撐企業經營管理決策;大資料則是基礎,沒有大資料,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理資料,支撐應用。 所以,資料的價值發揮,大資料平台的建設,必然是囊括了大資料處理與BI應用分析建設的。

2、大資料擁有價值。來看看資料使用金字塔模型,從資料的使用角度來看,資料基本有以下使用方式:

自上而下,可以看到,對資料的要求是不一樣的:

資料量越來越大,維度越來越多。

互動難度越來越大。

技術難度越來越大。

以人為主,逐步向機器為主。

使用者專業程度逐步提公升,門檻越來越高。

企業對資料、效率要求的逐步提高,也給大資料提供了展現能力的平台。企業構建大資料平台,歸根到底是構建企業的資料資產運營中心,發揮資料的價值,支撐企業的發展。

整體方案思路如下:

建設企業的基礎資料中心,構建企業統一的資料儲存體系,統一進行資料建模,為資料的價值呈現奠定基礎。同時資料處理能力下沉,建設集中的資料處理中心,提供強大的資料處理能力;通過統一的資料管理監控體系,保障系統的穩定執行。有了資料基礎,構建統一的BI應用中心,滿足業務需求,體現資料價值。

提到大資料就會提到hadoop。大資料並不等同於hadoop,但hadoop的確是最熱門的大資料技術。下面以最常用的混搭架構,來看一下大資料平台可以怎麼來搭建,支撐企業應用:

通過Kafka作為統一採集平台的訊息管理層,靈活的對接、適配各種資料來源採集(如整合flume),提供靈活、可配置的資料採集能力。

利用spark和hadoop技術,構建大資料平台最為核心的基礎資料的儲存、處理能力中心,提供強大的資料處理能力,滿足資料的互動需求。同時通過sparkstreaming,可以有效滿足企業實時資料的要求,構建企業發展的實時指標體系。

同時為了更好的滿足的資料獲取需求,通過RDBMS,提供企業高度彙總的統計資料,滿足企業常規的統計報表需求,降低使用門檻。對大資料明細查詢需求,則通過構建HBase集群,提供大資料快速查詢能力,滿足對大資料的查詢獲取需求。

大資料分析中,有哪些常見的大資料分析模型?

牛博 模型其實就是一數學函式對映,從應用層角度來看,會有一些通俗的名字,簡單羅列一下 一 使用者模型 二 事件模型 三 漏斗模型 四 熱圖分析模型 五 自定義留存分析模型 六 粘性分析 七 全行為路徑分析 八 使用者分群模型 九 Session 分析 十 間隔分析 十一 分布分析 十二 營銷廣告投放...

大資料分析和大資料研發的區別?

Rorschach 比較常見的情況下,大資料分析這種強調的是從複雜的資料和關係裡面尋找關係 趨勢等等顯著地統計量來給決策提供資訊支援的。比較強調的能力是公司所在行業的領域知識,資料分析能力,對資料的敏感程度,資料視覺化技術,溝通能力特別是面向非技術職能人員的共同能力。大資料開發人員有一部分是做資料平...

大資料分析軟體哪家好?

明月說資料 目前市面上比較主流的大資料資料分析和視覺化平台主要有思邁特軟體Smartbi Tableau等,這些軟體通過提供埋點規範自動收集資料,然後通過軟體簡單的拖拉拽就能就行相應的分析,不需要資料庫和程式設計基礎,簡單易上手。 彈鼓論斤 衡量一款大資料分析軟體好不好,取決的因素蠻多的,比如 產品...