做大資料專案經歷中最頭痛的是什麼?

時間 2021-05-06 18:07:39

1樓:李啟方

很多年前,在深入企業資料分析之前,曾經主動向當時的領導請纓:去某些比較知名的公司做資料專案,私以為那樣會提高我的資料全域性觀,但是現實卻很打臉。

通過不同的專案,提高是提高了,但是只能感嘆:坑真的多。

這種坑來自於什麼?來自於不同的人的認知不同,有人認為一些基礎的難點根本不是事情,大搞「模型」「演算法」「平台」等高大上的詞彙。

只要你經歷過幾次大資料專案,你肯定會明白,資料來源有個靠譜的資料字典是多麼重要,經常被人忽略的data cleaning原來是這麼重要。

你永遠也不知道資料可以髒到什麼程度,而且沒有通用的方案,更像是在考驗人的耐心,說白了就是太底層了,這塊工作的價值別人真不一定認可。

資料清洗其實還包括很多東西,比如整體框架、資料匯出的自動化等等,如果搞不定,一次分析往往就需要拉幾十次資料,真的費勁。

之前做過乙個BI資料系統,在Tableau和FineBI之間猶豫不決,最後還是選擇了FineBI,總得來說用起來沒什麼問題,但是無論什麼系統,其實只能解決50%的需求,你不能指望它處理好全部的需求。

很多需求,需要資料分析師通過sql或者建模來完成,這是不可避免的,而且企業在變大,很多之前的老資料都不對了,需要重新設計指標,然後再把資料填進去,這又會扯到資料清理了。

我說的應該不難理解,網際網路公司中,資料分析招聘的要求寫的最好的應該是滴滴,非常有前瞻性,不要求各種高大上的技術名詞,除了商業分析一類的東西,對工具的要求不高,一看就是明白人,這部門做事肯定很踏實。

說個題外話,Excel確實可以處理百萬級別的資料,不夠的話或者求穩的話,還是用BI工具吧。

記住這句話:模型搭建起來不難,往裡填準確的資料才花功夫。

2樓:弗拉醬

在我看來,最頭痛的是傳統資料分析過程的冗長和割裂性。

傳統的資料分析流程包括了收集、整理、分析、消費資料四大環節。在收集資料環節,需要程式設計師從多個資料來源抓取資料表;緊接著,在整理資料環節,則是資料庫工程師「上陣」,使用資料清洗工具將表整理成資料結構並沉澱到資料倉儲中。單單是前兩個抓取和整理資料的環節,可能就會耗時數月!

然而,此時的資料還不能讓業務管理者用於最終分析。畢竟,資料倉儲裡集中了多個維度的海量資料,讓乙個業務管理者在數倉裡找到乙份「某月XX地區YY單品的銷售額」資料,其難度無異於讓普通消費者去工廠倉庫裡找到乙隻特定型號的電燈泡!因此,在傳統的資料分析流程中,還需要資料分析師從業務視角將資料倉儲劃分成多個資料集市,在集市中抓取需要的資料切片並將多個切片組合成報表。

最終,當業務管理者拿到這份報表時,離最初提出需求可能已經過去了數月。

然而,這樣的報表卻價值甚微。其一,過長的資料分析時間與快速變更的業務需求不相匹配,導致管理者拿到結果時,其關心的重點早已轉移;其二,過多的參與角色增加了人力成本,也可能導致資料和需求在傳遞過程中發生「失真」現象;其三,業務管理者長期處於被動等待的狀態,這不利於他們發揮主動性和創意性,挖掘更具深度的業務分析視角。

幸好,現在新型的分析工具越來越多了。比如我之前用的DataFocus,就把這些環節整合到一起,提供乙個統一化分析的平台,感覺方便多了。

3樓:呂建軍

大資料分析,關鍵是大資料。針對要解決的問題來q整理、處理資料很重要。目標很重要,資料很重要。方法嘛,目前基本是拿來主義。

4樓:Tyrant Candy

沒搞清楚資料分析的真正需求是什麼,有時候提需求的人自己都不知道自己幹嘛分析這個

Garbage In Garbage Out刻在腦門上吧data scientist

5樓:MT醬

1.天知道源資料準不準確、完不完整、規不規範?!

2.資料平台建設和鋪面而來的業務需求難以平衡,平台還沒完善業務需求就一直飛過來

3.需求方其實也不知道自己想要啥,就是改改改改改改,然後屌我:)4.萬一資料平台出現資料故障了不能快速恢復,領導也要冒出來屌我了!

頭痛欲裂。。。。。。

6樓:有點文

最頭痛莫過於資料治理。

資料治理的目標是實現資料的「三可」:可查、可用、可溯;

一、可查

1、目標:成千上萬類資料資源怎樣讓使用者方便檢索到,並且能夠詳細了解資料資源的業務含義、技術口徑等,如果不實現資料資源分門別類,按圖索驥及充分描述資料資源,使用者也只能「望數興嘆」。

2、主要工作內容:資料目錄設計、資料資源編目、資料資源檢索、資料資源元資料管理及描述等;其中資料資源元資料描述需要全面梳理、定義和確認,工作量非常之繁重。

二、可用

1、目標:保障資料資源的質量是可信的、有效的,資料質量將直接影響資料應用價值,使用錯誤的資料無意義,甚至影響業務決策;

2、主要工作內容:通過資料清洗、資料標準化、資料對賬、資料比對等手段保障資料的及時性、一致性、規範性、唯一性、完整性、準確性等等。

三、可溯:

1、目標:在資料出現問題時,能夠追蹤到資料源頭,以便快速排查問題。也就是我們常說的資料血緣。

2、主要工作內容:資料血緣管理、資料關係識別等;

其中,頭痛中的戰鬥機又是【可用】的相關工作。

以上工作均是大資料專案建設中的髒活累活,工作量非常之大,但往往被忽視。

資料治理工作直接影響資料價值,也直接決定了大資料專案是否能夠可持續發展。

必須重視資料治理工作!

必須重視資料治理工作!

必須重視資料治理工作!

寫完這個回答都覺得頭痛了。。。

當然,也是專治頭痛的相關藥方、技術、方法、工具和管理手段,此處暫且不表。

7樓:

資料許可權

曾經在BAT的乙個子公司幹活,因為內部的無理的規條,資料許可權的申請、開發的申請都是非常困難,要把郵件寫好,交給大佬,讓大佬轉給總部大佬;或者自己寫好,交給總部的小夥伴;然而無論如何,都沒有辦法獲知自己的郵件需求是否得到回應,委託的任務是否進入排期,是否進入佇列。

後續的資料入庫、優化、跟蹤,全部就沒有然後了。

最後還是只好跑路了。

沒刪庫。

8樓:宋海虹

大資料專案,成功是偶然的,失敗是必然的。

得到的資訊可分為三類,錯誤資訊,廢話資訊跟有價值資訊;而有價值的資訊,在下一輪中大概率又做出不來。

9樓:

很多人都會說資料清理占約80%,分析和建模型等佔20%,但是為什麼會這樣?我的理解應該是缺少對資料的整體思考、規劃和協作

導致資料質量問題的一些原因(有客觀原因,並非都是主觀原因):

生產vs使用:資料產生於工程開發人員,但使用者卻是資料處理人員。

分散vs聚合:工程開發關注分散來提高效能和解耦合,資料開發關注聚合來全面分析資料。

功能vs資料:開發關注功能、產品是否能用,對資料質量和一致性關注不高。

系統細分:不同系統由不同的團隊開發,各個團隊有自己的資料處理方式,很難全域性一致。

走捷徑:偶爾為了趕進度,乙個欄位會用作多個目的。

bug:bug在所難免,有時會汙染資料。修正bug後,只要不影響功能,開發很少去修復資料,這些問題留給資料人員。

一般而言,開發人員居多,資料人員佔少數。而且是先有開發人員,再有資料分析人員。

無明確目的:開發時不知道資料如何被使用,因此沒有動力去保證資料質量。

因此,影響資料質量問題的乙個主要觀念就是先發展(汙染)後治理:功能優先,產品優先、開發優先,反正資料開發者會去清理的。但是這樣的方式會事倍功半的,導致需要很多時間去清理遺留資料問題。

遇到問題時,去思考問題的根本原因,並且尋找可行的系統性的解決方案才是有效的解決問題之道。

10樓:大器不早成

最頭疼的是資料如何資料儲存和資料預處理部分,如何儲存資料,如何處理T級別的缺失值問題,如何處理類別不平衡問題,如何處理沒有標籤的資料問題,如何。。。。

11樓:息霜

業務人員不了解資料結構,不了解BI部門什麼能做,什麼做不到;業務人員只會提出業務要求,無法落實到技術層面,BI部門除了做資料,還需要另外花很多時間深入了解業務才能做出東西;溝通不良。

12樓:老馮

你要給老闆講明白什麼是大資料,什麼是雲計算,什麼是資料分析,什麼是資料探勘。老闆嘴裡的大資料可能是以上任意一種或幾種的組合

老闆又更新了業務模式,業務系統要加班加點修改,我小心翼翼的去問,資料來源結構有啥變化,沒人鳥我,等他們加完班就輪到我們搞大資料的了

13樓:

客戶不理解。

it客戶對技術理解,但不知道業務怎麼用,也沒有啥錢業務的不懂技術實現,不知道技術變革的意義。

客戶經常換屆,導致注重短期利益

14樓:saber

最傷心的還是價值的真實性和規模性問題,其他的都可以克服。

1.實時分析類的應用如果上了一般直接提公升生產力(精細化運營),無價值偽命題投入的坑倒比較少,但是因為這類服務在企業裡面比較新,要達到高品質的服務標準,依賴於整個系統(採集+傳輸+計算儲存等等),非常難推進,因此品質達不到應有水平。

2.離線分析的專案,一般是為了計畫和規劃層面的應用服務,這個的價值發揮現狀就更悲催,因為大概率要靠專業人士運用。

15樓:潘穎

1、最頭痛的事情是資料定義,從企業業務角度出發,僅說涉及百萬級別case的小資料專案,專案經歷中最頭痛的事情就是資料定義。而資料定義是進行資料清洗以及資料分析、挖掘、建模等後續工作的重要前提。各指標(字段)定義確定則是各業務部門、資料部門、資料提供部門踢皮球的事了

2、有了統一的資料定義(無論是哪個級別,暫時的還是長期的,有了專案中的統一定義就好了)後,然後頭痛是資料清洗,而頭痛主要還是時間問題,而第一項做不好,就是無盡的頭痛了。

16樓:

朋友你聽說過什麼叫資料清洗麼?

所有資料集合裡80%的資料都是非結構化資料,也就是不能直接拿去用的資料。然後日常生活中更多的資料是帶有大量噪音的。

我覺得對付這種,嗯如果實在沒招了:要麼用CV方法做資料識別然後整理成結構化的,要麼找幾十個人,用當年乃木希典強攻203的辦法,武德豐沛(三波流,每一波都抄寫一次資料,然後互相對照)!就醬。

順便也可以解決一部分失敗人士的就業問題。

為了不搞"乃木希典強攻203"的那一套,公司平時只能就把資料集合整理的很好(當然實際上這在某些行業和某些情況下是做不到的)。同乙個格式,存在標準檔案裡;這樣的話就會好做很多很多。

請問做大資料專案一般用什麼軟體或平台?

老馮 一般使用Hadoop生態環境,包含了元件,hadoop,hive,spark,hbase等,需要系統的了解,不是三兩句能解釋清楚的 大器不早成 一般用Hadoop,Spark等平台,進行分析。如果你想要做大資料分析挖掘的話,這裡有乙個平台我覺得挺好的 資料超市。這個平台以spark平台為基礎,...

當下大資料市場的火熱,和做大資料開發的人如洪水猛獸般湧進來,大資料工程師的核心競爭力是什麼

IT人劉俊明 作為一名科技 教育工作者,我來說說我的看法。首先,隨著大資料技術體系的不斷成熟和發展,在工業網際網路的推動下,大資料技術已經處在了落地應用的初期階段,相信隨著越來越多的行業資源和社會資源向網際網路匯集,大資料自身將構建起乙個龐大的價值空間,這必然會釋放出大量的人才需求。當前大資料領域的...

做大資料分析應該如何選電腦?

金戈老馬 選電腦之前,先理清楚自己拿這個電腦做什麼。基於題主的問法,冒昧地猜測 題主是正準備入行,以學習為主吧。如果是學習的成分大於工程實踐。從電腦使用上來說,一般用於兩個目的 大資料平台 大資料儲存 處理 和資料分析方法 建模 程式設計 視覺化等 一 大資料平台。基本上圍繞 Hadoop 生態,一...