做行業分析但是得不到完整的資料,怎麼處理?

時間 2021-05-10 13:19:35

1樓:Tavion Fu

得不到完整的資料是很正常的現象,有時也是根本避免不了的。尤其是做行業分析,很多資料本身就是商密性質的。絕對得不到或者說很難很難得到。

但是在做分析時又不能不面對。樓上幾位給出了很多找資料的辦法,我來重點說說實在找不到怎麼辦吧。(結合題主困惑,妄自推斷1.

題主針對的是二手資料;2.題主得到了部分資料,或者部分屬性的資料,但是資料不全。)

PS:原則是,不能為了得到結論而搜(nie)集(zao)資料

先說下資料缺失的問題和產生,通常有下面幾個方面:

(1)資訊暫時無法獲取:例如醫療行業,某項指標從2023年才開始推廣,相應的醫療檢查裝置也是2023年普及。那就很難找到相應規模2023年以前的資料。

(2)資料被遺漏。由於遺忘,裝置故障等原因遺漏的資料

(3)重要性變化。有些資訊被認為是不重要的,但題主認為重要。

(4)某些屬性不可用。比如,對於乙個兒童來說,固定收入屬性上的值壓根就不存在。

(5)獲取資訊代價大。這應該是題主面對的主要問題,現在這個市場,只要付出足夠的代價可以獲得足夠的資料,資料是可以買的。但是問題的關鍵總是落在差錢。

歸結以上幾種情況,缺失的資料分成下面三類:

(1)遺漏語義缺失值(存在型缺失值):物件在該屬性上的取值是存在的,只是暫時不知道。

(2)缺席語義缺失值(不存在型缺失值):該屬性壓根無法取值,例如未婚者的結婚時間之類的。

(3)佔位型缺失值:壓根不知道這個屬性的數值知不知道。這是不確定性最大的一種情況。

好了。廢了半天勁做了鋪墊。下面說怎麼面對缺失資料:

(下面的論述盡量不用繁雜的數學表達,有這方面的高人,私下聊。)

目前缺失資料填補方法已經是學界普遍研究的問題了。方法也很多,主要是兩大類:(1)基於統計理論的填補方法;(2)基於機器學習的填補方法。

(1)基於統計理論的填補方法

這個容易理解,主要有均值填補、條件均值填補和回歸填補。

均值填補(Little&Rubin,1989)是用其他物件在該屬性數值的平均值,直接填進空位。該方法降低了總體的方差,適合進行簡單的點估計,不適用於複雜的需要方差分析的估計。

條件均值填補(Fatukasi,Kittler,&Poh,2008)針對有分類的資料,然後取同類變例項的屬性值計算均值得到。屬於使用標籤資訊的監督缺失資料填補。

回歸填補法利用變數或者資料物件元組間的關係,建立變數或者元組間的線性回歸模型,然後利用已知資料線性重構對缺失資料進行填補,例如見了無數次的最小二乘法(Least Squares Imputation,LSimpute)

這一類方法理解起來比較容易,基本上初高中的數學可以理解前兩種方法,學了本科概率與統計也能理解線性回歸,對分析人員的功底要求已經低到極點了,但是一定要注意是否適用於自己面臨的問題。通常情況下,簡單的方法也必然伴有劣勢,下面簡單說說現在比較火的填補方法。

(2)基於機器學習(Machine Learning, ML)的填補方法

簡單介紹三類吧,方法太多。基本都是針對沒有標籤的資料,有標籤的可以用條件均值。

(1)基於K最近領及相關演算法的填補方法

在缺失資料填補領域,這是使用最為廣泛的魯棒性(我沒打錯字,就這仨字)較好的方法。其中的K最近領(K-Nearest Neighbor,KNN)的思路是乙個樣本空間中k個最相似的樣本(理解為離著最近的幾個樣本)中大多數屬於某乙個類別。OK,就是他,缺失資料的樣本我們認為就是這個類別。

然後估計吧,什麼平均,加權平均,隨便你了。通常按照距離加權比較好。

(2)基於K均值及其他聚類過程缺失資料填補方法

K均值,即大名鼎鼎的K-means方法是聚類分析的經典方法。基於這種聚類產生的資料填補方法(K-means Imputation,KMI)主要思路,將所有資料通過K-means聚類,也就是根據資料物件的相似程度分成k個型別(k是提前給定的),然後看有缺失資料的物件跟裡面那個類中心最像,就用那個類的均值填補。除了K-means以外還有學者提出了基於模糊C均值聚類的方法(Fuzzy C-Means,FCM)就不細說了。

(3)其他的ML缺失資料填補方法。

不細說了,接單列個名單吧

支援向量回歸機

自組織對映

多層感知機

再次強調,能找到真實資料的方法還是最本質的方法。也是最好的方法。如果實在不行,也別瞎猜。

算一算,註明缺失資料填補的方法,更有助於決策。同時,大部分的資料分析過程還是在有標籤的資料的領域,基本上基於統計學得填補方法就能搞定。基於ML的填補方法聽著比較高大上,但是對於很多資料分析師來說,其實用不到太多,或者說其實公司的軟硬體系統可以直接實現演算法,分析師自己不用掌握。

可惜,作者本身正在學習稀疏表示和高維資料。苦逼的抱怨一下吧。

2樓:李晨陽

工信部資料:

miit.gov.cn/n1146290/n1146402/n1146455/index.html國家統計局資料:

有大行業的資訊

為什麼會對自己在意的人做自己得不到的事情

啥都要靠悟 關心他人,別人的痛感同身受,這是很 善良的品質 你需要 大男人 的關懷。無需迷惑,做自己就好。一切都是最好的安排!祝幸福,快樂! 酒館故事 在潛意識裡,這些是你受到過傷害或者因為某些原因讓你得不到。以至於你的男朋友和你的表弟只要觸碰到那個點,潛意識裡你看不見的東西,在他們觸碰到那個點之後...

如果已經覺得很努力了但是還是得不到預想的回報你會怎麼樣?

木葉飛舞之處 我也是那種很努力的人啊,可是就是考不過那種考試前突襲的人。不過我還好,對成績要求不高,因為我知道自己學到了。反正.還是有點鬱悶吧一起加油啊, Ziiiiiing 不知道該怎麼說,跟朋友們一起在考試之前泡在圖書館複習一晚上,並且在此之前的一整週每天都在複習,結果出來卻是不及格,感覺這種事...

女神的身體能得到,但是得不到她的心怎麼辦?

Wie so 首先,題主遇到的女神是乙個簡單而單純的人。題主可以看一下這個帖子,感受一下 乙個在每個階段都有喜歡的男生,卻一直不談戀愛的女生,她的心理狀態是怎樣的?李東哲的回答 好了。事已至此。題主冷靜一下,我幫你分析分析女神的心思。其實我不得不說題主的問題描述透露的資訊好少,應該多加一些細節,這樣...