如何處理非正態分佈的使用者資料?

時間 2021-05-05 17:21:05

1樓:極道科技(北京)有限公司

在資料處理過程中常常會遇到各種bug,在解決之前,需要知道形成的原因,然後再予以解決。所謂「知己知彼,百戰不殆」就是這個道理。

造成非正態分佈的資料的原因有很多,包括從正態分佈資料轉變成非正態分佈的資料、以及本身就不符合正態分佈的資料。下面就簡單說一說:

1 受極端值的影響

當一組資料有很多大小不等的極端值時,資料通常不正態分佈。這原因可能有前期錄入錯誤、測量出現誤差等,一般用直方圖和時序圖看極端點的狀態,再除去異常後,資料即可恢復常態。

注意:資料存在極端值是正常現象,一般P值小於0.05判資料為非正態分佈!

2 包含2組以上不同組資料

資料報含了兩個或兩個以上不同過程、狀態的資料,形成的資料漂移、雙峰、分段等。解決方法是找到標籤後看輸出變數資料和哪些標籤有關係,然後根據這個標籤把資料進行細分,一般用時序圖、直方圖、箱線圖來對資料進行細分。

3 資料分辨度不足

在資料處理過程中四捨五入或量具解析度的要求,導致資料從原來正太分布轉變為非正態分佈。

通常改進的方法是優化測量系統解析度、或是提高資料分辨度、也可收集更多的資料進行補充。

4 經過篩選與修飾的資料

還有一種情況,就是通過人為的篩選或修飾,導致資料最終呈非正態分佈。

5 資料處理過程本身就不符合正態分佈的資料

上述四點是造成資料從正態分佈轉變到非正態分佈的部分原因,但實際應用中,也存在著資料在處理過程中本身就無法正態分佈的情況,這也是很正常的。

2樓:Sulll索離

分布有很多種,除了正態分佈,還有喬納森分布,韋伯分布等等,拿到一組資料首先要判斷是什麼分布,推薦樓主用JMP軟體,通過goodness of fit分析屬於其中一種分布,用相應的方法分析,一般都能找到對應的分布,如果什麼分布都不屬於,就比較坑爹了,只能case by case看。有分布的,用JMP跑出來predict百萬級資料還是妥妥的。最好分析的是正態,如果不是正態,樓主只能自求多福了。

iOS App 的使用者資料如何手工備份?

江月何年 首先越獄然後使用ifunbox或者itools之類的工具把資料拷貝出來。1簡訊 搜尋sms,把整個sms資料夾copy到本地。注意ios4及以下只用備份sms.db,但到ios4公升級ios5必須備份整個sms資料夾。2聯絡人 檔名忘了,你可以搜一下,但推薦使用icloud或者gmail或...

如何做使用者資料分析?

chenjunrui 一般的流程有兩種 一種流程是先有資料,看看在這些資料上可以做什麼分析。另一種流程是明確了需要分析的目的,然後去組織資料,最後進行分析。第二種方法是傳統的使用者研究的方法,以目的為導向,第一種方法比較考驗分析員的知識儲備以及對資料敏感性和問題敏感性的把握。如果是第二種,主要的步驟...

如何看待知乎使用者 資料Simon 被舉報封號?

譚智揚 如何看待?幫我豐富黑名單的同時讓我關注了很多人。我就不明白乙個這樣低素質的西蒙居然還有那麼多人在洗,果然黑詹政治正確。那些詹黑喜歡說的 不喜歡詹姆斯的就是詹黑 這個理論不但不成立,而且剛好反轉,你現在看看知乎籃球板塊,哪怕你是勇蜜刺蜜卡蜜艾蜜,只要你不罵詹姆斯你都有可能被戴一頂叫太監的帽子。...