什麼樣的資料服從正態分佈

時間 2021-06-02 03:21:14

1樓:林德博格

最近在家隔離,樓主就來寫乙個比較完整的回答吧。

首先,資料的分布可能多種多樣。我們給兩三個例子,均以直方圖為例子。第一,資料可能是這樣偏左分布的:

資料分布偏向於左方

第二,資料可能是這樣偏右分布的:

資料分布偏向於右方

第三,資料的分布可能是或高或低的:

資料分布或高或低

此外,在現實生活中,很多時候,資料可能是圍繞著乙個中心分布,不偏左、不偏右、也不或高或低,呈現一種中間高、兩邊低的趨勢,我們稱之為「正態分佈」:

「正態分佈」的形狀類似於乙個鐘,又可以稱之為「鐘形曲線」

2.生活中,有哪些資料通常是服從「正態分佈的」?

第一,人類的身高;第二,機器製造的產品的大小;第三,測量誤差;第四,血壓;第五,考試分數。正是因為「正態分佈」的資料在生產生活中經常出現,所以這是其備受重視的原因之一。此外,「正態分佈」也叫「高斯分布」(紀念德國天才數學家高斯)。

3. 正態分佈的簡單性質。第一,平均數=中位數=眾數;第二,關於中心對稱;第三,50%的資料比平均數小,50%的資料比平均數大。

「正態分佈」的性質示意圖

4. 如何檢驗一批資料是否服從「正態分佈」。第一,最簡單也是最直觀的方法,使用直方圖:

如上圖所示,如果直方圖出現「中間高,兩邊低」的趨勢,則我們可以說它近似服從正態分佈。(這種做法簡單有效,但是不嚴謹。)

第二,使用QQ圖:

如上圖所示,如果QQ圖中的資料點近似分布在一條直線附近,那麼我們就說其近似服從「正態分佈」。這種方法也是簡單有效,不太嚴謹。

第三,量化檢驗方法一。量化檢驗方法分為兩個學派,第乙個學派就是我們說的頻率學派(Frequentist tests)。常用的方法有:

D'Agostino's K-squared test,

Jarque–Bera test,

Anderson–Darling test,

Cramér–von Mises criterion,

Kolmogorov–Smirnov test (只有在零假設下,均值和方差已知才可用),

Lilliefors test (基於KS檢驗, 從樣本中估計均值和方差),

Shapiro–Wilk test,

Pearson's chi-squared test.

上述幾種量化檢驗方法需要一定的統計學知識才能懂得其原理,此處不加以介紹。需要一定的程式設計基礎,使用R、Python、MATLAB、SPSS等才可以實現。手工計算一般不太現實。

其中皮爾森卡方檢驗是最常用的,其次是KS檢驗和Shapiro-Wilk檢驗。

第四,量化檢驗方法二。貝葉斯學派的檢驗(Bayesian tests)。計算slope和variance的整體後驗分布的Kullback–Leibler divergences,會給出乙個類似於Shapiro-Wilk檢驗的檢驗結果。

[1]. normal distribution

[2]. Normality test

PS:借圖說明一下偏態分布是什麼概念。

2樓:英雄聯盟買瓜子

將資料進行直方圖視覺化,就知道符合什麼分布了!只要資料量足夠大,就算不是正態分佈,也會符合大數定理的,有中心極限定律,66%的樣本會落在均值的前後兩個標準差之內。

3樓:

說實話,沒有太明白題主的意思。

如果想判斷乙個樣本裡的資料是不是服從正態分佈,可以用qqplot去看。如果qqplot的顯示是在從對角線出發並且比較直的一條線,一般就說服從正態分佈。在R中可以用qqnorm( )來畫qqplot。

什麼情況下能說總體服從正態分佈?

可能你對總體和個體的概念有什麼誤解。統計學其中乙個研究方向是統計推斷,因為總體大多數情況下都是難以統計的,一般是抽樣,然後對總體的特徵進行推斷。正態分佈一定是連續型隨機變數嗎?是的。比如我們要研究 在網際網路公司上班的男性,是否比在傳統行業 比如製造業 髮量要稀少?在網際網路公司上班的男性,可能有幾...

如何處理非正態分佈的使用者資料?

極道科技 北京 有限公司 在資料處理過程中常常會遇到各種bug,在解決之前,需要知道形成的原因,然後再予以解決。所謂 知己知彼,百戰不殆 就是這個道理。造成非正態分佈的資料的原因有很多,包括從正態分佈資料轉變成非正態分佈的資料 以及本身就不符合正態分佈的資料。下面就簡單說一說 1 受極端值的影響 當...

正態分佈變數的累加和為什麼通常都能呈現出明顯的趨勢性特徵,隨機漫步理論是否真的有道理?

藍色 假設從0點經過1000次隨機擲幣,正面向上走一格,反面向下走一格,每次擲幣當作時間變數向後推一格,則,我們可以把這個運動當作布朗運動。此布朗運動的結果可以是 1000,1000 的任何位置。從時間0到時間1000的可能運動路線有2 1000種可能,而且每種可能出現的可能性是一樣的。我們看到的乙...