什麼樣的資料服從正態分佈

1樓：林德博格

最近在家隔離，樓主就來寫乙個比較完整的回答吧。

首先，資料的分布可能多種多樣。我們給兩三個例子，均以直方圖為例子。第一，資料可能是這樣偏左分布的：

資料分布偏向於左方

第二，資料可能是這樣偏右分布的：

資料分布偏向於右方

第三，資料的分布可能是或高或低的：

資料分布或高或低

此外，在現實生活中，很多時候，資料可能是圍繞著乙個中心分布，不偏左、不偏右、也不或高或低，呈現一種中間高、兩邊低的趨勢，我們稱之為「正態分佈」：

「正態分佈」的形狀類似於乙個鐘，又可以稱之為「鐘形曲線」

2.生活中，有哪些資料通常是服從「正態分佈的」？

第一，人類的身高；第二，機器製造的產品的大小；第三，測量誤差；第四，血壓；第五，考試分數。正是因為「正態分佈」的資料在生產生活中經常出現，所以這是其備受重視的原因之一。此外，「正態分佈」也叫「高斯分布」（紀念德國天才數學家高斯）。

3. 正態分佈的簡單性質。第一，平均數=中位數=眾數；第二，關於中心對稱；第三，50%的資料比平均數小，50%的資料比平均數大。

「正態分佈」的性質示意圖

4. 如何檢驗一批資料是否服從「正態分佈」。第一，最簡單也是最直觀的方法，使用直方圖：

如上圖所示，如果直方圖出現「中間高，兩邊低」的趨勢，則我們可以說它近似服從正態分佈。（這種做法簡單有效，但是不嚴謹。）

第二，使用QQ圖：

如上圖所示，如果QQ圖中的資料點近似分布在一條直線附近，那麼我們就說其近似服從「正態分佈」。這種方法也是簡單有效，不太嚴謹。

第三，量化檢驗方法一。量化檢驗方法分為兩個學派，第乙個學派就是我們說的頻率學派（Frequentist tests）。常用的方法有：

D'Agostino's K-squared test,

Jarque–Bera test,

Anderson–Darling test,

Cramér–von Mises criterion,

Kolmogorov–Smirnov test (只有在零假設下，均值和方差已知才可用),

Lilliefors test (基於KS檢驗, 從樣本中估計均值和方差),

Shapiro–Wilk test,

Pearson's chi-squared test.

上述幾種量化檢驗方法需要一定的統計學知識才能懂得其原理，此處不加以介紹。需要一定的程式設計基礎，使用R、Python、MATLAB、SPSS等才可以實現。手工計算一般不太現實。

其中皮爾森卡方檢驗是最常用的，其次是KS檢驗和Shapiro-Wilk檢驗。

第四，量化檢驗方法二。貝葉斯學派的檢驗（Bayesian tests）。計算slope和variance的整體後驗分布的Kullback–Leibler divergences，會給出乙個類似於Shapiro-Wilk檢驗的檢驗結果。

[1]. normal distribution

[2]. Normality test

PS：借圖說明一下偏態分布是什麼概念。

2樓：英雄聯盟買瓜子

將資料進行直方圖視覺化，就知道符合什麼分布了！只要資料量足夠大，就算不是正態分佈，也會符合大數定理的，有中心極限定律，66%的樣本會落在均值的前後兩個標準差之內。

3樓：

說實話，沒有太明白題主的意思。

如果想判斷乙個樣本裡的資料是不是服從正態分佈，可以用qqplot去看。如果qqplot的顯示是在從對角線出發並且比較直的一條線，一般就說服從正態分佈。在R中可以用qqnorm( )來畫qqplot。