如何通俗易懂地解釋協方差與相關係數的概念？

1樓：紐約Johnny哥

首先將兩個變數中的點放入座標中，新增輔助線和。

觀察影象：

第一象限中的點：x 大於平均數， y 大於平均數，為正。

第二象限中的點：x 小於平均數， y 大於平均數，為負。

第三象限中的點：x 小於平均數， y 小於平均數，為正。

第四象限中的點：x 大於平均數， y 小於平均數，為負。

再看一眼公式：

如果為正，對影響力最大的點一定在一三象限，表示 x 和 y 之間存在正相關。

如果為負，對影響力最大的點一定在二四象限，表示 x 和 y 之間存在負相關。

下面舉例說明計算方法：

樣本的協方差用表示：

x: 2 5 1 3 4 1 5 3 4 2

y: 50 57 41 54 54 38 63 48 59 46

-1 2 -2 0 1 -2 2 0 1 -1

-1 6 -10 3 3 -13 12 -3 8 -5

= 1 12 20 0 3 26 24 0 8 5

= 99

從這裡我們可以看出 x 和 y 是正相關。

但由於協方差covariance受量綱的影響，我們有時候還需要看相關係數correlation。

用協方差係數除以 x 和 y 格仔的標準差就得到了相關係數。

2樓：Allen Zhuo

一句話。先理解一下方差和標準差的關係，然後模擬一下，這裡的關係可以理解為協方差和標準協差（自創的）。標準協差就是相關係數。

3樓：「已登出」

協方差能夠反應兩列變數關係的主要是分子上有關離均差的部分。可以先假設理想情況，當兩列變數完全正相關或完全負相關的時候，體現在散點圖上就是兩條直線。於是在完全正相關的情況下，當x這列變數中x大於其平均數，那相應y一定也大於平均數；當x小於平均數，那相應y也一定小於平均數，因此兩列變數的離均差是同正同負的，所以其乘積必然為正。

而在完全負相關的情況下，x和y的離均差一定是一正一負，所以乘積必然為負。所以正相關和負相關就可以通過離均差的乘積來體現。

此外協方差還可以體現兩列變數之間的一致性。而考慮到一致性就需要拋棄兩條直線的理想情況，也就是說在實際情況下，比如符合正相關的散點圖通常不是一條直線而是一系列圍繞那條直線的點，在這些點中大部分情況符合x和y的離均差同正同負的情形，但也存在少部分一正一負。所以當我們把這些離均差的乘積加起來的時候，如果一致性越高（理想狀態就是直線）那被加總的正數越多，如果一致性越低那乘積中負數部分就會很多所以最後加總的值就會低。

負相關也是類似的情況。

個人學習總結全當拋磚以玉，求各位大佬輕噴

4樓：劉一刀

協方差就不說了，說說相關係數，相關係數本質上和兩組數的排序有關，和大小無關。

對於兩列資料，A和B，假設都有50個數，當A的資料序列是按照從小到大排序，B的資料序列是按照從小到大排序，則相關係數為1，假設B的資料序列是按照從大到小排序，則相關係數為-1。

這是兩個極端的臨界情況。

接著說一般的情況。

任意兩組數，可以計算出，排序順序的差值的絕對值的求和,公式如下。

rank_sum=

這就是相關係數的本質，兩組數的相關係數只和兩組數的排序有關。

理解本質有什麼意義？

在做分析的時候，對於不同的兩組數（AB和CD），如果有相關的相關係數，一定要深入的分析下，不要直接認為（AB和CD）這不同的兩組數的內部關係是一樣的，為什麼呢？

因為兩組數的排序的方差的差值的方差是不一樣的。同樣的相關係數，如果排序的差值的方差大，說明這個相關係數的可代表性比較弱，這個相關係數更多的是由於一些極端值導致的結果，而不一定是這兩組數的真正的本質關係。

5樓：陳松路

最高贊已經解釋地非常清楚，我只是簡單補充下相關係數取值範圍[-1,1]的原因。因為協方差可以看成兩個變數的內積，而每個變數的標準差可以看成變數的2範數||X||，||Y||。 = ||X|| ||Y|| cos(a)。

把||X||和||Y||移到方程左邊就是相關係數的公式，cos(a)自然是[-1,1]。

6樓：

這裡我談一談自己的理解吧.

-- 偏離集中趨勢(均值)的描述, 越大表示波動劇烈, 越小表示越集中於均值 ( 方差為0 , 表示常數分布)

其實順著上面的思路可以畫出二維隨機變數 (X, Y) 的幾何圖 -- 是在乙個二維空間中點, 此時不再是上圖中的線段表示偏離程度, 而是乙個矩形來表示 ( 注意中間的點不是座標 (0, 0

而是座標 (u_x, u_y ) 而且矩形的面積有正負之分.

而協方差的定義是對這些面積求期望,

這個面積的期望逼近於0會怎樣呢?

這個面積的期望逼近於 sigmax * sigmay 會怎樣呢?

(sigma表示標準差)

假設我們上面畫的二維空間 x 軸和 y軸變成一條直線了to be continued

7樓：

協方差相當於內積，相關係數相當於兩個做內積的向量之間夾角的余弦，那麼[-1,1]之間的cos值，不就很能簡單明瞭的說明兩個向量之間的相關程度了？0表示相互正交，那麼就不相關。越靠近1表示兩個向量的方向越接近，那就越正相關。

-1相反。

8樓：

協方差就是兩個變數共同變化的量，相關係數分母裡是兩個變數各自變化的量，相關係數的本質其實就是標準化的協方差，這也是為什麼皮爾遜相關係數的平方能代表兩個變數各自解釋變異百分比。

9樓：Dr.Song心理學

協方差就是倆人跳舞的舞步協同程度，如果一起向前走或者向後退，協方差就是正值；如果乙個朝前乙個朝後，協方差就是負值；如果各自都不動，就是零。

相關係數就是標準化的協方差，就是剔除了倆人舞步尺度大小不一的影響。

10樓：Twinkle

協方差表示兩個變數之間的關係程度，如果協方差是正的則資產正相關，資產組合時不會對沖風險，如果負的則能對沖風險，

因為協方差求出來的是乙個不容易與其他資產組合做對比的數值、因此將其除以各個資產標準差的乘積而求出的就是相關係數，（ps：就像是我們經常將某個收益化成收益率一樣，這樣較直觀、易比較分析）同理如果係數為正則不能對沖風險、負的可以對沖風險。不知道能不能幫到題主………

11樓：Mrg13910

首先搞兩種東西的兩個集合，可以是任何東西；

然後搞個時間軸；

然後，隨時間變化，兩個集合裡面的東西的狀態會隨時間變化而變化；

然後，分別為兩個集合裡面的不同狀態賦值，用自然數就可以；

然後，就可以分別計算出兩種自然數的平均數；

然後，在時間軸上任找乙個時間點，計算當時不同狀態的賦值與其平均數的差。

這個就是我們要真正關心的資料。

至於後面把差乘一下再累加再除時間點數，只不過是給你乙個直觀的摸的著的數，以便比較。

12樓：frank hu

講投資學講到吐的概念

最簡單的理解方法，你觀察一下公式。如果你認為x和y是正相關，那麼你會expect x大於平均數的時候y也大於平均數，這就造成了x-mean（x）與y-mean（y）相乘的每一項為正，加和也為正。所以如果協方差大於零，反應x與y正相關

13樓：Ruiyang

如果不是要徹底掌握它們之間的聯絡以進行現實中的數學分析的話，可以大概這樣理解：

協方差衡量的是兩個變數如何【同時】變化，而乙個公式中涉及兩個或兩個以上的變數之間計算時，都會考慮對它們之間相關係數進行分析。所以協方差是通過不同數學公式及模型作為介質間接與相關係數聯絡到一起的。

只是自己的感覺，對於這個不求甚解的人（我）理解到這個程度就知足了，餘下的結合前輩大神制定的公式（比如涉及雙重加總、西格瑪求和、複合型的演算、以及其他定理或方法）進行推導就可以解決很多問題了。

14樓：李耳總

變數觀測值的序列，先做個中心化，然後看作向量，n維空間中，相關係數就是向量的余弦距離，協方差和秩數平方的乘積就是向量點乘。

15樓：

先說協方差。

兩個變數有多大的「可能」朝乙個方向改變？協方差就是用來形容這個「可能」的程度的。

比如你和我是兩個變數，你變大我也變大，你變小我也變小，那麼咱倆的協方差就是正數。

相反，如果你變大我卻變小，你變小我卻變大，那麼咱倆的協方差就是負數。

這時候再來看一下協方差的公式

其中X,Y就是兩個隨機變數，如果我是X你是Y，那麼當我變大（即大於均值）時，的值就為正，這時候你也變大（即大於你的均值），那麼的值也是正的。

假設現在有十個時刻，分別為

在時刻，我變大你變大，的值為正。

在時刻，我變大你也變大，的值還是為正。

如果在這十個時刻裡面，每次我變大的時候，你也變大，那麼十個的值都是正的，那麼這十個值得均值也肯定是正的。

就說明，咱們倆朝乙個方向改變的「可能」的程度，很大。

這時候再考慮兩種情況

1.我變大了很多，你變大了一點

2.我變大了很多，你也變大了很多

這時候，兩種情況的協方差都是正值，但是第二種情況的值就要大於第一種情況。

代入公式也很容易理解吧。

相反，負值就是我變大你變小，思路是一樣的。

如何通俗易懂地解釋協方差與相關係數的概念？

如何通俗易懂地解釋棒球規則？

如何通俗易懂地解釋外微分？

如何通俗易懂地解釋風險溢價？

其他用戶還看了：

如何通俗易懂地解釋 協方差 與 相關係數 的概念？

如何通俗易懂地解釋棒球規則？

如何通俗易懂地解釋外微分？

如何通俗易懂地解釋風險溢價？

其他用戶還看了：

如何通俗易懂地解釋協方差與相關係數的概念？