KL散度衡量的是兩個概率分布的距離嗎?

時間 2021-05-05 13:17:16

1樓:張戎

統計距離的定義

在歐式空間,如果要衡量兩個 維空間中的點 和 之間的距離,通常可以使用 範數來進行描述,其數學公式是:

在統計學中,如果需要衡量兩個統計物件之間的「距離」,在離散的場景下除了可以使用歐式距離之外,還可以使用其他的統計距離來描述這兩個統計物件之間的距離。與之對應的,在連續的場景下,同樣可以定義出兩個統計物件之間的距離。

距離是定義在集合 的函式 並且滿足以下條件:

對於所有的 都成立;

對於所有的 都成立;

對於所有的 都成立。

而廣義的距離會缺少其中乙個或者多個條件,例如時間序列領域中的 DTW 距離就不滿足三角不等式。

在微積分中,凸函式(convex 函式) 指的是在其定義域內的任意兩個點 滿足 換言之,如果凸函式 存在二階連續導數,那麼 是增函式,

其次,在統計距離中,通常會基於乙個函式 來定義兩個概率分布之間的距離。該函式 是乙個凸函式(convex function),並且滿足 對於空間 中的兩個概率分布 和 而言,

定義了概率分布 和 的 散度(f-divergence),其中 分別對應了 的概率密度函式。不同的函式 對應了不同的散度,常見的散度包括但不限於:

KL - 散度(KL - Divergence):

Reverse KL -散度(Reverse KL - Divergence):

Hellinger 距離(Hellinger Distance):或者

變分距離(Total Variation Distance):

Pearson - 散度(Pearson - Divergence): 或者 或者

Reverse Pearson - 散度(Reverse Pearson - Divergence):或者

Jensen-Shannon-Divergence:

L1 - 範數(L1 - Norm):

在這樣的定義下, 是非負函式,i.e. 事實上,

在數學中有如下定理:如果 是凸函式,那麼 在定義域 0\}" eeimg="1"/>也是凸函式。

根據以上定理,可以得到:對於 有

除了 散度之外,直接使用 範數也可以定義兩個概率空間的距離,特別地,當 時,其距離公式是:

統計距離的函式分析

事實上,對於 KL 散度和 Reverse KL 散度而言,令

這就是函式 分別對應著 KL-散度和 Reverse KL-散度相應函式的原因。

類似地,對於函式 和 而言,可以直接證明得到:

對於 Jensen-Shannon Divergence(簡寫為 JSD)而言,

其中 i.e.

對於 Hellinger Distance 而言, 其實這兩個函式是等價的,因為

其中 被稱為 Bhattacharyya 係數(Bhattacharyya Coefficient),Bhattacharyya 距離則定義為

統計距離的上下界分析

對於以上函式而言,由於凸函式 因此當 時,

KL 散度是沒有上界的,但是 Jensen Shannon Divergence 是具有上界的。事實上,如果 則有

同樣地, 所以可以得到

根據 Hellinger 距離的公式,可以得到: 同時,Bhattacharyya 距離 是沒有上界的,因為 可以取值到零。

考慮 範數中 三種情況:

並且上界 2 是可以取到的。

證明以上不等式使用了性質

多重集合的定義與性質

在數學中,集合(set)中不能夠包含重複的元素,但乙個多重集合(multiset)中則可以包含重複的元素,並且計算了元素的重數。例如,

當 時, 可以看成集合,也可以看成重數為 1 的多重集合,可以記為 或者

在多重集合 中,的重數是 2, 的重數是 1,可以記為 或者

在多重集合 中,的重數都是 3。

對於乙個有限集合 而言,其多重集合可以記為 或者 其中 表示元素 的重數。多重集合的乙個典型例子就是質因數分解,例如:

假設多重集合 的元素都屬於集合

子集:如果對於所有的 有 則稱多重集合 是多重集合 的子集;

交集:如果 則稱多重集合 是多重集合 的交集,記為

並集:如果 則稱多重集合 是多重集合 的並集,記為

求和:如果 則稱多重集合 是多重集合 的和,記為

求差:如果 則稱多重集合 是多重集合 的差,記為

假設 那麼

多重集合的相似度和距離

由於已經定義了多重集合的交集和並集,因此集合相似度中的 Jaccard 相似度,Overlap 相似度都可以應用到多重集合中。

對於多重集合 而言,令 因此,多重集合 對應了乙個離散的概率分布 於是,可以使用以上的統計距離(Statistical Distance)來計算兩個多重集合之間的距離。

統計距離:https://

:包括了 KL 散度的其餘變形方式。

多重集合:multiset:https://en.wikipedia.org/wiki/M

2樓:

機器之心:初學機器學習:直觀解讀KL散度的數學概念上例中,計算KL散度,發現均勻分布比二項分布,更能代表想要向地球人表達的真實分布。但這個指標是否有價值,值得商榷

Jensen–Shannon divergenceJS散度是對稱的,取值0到1

3樓:小透明

我在Blog上闡述過這個問題

4樓:

KL散度顯然並不滿足數學上的距離的定義,但是大致可以認為是一種對概率分布間距離的度量,特別是當兩個分布的差異很小的時候,是可以看作乙個非常區域性的分布間的距離的。

其實這個可以模擬球面上點之間的歐氏距離,或者是影象之間的基於畫素差異的距離,他們在點之間的差異很小的時候,其實都是比較合適的相應空間的點的距離的定義,但是當點之間的差異增大的時候,距離特性被削弱了,但是定性的,還是可以理解為距離。

至於編碼長度,本來熵就是平均單訊號的信源編碼長度啊。

在平面上隨機漫步的兩個醉漢相遇的概率是多少?

兩個的隨機遊走相遇可以看成乙個相對另乙個隨機遊走,題目可以簡化成乙個點隨意遊走經過固定點的概率。有限大的醉漢 網格上的點在二維上都是常返的,即一定會相遇 見Polya Walk 不過如果考慮網格情況出發點位置的曼哈頓距離一定要是偶數,如果僅僅是維納過程那就基本和單粒子隨機遊走是一回事。另外相遇與否和...

如何證明兩個正態分佈的密度函式相乘還是乙個正態分佈的密度函式?

易夕 這個問題很容易啊,正態分佈的PDF表示式都是已知的,簡單推導一下就知道了啊。兩個正態分佈的概率密度函式 PDF 分別為 二者相乘得到 可以看到,可以看成乙個正態分佈 的PDF乘以縮放因子 的結果。其中,縮放因子 正態分佈的均值 正態分佈的方差 用MATLAB驗證一下。首先,分別計算 和 的PD...

如果 M 個點在球面上均勻分布,那麼兩個相鄰的點與球心的夾角是多少?

wzd 什麼叫均勻分布,這是模糊的?一條封閉曲線上點可均勻分布,就是一條長10的線段上均勻分布10個點都是不確定的,在乙個九宮格內均勻的放9個點都是不確定的,更何況8個點如何在九宮格內均勻分布?球面上4個點均勻分布是正方形還是正四面體?如果你說正四面體,那6個是正八面體,那9個點又是什麼呢?若均勻是...