變分自編碼為何迫使p z x 等於標準正態分佈？就是約束項中的kl散度？

1樓：MANTIC

k-L 散度衡量的是兩個函式之間的距離，這個距離指的是相似度，之所以設定標準正態分佈無非是設定為正態分佈比較好取值，模型能夠得到簡化，你設定成別的正態分佈也可以。

2樓：

接 @李斌的回答，猜測下除了保證方差為1，為什麼要均值為0？

正文：僅猜測，其實就是為了共享引數。

VAE的本質是，對於乙個樣本X^(i)，encode提取出對應的Z^(i)，相當於資料壓縮。

假設訓練集只有乙個樣本X^(1)，對應乙個Z^(1)，那麼Z的經驗分布p(z)和encoder的分布q(z|x)就可以是N（u^(1)|1），就是均值為u^(1)，方差為1的正態分佈。

但是如果訓練集有多個樣本X^(i), i = 1, 2, ...n，那麼就會有多個u^(i)。u^(i)互不相同，則表示模型本身就不相同。

那就意味著要設計並訓練n個模型，也就是n個encoder，這樣成本太高了。（注：這裡的u^(i)是模型引數，不是實際的取樣結果）

所以為了保證所有樣本對應的模型相同，也就是只使用乙個模型對所有樣本進行encode，那就需要共享引數，對齊u^(i)，也就是假設u^(i) = u_0，就是都等於某個值，這樣乙個encoder才能對所有的樣本都通用。

之所以等於0，是因為先假設了方差為1，則均值統一為0，意味著得到標準正態，模型能得到簡化。

至於為什麼一定程度上能簡化模型？參閱[1]中的公式(6)、(7)。

[1] Doersch C. Tutorial on variational autoencoders[J]. arXiv preprint arXiv:

1606.05908, 2016.

3樓：ALme

因為設定z的先驗是標準正態，便需要在訓練過程中與之聯絡.換句話說，最後用vae生成樣本時,用的是標準正態分佈對z隨機取樣，然後將z送入decoder得到樣本.如果我們把用於最後取樣的分布換成另外乙個分布，那麼loss中的中的p(z)也會隨之改變。

既然從先驗分布中取樣z送入decoder得到樣本，而且根據貝葉斯rule寫出的z的後驗分布表示式的分母中有z的先驗分布項p(z),所以z的後驗分布與z的先驗分布總體上是接近的，所以loss中在訓練的變分分布時需要拉近這兩個分布的距離.若loss中沒有這一項，那麼從先驗分布取樣的操作和訓練變分後驗分布的過程完全無關，則訓練出的近似後驗分布和給定的先驗分布失去了聯絡，天差萬別，怎麼保證最後生成的樣本是接近真實的樣本？loss有了這一項之後，才能確保逼近的分布是z的後驗分布，而不是完全無關的乙個分布。

綜上，這本身沒有什麼理由，完全是先驗是標準正態分佈導致的，採用標準正態分佈只不過是因為取樣比較方便，完全可以換成其他的乙個分布。

以上只是直觀的理解，若把變分推斷的ELBO的推導完全看一遍，相信可以有更深刻的理解.

4樓：

拋磚引玉答乙個。如果沒有這一約束，隨著訓練進行，模型會傾向於令變得很小，此時，從分布中進行取樣，基本上等同於直接把取出來。

顯然，讓乙個重建樣本看上去是真的，要比讓乙個分布裡面的所有重建樣本看上去像是真的，容易的多。這個時候，變分自編碼器就退化成了普通自編碼器。

KL Loss起的作用實際上是把這個過程往回拉。

變分自編碼為何迫使p z x 等於標準正態分佈？就是約束項中的kl散度？

變分自編碼器的重建損失為什麼有人用交叉熵損失有人用平方差

受限制玻爾茲曼機 RBM 以及自編碼器 Autoencoder

怎麼分變愛情與親情？

其他用戶還看了：

變分自編碼為何迫使p z x 等於標準正態分佈？就是約束項中的kl散度？

變分自編碼器的重建損失為什麼有人用交叉熵損失 有人用平方差

受限制玻爾茲曼機 RBM 以及自編碼器 Autoencoder

怎麼分變愛情與親情？

其他用戶還看了：

變分自編碼器的重建損失為什麼有人用交叉熵損失有人用平方差