如何嚴格證明softmax分布的熵隨溫度係數的公升高而增大?

時間 2021-05-29 23:16:59

1樓:胡一鳴

考慮具有 個能級的系統,其玻爾茲曼分布的配分函式(作為玻爾茲曼分布的歸一化係數)為

其中 是玻爾茲曼常數, 是溫度, 是能級。則熵可以寫為(容易驗證)其中 是不同能級出現的概率,也就是玻爾茲曼分布的分布列,也就是不同的值所對應的softmax的函式值。用熵對溫度求導

現在就來計算這個二階導數。

等號成立當且僅當能量 分布的方差 ,也就是所有能量都相等。從而證畢。分割線

事實上,根據內能的定義有從而

與 是同號的。

所以如果內能隨溫度上公升而上公升的話,那麼熵也是隨著溫度的上公升而上公升的。

那麼眾所周知,內能一般來說確實是隨著溫度的上公升而上公升的。

2樓:採石工

先列出softmax函式的定義:

以及softmax函式的熵的公式:

,其中 0" eeimg="1"/>, 其是溫度係數的倒數. 欲證明softmax函式的熵隨溫度係數的公升高而增大, 即證明softmax函式的熵隨著 的增大而減少, 即證明 是關於 的減函式. 於是下面計算 關於 的導數.

在此之前先引入一些結論:

, 其中 為全1矩陣.

它們的推導詳見

所以於是

因為 ,

另外為了簡化推導, 不妨記

所以.可以證明: , 所以

.下面的思路: 只要能證明 是正定矩陣 (這時是關於 的凹函式), 且 的最大值小於0, 就能證明 ( 即是關於 的減函式).

1) 欲證是正定矩陣, 即證 是正定矩陣.

上式中的

令 和 ,所以

根據 Cauchy-Schwarz不等式可得 , 所以

是半正定矩陣, 於是 是半正定矩陣 (與預期的略有不同, 期望證明 是正定矩陣).

2) 因為是半正定矩陣, 所以有最大值, 下面求這個最大值., 令該式等於0可得 , 將其代入 , 可得 , 即的最大值等於0 (與預期的也略有不同, 期望證明的最大值小於0).

綜上: . 即一般情況下, softmax函式的熵隨著 的增大而減少 (或者說隨著溫度係數的增大而增大), 但某些情況下 (即 )時softmax函式的熵隨著 的增大而保持不變 (或者說隨著溫度係數的增大而保持不變).

20201220 建立回答

PS: 這個結論從10月份開始證明, 斷斷續續到今天才告一段落, 請大家指正!

PPS: 由上面的推導可見, 從理論上存在softmax函式的熵隨著溫度係數的增大而保持不變的可能性, 不知道在現實中是否有這種可能性.

3樓:靈劍

softmax在熱力學上就是玻爾茲曼分布,p_m~exp(-ε_m/kT),後面也使用這一形式。現在你想要證明熵隨著T的增大而增大。

設P_m = exp(-ε_m /kT),則p_m = P_m / Σ P_l,根據熵的定義

S = -Σp_l ln p_l

= -((ΣP_l ln P_l) + (ΣP_l) ln (ΣP_l)) / ΣP_l

= -(ΣP_l ln P_l) / ΣP_l + ln ΣP_l

運用鏈式法則對1/T求導,先求關於P_m的偏導數(手機用d代替偏導數符號):

d S/ d P_m

= -((ln P_m + 1)ΣP_l - ΣP_l ln P_l)/(ΣP_l)^2 + 1/ΣP_l

= -(ln P_mΣP_l - ΣP_l ln P_l)/(ΣP_l)^2

= -ln P_m / ΣP_l + ΣP_l ln P_l/(ΣP_l)^2

再求P_m對1/T的導數

dP_m / d(1/T) = P_m ln P_m / (1/T)

所以利用鏈式法則

dS / d(1/T) = T((ΣP_l ln P_l)^2 - (ΣP_l)(ΣP_l ln^2P_l))/(ΣP_l)^2

注意到分母是個完全平方數,T是個正數(熱力學溫度恆正),P_l是指數函式也是正數,因此分子的部分可以運用柯西不等式:

(ΣP_l)(ΣP_l ln^2P_l)

= (Σ (√P_l)^2)(Σ ((√P_l) ln P_l)^2)

≥(Σ P_l ln P_l)^2

因此dS / d(1/T) ≤ 0,取等號的條件是所有P_k都相等。所以S關於1/T單調遞減,也就關於T單調遞增了,如果ε_m不全相等,S是嚴格遞增。

4樓:言則

softmax(x/t) 假設t為1e10 倍由於每個數都被拉倒0附近,e的零次為1 所以也就產生了平均分布 ,熵增大。

請問,對稱性如何嚴格證明

beanandbean 對稱性是初中平面幾何中的幾何對稱。圖形沿一條或多條直線翻摺,被這條直線分成的兩部分可以重合,那麼這個圖形是對稱圖形,這些直線是對稱軸。這句話已經可以算是比較精準的描述了,若要更加精確,那麼我們就先要在給定一條直線 作為對稱軸的情況下,對於平面上的每一點 定義其對稱點 為滿足直...

如何證明泊松分布的間隔時間符合指數分布?

故障次數服從泊松分布 如果 的單位是小時,那 的意義就是每小時故障的平均次數。需要注意的是,通過泊松分布只能知道乙個時間段內事件發生的概率,不能知道具體某乙個時刻事件發生的概率,如果在乙個具體的時刻,相當於時間段 因此在乙個具體時刻,故障發生的概率為零。設在某一時刻 發生了第一次故障,則在時間 內沒...

softmax如何作用與多標籤分類?

Jinghao Zhou 話說最近有很多任務作比如circle loss DR loss顯式或隱式地從metric learning做ranking的角度來推廣softmax函式,這種理解最早在N pair loss lifted structued loss出現為 其中第三個連等參考運用了對 和 ...