神經網路中的能量函式是如何定義的？

1樓：

雖說這模型有從物理跟生物的啟發, 但往這方向說到底, 也只是提到跟某公式很像罷了, 還是不知道如此定義的原因及作用

知識點: 資訊理論, 線性內積空間

機率及能量(同時是訊息量)函式定義成那樣的原因是, 如此才能使得所有狀態的訊息量都嵌進乙個線性內積空間裡, 因為線性實在是太好用, 即便最困難的非線性狀態變換, 在新空間中也就化為矩陣相乘, 衡量相似度變成很單純的內積, 使得不少東西都想嵌進線性內積空間, 例如

1. Word2Vec的原理是把字詞嵌入到乙個線性內積空間

2. 更早前的SVM也是把非線性嵌入到乙個線性內積空間

RBM自然也不能免俗

從資訊理論來看, 計算資訊量的公式為 I(x,y) = -log(p(x,y)) , 所以機率 p(x,y) = exp(-E(x,y)) 的資訊量就正好是能量函式 E(x,y), 線性即是 E(x1 + x2, y) = E(x1, y) + E(x2, y). 換句話說x1, x2兩個狀態同時存在的總訊息量等同兩各別訊息量相加, 並構成訊息量的線性空間.

只有以那樣的方式來定義機率, 資訊量才有可能嵌進線性內積空間

證明: E(x1 + x2, y) = -(x1 + x2)Wy = - x1 W y - x2 W y = E(x1, y) + E(x2, y)

此性質不只對x成立, 對 y 也成立, 進而對 (x W) 跟 (W y)也成立

有了"線性"這個利器之後, 變換才能化為矩陣相乘, 定義內積, 資訊量函式 E(x,y | W) = -xWy 即用來定義乙個W為引數的線性內積空間的內積 = -E(x,y | W) = , 內積的作用粗略地說就是衡量兩狀態向量的相似度, 兩個不同空間的狀態向量, 透過線性變換W變換到對方的空間, 若越是相似則越能互相代表, 而訓練的目標就是以抽樣來找到內積中的待定引數 W, 使得前述互相代表的機率最大化

2樓：

在計算機領域裡很多源自物理上的概念，都會有些打破規則。對於能量函式而言，這個函式無非是要描述整個系統的優化成度。原則上我們可以定義任乙個滿足我們需要的函式，但指數形式的有很多好處，比如有下界，連續可導等等。

3樓：

受限玻爾茲曼機中的能量函式是受統計熱力學的啟發，是借鑑了統計熱力學中的乙個函式改過來用的。學科之間的關係往往很奇妙，學科是相同的，但都是基於物理世界的原理的，不是嗎？看看下面這個公式，是不是和RBM中的能量函式很像？

沒錯，這個公式的意思是當系統和它周圍的狀態處於熱平衡時，乙個基本事件i發生的概率。所以RBM中能量函式是有根據的，不是隨便寫的。

神經網路中的能量函式是如何定義的？

神經網路如何猜出函式？

神經網路中的SIGMOID函式的意義？

神經網路中Belief Net和標準的神經網路有什麼區別？

其他用戶還看了：