神經網路中的能量函式是如何定義的?

時間 2021-05-30 04:54:29

1樓:

雖說這模型有從物理跟生物的啟發, 但往這方向說到底, 也只是提到跟某公式很像罷了, 還是不知道如此定義的原因及作用

知識點: 資訊理論, 線性內積空間

機率及能量(同時是訊息量)函式定義成那樣的原因是, 如此才能使得所有狀態的訊息量都嵌進乙個線性內積空間裡, 因為線性實在是太好用, 即便最困難的非線性狀態變換, 在新空間中也就化為矩陣相乘, 衡量相似度變成很單純的內積, 使得不少東西都想嵌進線性內積空間, 例如

1. Word2Vec的原理是把字詞嵌入到乙個線性內積空間

2. 更早前的SVM也是把非線性嵌入到乙個線性內積空間

RBM自然也不能免俗

從資訊理論來看, 計算資訊量的公式為 I(x,y) = -log(p(x,y)) , 所以機率 p(x,y) = exp(-E(x,y)) 的資訊量就正好是能量函式 E(x,y), 線性即是 E(x1 + x2, y) = E(x1, y) + E(x2, y). 換句話說x1, x2兩個狀態同時存在的總訊息量等同兩各別訊息量相加, 並構成訊息量的線性空間.

只有以那樣的方式來定義機率, 資訊量才有可能嵌進線性內積空間

證明: E(x1 + x2, y) = -(x1 + x2)Wy = - x1 W y - x2 W y = E(x1, y) + E(x2, y)

此性質不只對x成立, 對 y 也成立, 進而對 (x W) 跟 (W y)也成立

有了"線性"這個利器之後, 變換才能化為矩陣相乘, 定義內積, 資訊量函式 E(x,y | W) = -xWy 即用來定義乙個W為引數的線性內積空間的內積 = -E(x,y | W) = , 內積的作用粗略地說就是衡量兩狀態向量的相似度, 兩個不同空間的狀態向量, 透過線性變換W變換到對方的空間, 若越是相似則越能互相代表, 而訓練的目標就是以抽樣來找到內積中的待定引數 W, 使得前述互相代表的機率最大化

2樓:

在計算機領域裡很多源自物理上的概念,都會有些打破規則。對於能量函式而言,這個函式無非是要描述整個系統的優化成度。原則上我們可以定義任乙個滿足我們需要的函式,但指數形式的有很多好處,比如有下界,連續可導等等。

3樓:

受限玻爾茲曼機中的能量函式是受統計熱力學的啟發,是借鑑了統計熱力學中的乙個函式改過來用的。學科之間的關係往往很奇妙,學科是相同的,但都是基於物理世界的原理的,不是嗎?看看下面這個公式,是不是和RBM中的能量函式很像?

沒錯,這個公式的意思是當系統和它周圍的狀態處於熱平衡時,乙個基本事件i發生的概率。所以RBM中能量函式是有根據的,不是隨便寫的。

神經網路如何猜出函式?

雨落晨曦 Hum.是這樣的。要猜出函式乙個比較常用的方式是非引數估計,比如核密度演算法等等 猜 出乙個足夠接近原函式的函式。至於你說的神經網路,由於神經網路 一致收斂性 也就是可以在二階擬合任意二維函式的性質,可以擬合函式數值,然後用SVD等等降維方法降維到一定的特徵閾值,此時的神經網路與原函式性質...

神經網路中的SIGMOID函式的意義?

胡免 根據最大熵模型得來。具體推導可以看 統計學習方法 83 85頁。參考 https blog.csdn.net zynash2 article details 79261039 張揚 舉個例子 有個唱歌比賽,評委們有些是歌手的親戚,有些是歌手的仇人。遇到親人,狂打高分 遇到仇人,狂打低分。咋辦?...

神經網路中Belief Net和標準的神經網路有什麼區別?

金天 這個已經深埋地下的問題今天在下挖出來回答一番,拂去歲月的塵埃這個問題還是值得一答,也值得大家一讚.我的思考 1.DBN本質是RBM一層層的堆疊,那麼問題在於RBM與標準傳統簡單的神經網路有毛線區別呢?我們知道RBM可見層與隱藏層之間是全連線的,而hidden和hidden之間是沒有連線的,這個...