強化學習值迭代收斂性怎麼證明(就是最優貝爾曼方程)?

時間 2021-07-10 14:07:07

1樓:小小何先生

在開始證明之前,我想說的是定理是證明給懷疑者,如果你對這個定理不懷疑,那麼你就不需要證明。接下來直觀感受一下強化學習中值迭代的收斂性。

假設現在的Agent處於乙個state

下,想要去找乙個optimal state,那怎麼去找呢?就是遍歷所有的policy能夠使得當前的state

,在遍歷的某個policy

下值最大,也就找到了這個state所對應的最大value,用數學語言描述如下:

不用去懷疑,你一定能找到這樣的乙個最大的state value,因為你遍歷了所有的policy。那能夠使得state value最大的那個policy

就是optimal policy

,即。那此時貝爾曼方程就是乙個完全收斂的情況,可表示為:

如果不收斂,那它(value)肯定還沒有到達optimal variable。上述等式在收斂的情況下就會成立,而不僅僅是乙個賦值的關係。

觀察上述式子,optimal policy是什麼?也即每次是如何take action的呢?也就是等式的右端項:

那隨便給乙個狀態,我們每次都按照optimal policy去take action,那每次state value都會大於等於之前非最優的policy所得出來的state value吧:

也就是說每次都按照optimal policy去take action,state value其實都會有所改進(或者至少不會比以前的差)。那真實的state value總有乙個上界吧,總會收斂吧。

再來看看值迭代value iteration ,其實就是不斷地去套bellman equation,就變成了對於每乙個state去計算。

這裡是沒有策略的,整個方程就是在表達,policy在take action的時候,就是在take

,那在值迭代裡面,它自己去維護這樣乙個value function就可以了。policy只要使得後面上述等式後面那個max成立就可以了。

哪些問題不能用強化學習解決?強化學習有哪些侷限性?

shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...

有研究強化學習(Reinforcement Learning)的不,強化學習的研究價值和應用前景如何?

劉景初 Short Answer 至少得了解一下,但全情投入需謹慎。Long Answer 之所以建議有基本了解,是因為強化學習涉及人工智慧的根本性問題,想要從事機器學習相關的專業研究,就算只是為了培養基本的intuition也不能對這個領域一無所知。謹慎的原因是強化學習的潛力是有層次的 基礎理論已...

什麼是逆強化學習?

梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...