強化學習值迭代收斂性怎麼證明（就是最優貝爾曼方程）？

1樓：小小何先生

在開始證明之前，我想說的是定理是證明給懷疑者，如果你對這個定理不懷疑，那麼你就不需要證明。接下來直觀感受一下強化學習中值迭代的收斂性。

假設現在的Agent處於乙個state

下，想要去找乙個optimal state，那怎麼去找呢？就是遍歷所有的policy能夠使得當前的state

，在遍歷的某個policy

下值最大，也就找到了這個state所對應的最大value，用數學語言描述如下：

不用去懷疑，你一定能找到這樣的乙個最大的state value，因為你遍歷了所有的policy。那能夠使得state value最大的那個policy

就是optimal policy

，即。那此時貝爾曼方程就是乙個完全收斂的情況，可表示為：

如果不收斂，那它(value)肯定還沒有到達optimal variable。上述等式在收斂的情況下就會成立，而不僅僅是乙個賦值的關係。

觀察上述式子，optimal policy是什麼？也即每次是如何take action的呢？也就是等式的右端項：

那隨便給乙個狀態，我們每次都按照optimal policy去take action，那每次state value都會大於等於之前非最優的policy所得出來的state value吧：

也就是說每次都按照optimal policy去take action，state value其實都會有所改進(或者至少不會比以前的差)。那真實的state value總有乙個上界吧，總會收斂吧。

再來看看值迭代value iteration ，其實就是不斷地去套bellman equation，就變成了對於每乙個state去計算。

這裡是沒有策略的，整個方程就是在表達，policy在take action的時候，就是在take

，那在值迭代裡面，它自己去維護這樣乙個value function就可以了。policy只要使得後面上述等式後面那個max成立就可以了。

哪些問題不能用強化學習解決？強化學習有哪些侷限性？

shenghuo 強化學習是一種無模型的動態規劃問題，應用的特點是環境因智慧型體的動作而發生變化，獲取的資料沒有標籤，獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法已知模型轉移概率和獎勵模型難以奏效，因此需要採用通過不斷與環境互動，獲取 s,a,r,s 資料組，並通過學習或手工設定獎勵函式...

有研究強化學習（Reinforcement Learning）的不，強化學習的研究價值和應用前景如何？

劉景初 Short Answer 至少得了解一下，但全情投入需謹慎。Long Answer 之所以建議有基本了解，是因為強化學習涉及人工智慧的根本性問題，想要從事機器學習相關的專業研究，就算只是為了培養基本的intuition也不能對這個領域一無所知。謹慎的原因是強化學習的潛力是有層次的基礎理論已...

什麼是逆強化學習？

梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...

強化學習值迭代收斂性怎麼證明（就是最優貝爾曼方程）？

哪些問題不能用強化學習解決？強化學習有哪些侷限性？

有研究強化學習（Reinforcement Learning）的不，強化學習的研究價值和應用前景如何？

什麼是逆強化學習？

其他用戶還看了：