1樓:小小何先生
在開始證明之前,我想說的是定理是證明給懷疑者,如果你對這個定理不懷疑,那麼你就不需要證明。接下來直觀感受一下強化學習中值迭代的收斂性。
假設現在的Agent處於乙個state
下,想要去找乙個optimal state,那怎麼去找呢?就是遍歷所有的policy能夠使得當前的state
,在遍歷的某個policy
下值最大,也就找到了這個state所對應的最大value,用數學語言描述如下:
不用去懷疑,你一定能找到這樣的乙個最大的state value,因為你遍歷了所有的policy。那能夠使得state value最大的那個policy
就是optimal policy
,即。那此時貝爾曼方程就是乙個完全收斂的情況,可表示為:
如果不收斂,那它(value)肯定還沒有到達optimal variable。上述等式在收斂的情況下就會成立,而不僅僅是乙個賦值的關係。
觀察上述式子,optimal policy是什麼?也即每次是如何take action的呢?也就是等式的右端項:
那隨便給乙個狀態,我們每次都按照optimal policy去take action,那每次state value都會大於等於之前非最優的policy所得出來的state value吧:
也就是說每次都按照optimal policy去take action,state value其實都會有所改進(或者至少不會比以前的差)。那真實的state value總有乙個上界吧,總會收斂吧。
再來看看值迭代value iteration ,其實就是不斷地去套bellman equation,就變成了對於每乙個state去計算。
這裡是沒有策略的,整個方程就是在表達,policy在take action的時候,就是在take
,那在值迭代裡面,它自己去維護這樣乙個value function就可以了。policy只要使得後面上述等式後面那個max成立就可以了。
哪些問題不能用強化學習解決?強化學習有哪些侷限性?
shenghuo 強化學習是一種無模型的動態規劃問題,應用的特點是環境因智慧型體的動作而發生變化,獲取的資料沒有標籤,獎勵延遲且稀疏。這導致傳統的基於模型的動態規劃演算法 已知模型轉移概率和獎勵模型 難以奏效,因此需要採用通過不斷與環境互動,獲取 s,a,r,s 資料組,並通過學習或手工設定獎勵函式...
有研究強化學習(Reinforcement Learning)的不,強化學習的研究價值和應用前景如何?
劉景初 Short Answer 至少得了解一下,但全情投入需謹慎。Long Answer 之所以建議有基本了解,是因為強化學習涉及人工智慧的根本性問題,想要從事機器學習相關的專業研究,就算只是為了培養基本的intuition也不能對這個領域一無所知。謹慎的原因是強化學習的潛力是有層次的 基礎理論已...
什麼是逆強化學習?
梵笙 The main idea of inverse reinforcement learning is to learn the reward function based on the agent s decisions,and then find the optimal policy usi...