強化學習內動態規劃中的算例求解?

時間 2021-06-02 01:01:17

1樓:孫棟

你好,我覺得這裡就是要通過策略迭代(policy iteration)求解乙個最優的策略(policy), 這個過程被分解成策略評估(policy evaluation)和策略提公升(policy improvement)兩個環節, 分別就是圖里的左欄和右欄.

一般來講這兩個過程是個迴圈迭代的過程,t時刻通過策略提公升得到的新策略會作為t+1時刻要評估的策略,這裡看起來並沒有這樣做,左欄應該一直是隨機策略,右邊應該是在greedy的改進這個隨機策略,並在第三次就達到最優解.

我不太明白「第三次迭代右邊的6 9 格仔」是什麼意思.. 但是得到策略提公升裡得到新策略的方法應該是這樣的:

這裡k=3的時候括號裡的值都在左欄顯示了, 所以比如第二行第二列的greedy策略就是到這個格仔附近value最高的格仔去,即向上或者向左.

然後比如k=3左圖 V((2,2)) = -2.9是根據k=2左邊的圖來的,用下面這個公式:

離開這個state的reward都是-1,discount是1,隨機策略 -- T都是0.25.

V((2,2)) = -1 + 0.25 * (-2-2-1.7-1.7)= -2.85.

我也一直在學習RL,有什麼不對的地方還請指正 :)

圖來自 Reinforcement Learning: A Survey

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

請問大家對深度強化學習中的Data Efficiency有什麼獨到理解或者提公升建議?

關於RL中的sample efficiency問題,Shane Gu過去幾年做了很多相關工作。這是去年他的乙個talk Deep Reinforcement Learning for Robotics Frontiers and Beyond 中的一頁slides,我覺得解釋得比較清楚。白色區域是對...

能否從演算法原理的角度解釋,為什麼強化學習演算法中,Q learning演算法比Sarsa演算法冒險 激進?

質心 從直觀上來說一下吧,這裡使用莫煩 Python 教程中的例子,初始狀態在左上角,目標獎勵在黃色區域,黑色區域為懲罰。Q learning的探索較為激進,Sarsa的探索較為保守。兩者的action策略都是e greedy,那麼差異就出在的Qtable Sarsatable 的更新策略上。在靠近...