強化學習內動態規劃中的算例求解？

1樓：孫棟

你好,我覺得這裡就是要通過策略迭代(policy iteration)求解乙個最優的策略(policy), 這個過程被分解成策略評估(policy evaluation)和策略提公升(policy improvement)兩個環節, 分別就是圖里的左欄和右欄.

一般來講這兩個過程是個迴圈迭代的過程，t時刻通過策略提公升得到的新策略會作為t+1時刻要評估的策略,這裡看起來並沒有這樣做,左欄應該一直是隨機策略,右邊應該是在greedy的改進這個隨機策略,並在第三次就達到最優解.

我不太明白「第三次迭代右邊的6 9 格仔」是什麼意思.. 但是得到策略提公升裡得到新策略的方法應該是這樣的：

這裡k=3的時候括號裡的值都在左欄顯示了, 所以比如第二行第二列的greedy策略就是到這個格仔附近value最高的格仔去，即向上或者向左.

然後比如k=3左圖 V((2,2)) = -2.9是根據k=2左邊的圖來的，用下面這個公式：

離開這個state的reward都是-1，discount是1，隨機策略 -- T都是0.25.

V((2,2)) = -1 + 0.25 * （-2-2-1.7-1.7）= -2.85.

我也一直在學習RL，有什麼不對的地方還請指正 :)

圖來自 Reinforcement Learning: A Survey