如何理解強化學習中的episode這一概念?

時間 2021-05-06 15:53:30

1樓:布客飛龍

強化學習裡的關卡和你玩遊戲一樣,就是指智慧型體開始玩遊戲到通關或者 game over 的時過程。

另外對於電視劇集,episode 就是劇集,代表一集連續劇。你們看到的 s01e01 那個 e 就是 episode。

2樓:Peng Cheng

沒有不同,把所有延遲獎勵收集到就達成乙個episode遊戲打完一盤分出勝負算乙個

長途自行車賽騎完一天睡覺算乙個(如果早上起來滿血)像我們這樣不分晝夜用功調參,到死都拿不到乙個episode:)

3樓:未一

如樓上給的英文解釋…預設的「episode」是增強學習agent在環境裡面執行某個策略從開始到結束這一過程。

在增強學習文章裡面,還沒看到過有別的含義的「episode」。

p.s 有的增強學習演算法如TRPO是用整個episode的資料一起拿來訓練的,有的演算法如DDPG則是agent的每步step的資料都可以訓練。

4樓:

An episode is one complete play of the agent interacting with the environment in the general RL setting.

Episodic tasks in RL means that the game of trying to solve the task ends at a terminal stage or after some amount of time.

Two examples:

1. Robotic arm reaches its goal position (termination = good)

2. Your game agent dies of hitting the enemy (termination = bad)

強化學習中的reward function為什麼要取期望?

首先明確三個不同的概念 reward,return 和 value。Reward的定義為 每個狀態下執行action後立即 從系統以外的環境 獲得的評價性響應,必須直接對應RL學習的最終目標。Return的定義為 累積的未來reward。式中含有衰減係數 Value的定義為 從狀態 開始,一直遵循p...

如何理解強化學習的可解釋性?

金洺 之前看過幾篇工作是關於模擬agent在執行策略的時候比較關注什麼state,從而理解agent的行為,類似於影象檢測時 以上方法稱為Perturbation based saliency method,主要就是 在已訓練好的模型上計算不同 state 的重要程度,以 saliency map ...

強化學習中,model based 方法與 model free 方法各有哪些優缺點?

躺平之王 以下個人觀點。優缺點1.mf.higher asymtotic performance 漸進性能 lower sample efficiency 2.mb.higher sample efficiency,lower asymtotic performance.造成這樣優缺點的原因是 2....