什麼是逆強化學習？

1樓：梵笙

The main idea of inverse reinforcement learning is to learn the reward function based on the agent's decisions, and then find the optimal policy using reinforcement learning techniques.

2樓：追逐

什麼是逆向強化學習呢？當完成複雜的任務時，強化學習的回報函式很難指定，我們希望有一種方法找到一種高效可靠的回報函式，這種方法就是逆向強化學習。我們假設專家在完成某項任務時，其決策往往是最優的或接近最優的，當所有的策略產生的累積匯報函式期望都不比專家策略產生的累積回報期望大時，強化學習所對應的回報函式就是根據示例學到的回報函式。

即逆向強化學習就是從專家示例中學習回報函式。當需要基於最優序列樣本學習策略時，我們可以結合逆向強化學習和強化學習共同提高回報函式的精確度和策略的效果。

3樓：[已重置]

舉個例子， RL是讓你去學習畫出乙個區域的地形然後找各個點之間的最優路徑，IRL是告訴你某條或某幾條路是不同點之間的最優路徑，你來設計乙個地形保證這些路是最優路徑。

4樓：

注意區分inverse reinforcement learning和model-based reinforcement learning。可以分開查閱然後對比，我一知半解的就不瞎解釋了。

什麼是逆強化學習？

哪些問題不能用強化學習解決？強化學習有哪些侷限性？

強化學習和傳統的控制有什麼異同點，做強化學習有必要去了解一些傳統控制相關理論的哪些方面呢

有研究強化學習（Reinforcement Learning）的不，強化學習的研究價值和應用前景如何？

其他用戶還看了：