Markov Decision Process 為什麼用到discount factor

時間 2021-12-26 04:27:41

1樓:蒼溪

引入折扣因子是為了讓價值函式V(s)或者動態價值函式Q(s,a)在Infinite Horizon環境(沒有終止狀態的環境)下有界。實際上,對於Finite Horizon環境(環境到了指定步長後結束回合),也可以不用折扣因子。

如果沒有折扣因子 很有可能是無窮大的。如果是Return是無窮大的,就難以定量研究價值函式V(s)或者動態價值函式Q(s,a)。

引入折扣因子後, 則變得有界(只要每一步的R是有界的)。

舉個例子,R=1情況下:

引入折扣因子時,

沒有折扣因子時,

2樓:

我覺得這個折現因子,除了有經濟學上的解釋之外,還可能是對人類心理的借鑑。

心理學上有個詞叫」延遲滿足「,說的是人們有甘願為長遠收益而放棄眼前利益的抉擇傾向,對」延遲滿足「現象的檢測多用來評判兒童的智育水平,而強化學習本來就是從心理學上發展下來的概念,自然脫不了關係。

3樓:gwave

有多個原因:最簡單的回答是經濟學的淨現值概念,明年的一萬元的價值上肯定少於今天的一萬元,未來的價值都要折算為當前價值,才能統一測度;第二個原因是數學上的收斂性,如果折扣因子等於1,對於無限horizon的case來說:總回報無窮大,不好處理啊。

還有不少其他次要一點的原因。

有沒有什麼用到作文裡很扎眼的詞語或句子?

王文姝 多讀多背,那些文字才會進入你的心靈你的生命,才會寫進你的作文裡。作文是技,更是道,中國傳統就是要文以載道的。先把論孟老莊的重點篇目背一背吧哈哈哈!讀讀 古文觀止 聖經 等等,遇到能讓你眼前一亮的句子,自己積累。別人整理好的金句,不適合你。 關關雎鳩在河之洲 歲月還漫長,你心地善良,終會有一人...

你為什麼用LaTeX

TravorLZH 最開始的需求我想把我的數學知識成H5,於是就需要裝乙個MathJax來顯示公式。從此以後就接觸了很多的LaTeX。再者,我發現LaTeX做出來的PDF非常的精美,於是就在很多場景下使用LaTeX而不是word了 ok不提交 為了方便傳播吧,LaTeX個頭更小,對機器配置要求也低得...

你為什麼用 Python?

許建國 我主要工作是平面設計,對於批量操作ps ai id,python是目前我所知最合適的 很方便從網路獲取資料,很方便從各種格式讀取資料,很方便呼叫imagemagick ffmpeg ghostscript potrace poppler等命令列工具,還有win32com可以直接操作adobe...