助詞 的一些格助詞用法(二)

時間 2021-07-02 13:02:10

1樓:NoListen

我就先針對連續空間說兩句。1. 基於PG的SVG、DPG、GAE用的都是actor-critic的方法並且可以用於解決連續action空間的問題 2.

Q-learning是off-policy,本身有個Max值,在無限action下是不合理的 3. RDPG裡面有談到Normalized Advantage Function,把乙個policy轉換成advantage function,本身也好像是actor-critic,但是actor和critic共用乙個網路。

2樓:iker peng

看了下,樓主的分類不對。@宋假名的分類也不對。

正確的分類應該是:強化學習問題分為無模型問題和有模型的問題。而對於強化學習問題的求解,主要分為動態規劃演算法(DP)以及策略優化(PO)。

而樓主所說的 PG的演算法屬於PO,Q學習演算法屬於DP。 具體空的時候詳細寫寫。

補充下:

從控制優化的角度來講,任何乙個強化學習的任務都可以看作是乙個優化的問題。因此,你可以按照如下的方式分類:

3樓:豬豬專業戶

按我的理解,兩者從本質上就是不一樣的。和MDP裡面的value iteration與policy iteration不同(MDP馬爾可夫決策過程中的值迭代和策略迭代感覺並沒有本質區別? - nia nia 的回答),Q Learning和Policy Gradient是在解決不同的問題,而不是同一問題的兩種不同的數值方法。

首先,在modeling上,Q Learning假設policy是deterministic的,而且它的求解空間是函式空間,乙個 (state, action) -> R 的函式。其次,在一些很弱的假設下(一般都成立),Q Learning演算法本身定義的迭代運算元是乙個contraction operator,所以在 t -> infinity 保證收斂到全域性最優解 (最優解不一定對應唯一的policy)。

當然,和Machine Learning中要學習乙個分布一樣,實際操作中往往是parametrize Q函式,假設Q函式是由有限維引數決定,然後求解最優的函式。這個時候收斂性就不好說了,比如像DQN用神經網路來描述,用隨機梯度下降來求解,當t -> infinity,replay buffer size -> infinity的情況下能保證收斂到最優的嗎?我覺得答案是否定的。

在modeling上,Policy Gradient假設policy是stochastic的,而且是服從乙個parametrized的policy分布。得到這個最優的引數就得到了在這個分布假設下最優的Policy。求解演算法就是通過梯度下降,每一步迭代的梯度也是stochastic的,沒有全域性收斂性的保障。

如果learning rate逐漸下降能收斂到乙個區域性最優。

Actor-critic可被視作Policy Gradient,唯一的區別是進一步通過Q function來降低Policy Gradient每一步stochastic梯度的variance。Q function也是用同樣的sample,通過Q Learning來學習的,可以說是充分利用了agent每一步探索得到的寶貴資訊吧。

4樓:

長話短說:

1.ql和pg都是為了求解最好的RL決策鏈2.ql一般針對離散空間,採用值迭代方法。

以value推policy3.pg針對連續場景,直接在策略空間求解,泛化更好,直推policy4.actor-critic可以看作是乙個共軛,互相作用,策略也更穩定

韓語中的添意助詞 和主格助詞 在用法上以及表達的意思上怎樣甄別呢?求請盡可能詳細的解答

Sasang 其實看似很混亂的 是相當有規律的,不要頭疼,也不要問南韓人 南韓人在文章中基本語法錯的不比外國人少 下面是我自己整理的 的用法區別,加上例文應該比較好理解。1.是輔助詞,是主格助詞 2.出現在句首時表名詞句的主題,或表對照 強調。做主題,我 是大學生,也常用在介紹某個人或某種事物,而這...

如何理解日語助詞 的對比用法?

阪道 首先,對比和強調是乙個概念。只有不一樣的時候才會對比,對吧?對比做什麼用呢?用來強調 這裡不一樣哦!的感覺。至於具體用法,很簡單,記住一句話 在本來可以不用加 的地方加了 就說明在刻意強調,跟今天做的事情做對比。這詞,表示通常,後面不接 也完全沒有問題。但是這裡加了 就表示主人公今天沒有。也就...

想問一下日本助詞 和 的用法?求詳細解釋?

鍵山怜奈 唐朝 怕不是入了假的日語系 是個起強調作用的副助詞,而 是個幾乎不帶強調之意的主格助詞。的用途是強調句子中的種種成分,有提示句子主題之感。如果說是回答別人提問的話,那麼我的感覺是問 答 問 答 但是如果想強調或者有轉折的話就算別人問 回答 也是沒有問題的。基本上 的用途比 廣泛,除非在強調...