如何用簡單例子講解 Q learning 的具體過程?

時間 2021-05-06 05:59:08

1樓:小波要好好愛自己

目前在做乙個無人機強化學習的專案,先簡單回答,占個坑(未完待續)。

探索的策略當前比較流行的有兩種:∈-greedy和Boltzman Exploration。

∈-greedy:以∈的概率進行探索,以1-∈的概率選擇最大Q值。這裡有個小技巧:

就是剛開始的時候可以把∈的概率設定得大一點。因為初始化時Q值都為0,所以會隨機選取乙個動作,一旦Q值更新,那麼更新的結果就非零,再次選擇動作時很容易直接選擇Q值非零的動作,而陷入迴圈。乙個好的方法是手動設定∈(開始大後來小),或者把∈設定為和誤差項成正比(誤差越大時探索程度越大)。

Boltzman Exploration:

2樓:CzJun

A Painless Q-learning Tutorial (乙個 Q-learning 演算法的簡明教程)

看了一天的文章,這個是最好的答案,沒有之一。

3樓:矽谷王川

Q-learning 最核心的特點是 off-policy, 如果和 on-policy 的SARSA 比一下就可以體會到差別。網上搜一下有個 cliff walking (在懸崖邊走的醉漢)的計算例子

4樓:YE Y

注:這個例子簡單,實用(改改就能用到別的簡單問題),但是並不能讓人明白q-learning到底是啥,如果想明白強化學習是啥,解決的MDP問題是啥,建議還是踏踏實實看看Sutton的書。

mnemstudio.org/path-finding-q-learning-tutorial.htm還有中文版翻譯:

5樓:

Q-Learning是off-policy的方法,要balance exploration和exploitation一般用-greedy的方法。迭代時會找下一步的最大Q值迭代,這也是它和Sarsa這種on-policy方法的不同點。

6樓:江小傑

我不擅長舉例子,就補充一下目前的rktang的答案吧:

在訓練階段,q-learning並不是每次都沿著q值最高的方向走的,這顯然由你自己來度量了,很多時候我們會選擇softmax的方法,就是對於q值高的方向,我們給予它更高的概率讓它被選中,這個概率的大小影響到你探索新方向的速度。

學習速率和折扣因子在影響探索和經驗方面起了重要作用,這一點在wiki中也說到了,http://

zh.wikipedia.org/wiki/Q-learning

,折扣因子決定了對未來獎勵的重視程度。乙個為0的因子使得智慧型體短視由於只考慮眼前的獎勵。當乙個因子接近1將使它為長期的獎勵奮鬥。

學習速率決定了新得到的資訊覆蓋老資訊的程度。乙個為0的因子將使得智慧型體什麼都學不到,而如果因子為1則使得智慧型體只考慮最近獲得的資訊。

如何用簡單有效的方法對教育水平低的人講解甚至證明一些深奧的科學定律?

Lekky 作為乙個經常這樣給家裡人科普的大學生來說,最好的辦法就是把你要介紹的知識套上乙個平常生活能見到的例子,或者是模擬為日常的事物。如果對方有興趣可以選擇方面細講,不過大部分時候提問者可能就不過問了 講解定律是很難的吧 我連初中的乘法交換定律都跟同學講解不明白原理就是那個 a b c a c ...

如何用簡單易懂的例子解釋隱馬爾可夫模型?

wweewrwer 隱馬爾可夫模型 HMM 可以用五個元素來描述 1.隱含狀態 S 這些狀態之間滿足馬爾可夫性質,是馬爾可夫模型中實際所隱含的狀態。這些狀態通常無法通過直接觀測而得到。即扔的骰子序列 3.初始狀態概率矩陣 表示隱含狀態在初始時刻t 1的概率矩陣。因為第一次扔出骰子是沒有前乙個狀態的,...

請問如何用ppt講解文獻?

Ryan 你們這些大佬能不能展示一下ppt做示範啊,一股腦地說應該怎麼怎麼做,到頭來萌新還是看的一臉懵逼,既然搜這個問題就說明不會做,既然不會做說明沒有這個功力,需要乙份模板模仿啊!你們能不能別這麼言簡意賅!get不到哇! apple pie 首先提出這篇文獻回答了什麼問題,簡單介紹用了什麼方法 主...