如何用簡單例子講解 Q learning 的具體過程？

1樓：小波要好好愛自己

目前在做乙個無人機強化學習的專案，先簡單回答，占個坑（未完待續）。

探索的策略當前比較流行的有兩種：∈-greedy和Boltzman Exploration。

∈-greedy：以∈的概率進行探索，以1-∈的概率選擇最大Q值。這裡有個小技巧：

就是剛開始的時候可以把∈的概率設定得大一點。因為初始化時Q值都為0，所以會隨機選取乙個動作，一旦Q值更新，那麼更新的結果就非零，再次選擇動作時很容易直接選擇Q值非零的動作，而陷入迴圈。乙個好的方法是手動設定∈（開始大後來小），或者把∈設定為和誤差項成正比（誤差越大時探索程度越大）。

Boltzman Exploration：

2樓：CzJun

A Painless Q-learning Tutorial (乙個 Q-learning 演算法的簡明教程)

看了一天的文章，這個是最好的答案，沒有之一。

3樓：矽谷王川

Q-learning 最核心的特點是 off-policy, 如果和 on-policy 的SARSA 比一下就可以體會到差別。網上搜一下有個 cliff walking （在懸崖邊走的醉漢）的計算例子

4樓：YE Y

注：這個例子簡單，實用(改改就能用到別的簡單問題)，但是並不能讓人明白q-learning到底是啥，如果想明白強化學習是啥，解決的MDP問題是啥，建議還是踏踏實實看看Sutton的書。

mnemstudio.org/path-finding-q-learning-tutorial.htm還有中文版翻譯：

5樓：

Q-Learning是off-policy的方法，要balance exploration和exploitation一般用-greedy的方法。迭代時會找下一步的最大Q值迭代，這也是它和Sarsa這種on-policy方法的不同點。

6樓：江小傑

我不擅長舉例子，就補充一下目前的rktang的答案吧：

在訓練階段，q-learning並不是每次都沿著q值最高的方向走的，這顯然由你自己來度量了，很多時候我們會選擇softmax的方法，就是對於q值高的方向，我們給予它更高的概率讓它被選中，這個概率的大小影響到你探索新方向的速度。

學習速率和折扣因子在影響探索和經驗方面起了重要作用，這一點在wiki中也說到了，http://

zh.wikipedia.org/wiki/Q-learning

，折扣因子決定了對未來獎勵的重視程度。乙個為0的因子使得智慧型體短視由於只考慮眼前的獎勵。當乙個因子接近1將使它為長期的獎勵奮鬥。

學習速率決定了新得到的資訊覆蓋老資訊的程度。乙個為0的因子將使得智慧型體什麼都學不到，而如果因子為1則使得智慧型體只考慮最近獲得的資訊。