Deep Reinforcement Learning 在機械人領域前景如何？

1樓：Noite

利益相關：曾經簡單嘗試過用DRL解決機械人問題，已棄坑

當時遇到的坑簡單羅列一下：

其他答主基本都說到的問題，Reward Function很難定。我們當時的任務很簡單，大概就是舉起一杯水。但這麼乙個簡單的任務Reward Function寫了16項，而且跑出來的結果依然不行，基本不work。

後來覺得這麼搞不行，我去看了一些IRL的東西，後來發現IRL雖然理論發展得不錯，但距離能拿下來用還是太遠了。

對機械人硬體控制的準確性。這個更麻煩，因為出了問題根本無從debug，涉及到硬體的性質和控制。RL有個分支就是在搞Sim2Real，這中間的Gap比很多人想的大得多。

在simulator跑的好好的走路程式拿到現實裡可能根本就不work。

硬體協同。這裡涉及大量的dirty work。舉個例子，假如現在想根據機械人的視覺資訊實時進行控制。

光是「實時」兩個字就很有的做。想要實時，就會涉及到外接電腦和機械人系統檔案傳輸的問題（當然如果機械人本身足夠好這個問題就不存在了x）。類似的協同問題在錢不夠的情況下真的是無窮無盡。

對大家的建議是想做這個領域至少要看過自控理論。運動的正解反解都不懂就想著用網路fine-tune一切是不現實的。

2樓：小心假設

つくりながら學ぶ! 深層強化學習 ~PyTorchによる実踐電通國際情報サービス小川雄太郎 |本 | 通販 | Amazon

3樓：

DRL, 或者DL的R版本, 是非常好的應用場景.

比如說開門.

人類開門的學習過程.

1) 找不到門把手,

2) 知道了這個叫門把手, 向里不開, 向外不開, 哦, 原來要先向下開鎖, 再向外開啟.

3) 開門太輕, 沒推動, 太重, 把門推壞了.

4) 關門的時候, 勁小, 能啟動, 到鎖舌的部位沒推進去; 勁大了, 咣噹的一聲, 老爸正在睡午覺, 拿著皮帶就出來了,

5) 皮帶! 皮帶! 終於在三次皮帶之後, 知道了最合適的關門的速度和聲音.

6) 現在, 人生已經安全了, 如何節能? 不要抬最高的胳膊, 肘關節和腕關節如何配合, 可以更輕鬆;

7) 聲音最小, 加速度最快, 用力最省, 能耗最低, 各關節疲勞壽命消耗最小, 以這些目標優化.

8) 剛優化完畢, 門的鎖舌又磨損了, 又要重新校正學習.

9) 最近肌肉長力量了, 齒輪潤滑狀態下降了, 看來加速度要在大一些.

10) 最近門又磨損了, 換了乙個臥室的門, 這個門是玻璃門怕撞, 那個是木頭門, 容易嘎吱嘎吱響, 只有壓住推門,才沒事; 那個是鐵門, 撞上門鐵皮的時候, 速度加速度要同時為0...

11) 我終於學會開門了. 皮帶, 皮帶, 還是皮帶!

由於現實世界中的非結構資訊的大量存在, 並且很多都是非線性的,

這與圍棋的全資訊量不同, 也與非完全資訊概率模型的21點不同, 也與NP完全問題的四人麻將策略博弈論問題不同, 現實問題屬於第四類DL要解決的問題, (前三類是規劃, 隨機規劃, 博弈, 第四類是非結構化資訊)

這類問題, 要快速的根據貝葉斯概率, 總結經驗, 快速的發現新資訊的價值, 最大程度發揮R強化的作用. 文中反覆強調的皮帶皮帶皮帶, 就是R的手段.

沒有皮帶的時候, 我也學習關門, 那個時候, 是ML到DL.

但是有了皮帶之後, 我認為DL不夠, 必須要DRL.

乙個機械人, 100萬次開門, 同時優化能耗, 噪音, 速度, 得到最優的路徑, 速度, 加速度, 而不依賴於事前的閉眼睛的(開環的)Path planning 和motion control. 是多麼愜意的一件事情?

期待著從RobotDoor, 發展出 RobotDoorZero, 發展出RobotDoZero. 到RobotZero.

看懂這個梗的贊一下.

沒看懂的這個梗, 但是看懂前面的, 請感謝一下.

沒看懂前面的, 踩一腳再走.

4樓：

DRL在機械人領域的應用，做個demo還行，真正到實際應用還挺難的

看了各位大牛的回答，想到自己一直是乙個人戰鬥，淚眼模糊

5樓：Mike

前兩年關注過這個方向，當時DQN剛出來，很多人就開始把它應用到機械人控制學習中，Berkeley的pieter abbeel的工作可以參考參考

6樓：愛之羅

人家DeepMind OpenAI UCB等大牛，原本就一直在研究RL的。RL的研究可以追溯到上個世紀的，只是一直不火熱。最近借助深度學習這一魔法工具，讓DRL大放光彩，特別是在遊戲方面。

於是乎這些大牛們開始想著如何讓DRL在更多領域發光發熱，這不看上了機械人領域。

在這裡我暫且理解樓主所說的「機械人」是指和機械人控制相關的方向吧。之所以國內很少相關研究，相信大部分人也都是跟風似的，想藉著這一「東風」狠狠「炒作」一把吧。RL這個技術上世紀就已經有了，為什麼這個時間才選擇去嘗試呢。

最後說一句，不以解決實際問題為目標的研究是走不遠啊(這裡不是說RL沒用啊，相反自己也很看好RL的)。

7樓：

而這種演算法和Reinforcement learning，以及演算法科學上的「啟發式搜尋」在思想上我個人認為是頗有相似之處的。所以應該是乙個挺有意思的點。

8樓：Ming

快一年了，更新一下答案。在legged robot locomotion上，這已經成為乙個熱門的研究方向了。過去一年出了很多新的成果，首先是去年rss Google在minitaur上實現了sim to real，接著發了幾篇後續的文章，然後是ETHZ在更難控制的ANYmal實現了更多的功能，包括他們以往用傳統方法難以實現的從摔倒到站立。

相關工作估計都會在今年ICRA的learning legged locomotion workshop （https://

Deep Reinforcement Learning 在機械人領域前景如何？

航天領域人形機械人發展前景如何？

能力風暴在教育機械人領域發展前景怎樣？

Slam及Slam在機械人領域中的應用，大家有碰到什麼問題嗎？

其他用戶還看了：