Deep Reinforcement Learning 在機械人領域前景如何?

時間 2021-05-10 19:13:02

1樓:Noite

利益相關:曾經簡單嘗試過用DRL解決機械人問題,已棄坑

當時遇到的坑簡單羅列一下:

其他答主基本都說到的問題,Reward Function很難定。我們當時的任務很簡單,大概就是舉起一杯水。但這麼乙個簡單的任務Reward Function寫了16項,而且跑出來的結果依然不行,基本不work。

後來覺得這麼搞不行,我去看了一些IRL的東西,後來發現IRL雖然理論發展得不錯,但距離能拿下來用還是太遠了。

對機械人硬體控制的準確性。這個更麻煩,因為出了問題根本無從debug,涉及到硬體的性質和控制。RL有個分支就是在搞Sim2Real,這中間的Gap比很多人想的大得多。

在simulator跑的好好的走路程式拿到現實裡可能根本就不work。

硬體協同。這裡涉及大量的dirty work。舉個例子,假如現在想根據機械人的視覺資訊實時進行控制。

光是「實時」兩個字就很有的做。想要實時,就會涉及到外接電腦和機械人系統檔案傳輸的問題(當然如果機械人本身足夠好這個問題就不存在了x)。類似的協同問題在錢不夠的情況下真的是無窮無盡。

對大家的建議是想做這個領域至少要看過自控理論。運動的正解反解都不懂就想著用網路fine-tune一切是不現實的。

2樓:小心假設

つくりながら學ぶ! 深層強化學習 ~PyTorchによる実踐電通國際情報サービス 小川雄太郎 |本 | 通販 | Amazon

3樓:

DRL, 或者DL的R版本, 是非常好的應用場景.

比如說開門.

人類開門的學習過程.

1) 找不到門把手,

2) 知道了這個叫門把手, 向里不開, 向外不開, 哦, 原來要先向下開鎖, 再向外開啟.

3) 開門太輕, 沒推動, 太重, 把門推壞了.

4) 關門的時候, 勁小, 能啟動, 到鎖舌的部位沒推進去; 勁大了, 咣噹的一聲, 老爸正在睡午覺, 拿著皮帶就出來了,

5) 皮帶! 皮帶! 終於在三次皮帶之後, 知道了最合適的關門的速度和聲音.

6) 現在, 人生已經安全了, 如何節能? 不要抬最高的胳膊, 肘關節和腕關節如何配合, 可以更輕鬆;

7) 聲音最小, 加速度最快, 用力最省, 能耗最低, 各關節疲勞壽命消耗最小, 以這些目標優化.

8) 剛優化完畢, 門的鎖舌又磨損了, 又要重新校正學習.

9) 最近肌肉長力量了, 齒輪潤滑狀態下降了, 看來加速度要在大一些.

10) 最近門又磨損了, 換了乙個臥室的門, 這個門是玻璃門怕撞, 那個是木頭門, 容易嘎吱嘎吱響, 只有壓住推門,才沒事; 那個是鐵門, 撞上門鐵皮的時候, 速度加速度要同時為0...

11) 我終於學會開門了. 皮帶, 皮帶, 還是皮帶!

由於現實世界中的非結構資訊的大量存在, 並且很多都是非線性的,

這與圍棋的全資訊量不同, 也與非完全資訊概率模型的21點不同, 也與NP完全問題的四人麻將策略博弈論問題不同, 現實問題屬於第四類DL要解決的問題, (前三類是規劃, 隨機規劃, 博弈, 第四類是非結構化資訊)

這類問題, 要快速的根據貝葉斯概率, 總結經驗, 快速的發現新資訊的價值, 最大程度發揮R強化的作用. 文中反覆強調的皮帶皮帶皮帶, 就是R的手段.

沒有皮帶的時候, 我也學習關門, 那個時候, 是ML到DL.

但是有了皮帶之後, 我認為DL不夠, 必須要DRL.

乙個機械人, 100萬次開門, 同時優化能耗, 噪音, 速度, 得到最優的路徑, 速度, 加速度, 而不依賴於事前的閉眼睛的(開環的)Path planning 和motion control. 是多麼愜意的一件事情?

期待著從RobotDoor, 發展出 RobotDoorZero, 發展出RobotDoZero. 到RobotZero.

看懂這個梗的贊一下.

沒看懂的這個梗, 但是看懂前面的, 請感謝一下.

沒看懂前面的, 踩一腳再走.

4樓:

DRL在機械人領域的應用,做個demo還行,真正到實際應用還挺難的

看了各位大牛的回答,想到自己一直是乙個人戰鬥,淚眼模糊

5樓:Mike

前兩年關注過這個方向,當時DQN剛出來,很多人就開始把它應用到機械人控制學習中,Berkeley的pieter abbeel的工作可以參考參考

6樓:愛之羅

人家DeepMind OpenAI UCB等大牛,原本就一直在研究RL的。RL的研究可以追溯到上個世紀的,只是一直不火熱。最近借助深度學習這一魔法工具,讓DRL大放光彩,特別是在遊戲方面。

於是乎這些大牛們開始想著如何讓DRL在更多領域發光發熱,這不看上了機械人領域。

在這裡我暫且理解樓主所說的「機械人」是指和機械人控制相關的方向吧。之所以國內很少相關研究,相信大部分人也都是跟風似的,想藉著這一「東風」狠狠「炒作」一把吧。RL這個技術上世紀就已經有了,為什麼這個時間才選擇去嘗試呢。

最後說一句,不以解決實際問題為目標的研究是走不遠啊(這裡不是說RL沒用啊,相反自己也很看好RL的)。

7樓:

而這種演算法和Reinforcement learning,以及演算法科學上的「啟發式搜尋」在思想上我個人認為是頗有相似之處的。所以應該是乙個挺有意思的點。

8樓:Ming

快一年了,更新一下答案。在legged robot locomotion上,這已經成為乙個熱門的研究方向了。過去一年出了很多新的成果,首先是去年rss Google在minitaur上實現了sim to real,接著發了幾篇後續的文章,然後是ETHZ在更難控制的ANYmal實現了更多的功能,包括他們以往用傳統方法難以實現的從摔倒到站立。

相關工作估計都會在今年ICRA的learning legged locomotion workshop (https://

航天領域人形機械人發展前景如何?

1894 我們知道,現代高階科技研製的各種型別機械人,已經在眾多的領域得到較廣泛的應用,占有舉重輕足的地位。科學在不斷地發展,機械人製造工藝的各項效能水平也在不斷地得已提公升。從較早期只能執行簡單程式,重複簡單動作的工業機械人,發展到如今裝載智慧型程式有較強智慧型表現的智慧型機械人,以及正在努力研製...

能力風暴在教育機械人領域發展前景怎樣?

1.能力風暴瘋狂招攬加盟商又不提供足夠的支援,一旦入坑,到時候很難賺到錢,最主要是讓加盟商騎虎難下進退兩難。這以點在大部分投放巨量廣告做加盟的品牌都存在,比如樂博樂博,森孚,童程童美等 2.能力風暴現在內憂加外患,非常混亂,假如公司內部比較混亂,那麼人員流動性就會很大,表現在教學上就是經常變換老師,...

Slam及Slam在機械人領域中的應用,大家有碰到什麼問題嗎?

staven 用vslam做掃地機械人,如果光線不好,或者掃地機鑽到沙發底下後沒有光線了,此時視覺就跟丟了,怎樣能夠讓機械人繼續定位呢?有人說此時退化成隨機路徑,但要是此時地圖還沒建好,一直都是隨機路徑也不行啊,請老師賜教 康費 如何增強SLAM演算法對於特徵匹配的容錯能力。大部分成熟的演算法都是基...