您現(xiàn)在的位置是:首頁 >要聞 > 2020-12-07 08:39:38 來源:
一種低成本的四足機(jī)器人可以通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)
在過去的十年左右的時(shí)間里,機(jī)器人專家和計(jì)算機(jī)科學(xué)家試圖使用強(qiáng)化學(xué)習(xí)(RL)方法來訓(xùn)練機(jī)器人有效地導(dǎo)航其環(huán)境并完成各種基本任務(wù)。然而,到目前為止,構(gòu)建負(fù)擔(dān)得起的機(jī)器人來支持和管理與RL算法相關(guān)的探索性控制一直是相當(dāng)困難的。
阿爾托大學(xué)和Ote Robotics的研究人員最近創(chuàng)建了RealAnt,這是一種低成本的四足機(jī)器人,可以有效地用于測(cè)試和實(shí)施RL算法。在arXiv上預(yù)發(fā)表的一篇論文中介紹的新機(jī)器人技術(shù)平臺(tái)是“螞蟻”機(jī)器人仿真環(huán)境的簡(jiǎn)約且價(jià)格合理的真實(shí)版本,該平臺(tái)經(jīng)常用于RL研究中。
Ote Robotics的聯(lián)合創(chuàng)始人Jussi Sainio對(duì)Tech Xplore表示:“我們研究的最初靈感是RL研究,成功地證明了在類似螞蟻的四足機(jī)器人和人形機(jī)器人仿真中從零開始的學(xué)習(xí)。” “采用RL算法的基本前提是,對(duì)機(jī)器人進(jìn)行編程變得更加容易和更加'自然'-只需定義可用的傳感器測(cè)量值,運(yùn)動(dòng)動(dòng)作,然后設(shè)定目標(biāo)目標(biāo)并將其全部插入強(qiáng)化學(xué)習(xí)中即可。算法,找出其余部分。”
最初,RL算法只有在經(jīng)過數(shù)千小時(shí)的機(jī)器人仿真訓(xùn)練后才能表現(xiàn)良好。但是,最近,計(jì)算機(jī)科學(xué)家僅需很少的訓(xùn)練數(shù)據(jù)就可以教受螞蟻啟發(fā)的四足機(jī)器人走路,從而達(dá)到所謂的高采樣效率。這樣就可以在現(xiàn)實(shí)世界中直接訓(xùn)練機(jī)器人,而無需進(jìn)行基于模擬的訓(xùn)練。
Sainio解釋說:“我們很快意識(shí)到,像RealAnt一樣的步行機(jī)器人并不容易且價(jià)格低廉,尤其是對(duì)于強(qiáng)化學(xué)習(xí)而言,這很容易通過濫用控制來損壞機(jī)器人。” “與模擬器環(huán)境相比,沒有一個(gè)完整的軟硬件組合可以用于現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí),并且可以開始使用。因此,我開始構(gòu)建自己的機(jī)器人和界面軟件原型。”
Sainio和他的同事最近的工作的主要目的是基于現(xiàn)有的基準(zhǔn)RL解決方案創(chuàng)建一個(gè)簡(jiǎn)單且低成本的機(jī)器人平臺(tái)。這樣的平臺(tái)將使更多的研究人員能夠構(gòu)建和測(cè)試能夠完成現(xiàn)實(shí)世界中各種基本任務(wù)的自主機(jī)器人。