您現(xiàn)在的位置是:首頁(yè) >要聞 > 2020-10-26 11:19:29 來源:
決定下一步行動(dòng)的機(jī)器人需要優(yōu)先級(jí)幫助
隨著機(jī)器人在諸如搜索和救援任務(wù)等危險(xiǎn)情況下替代人類時(shí),它們需要能夠快速評(píng)估并做出決策-像人類一樣做出反應(yīng)和適應(yīng)。伊利諾伊大學(xué)香檳分校的研究人員使用了基于“奪旗”游戲的模型來開發(fā)深度強(qiáng)化學(xué)習(xí)的新方法,以幫助機(jī)器人評(píng)估其下一步行動(dòng)。
研究人員之所以選擇“奪旗”,是因?yàn)樗怯蓛蓚€(gè)團(tuán)隊(duì)(每個(gè)團(tuán)隊(duì)有多個(gè)隊(duì)友)組成的,對(duì)手的團(tuán)隊(duì)也在做出決定。
研究員Huy Tran表示:“機(jī)器人可以通過一種名為強(qiáng)化學(xué)習(xí)的試驗(yàn)和錯(cuò)誤過程來學(xué)習(xí)如何在競(jìng)爭(zhēng)性游戲等環(huán)境中做出反應(yīng)。他們可以通過玩游戲來了解在給定情況下應(yīng)采取的行動(dòng)。”在UIUC的航空航天工程系。“挑戰(zhàn)在于弄清楚如何創(chuàng)建也能適應(yīng)意外情況的代理。”
Tran說,他的團(tuán)隊(duì)意識(shí)到機(jī)器人在確定任務(wù)優(yōu)先級(jí)時(shí)需要幫助。
“考慮到捕獲標(biāo)志的總體任務(wù),實(shí)際上我們有一個(gè)子任務(wù)可以完成,我們?cè)谝粋€(gè)層次結(jié)構(gòu)中進(jìn)行建模。我們想探索的是這種類型的層次結(jié)構(gòu)是否會(huì)有助于適應(yīng)。”
通過分層的深度強(qiáng)化學(xué)習(xí),Tran表示任務(wù)被拆分了—奪取旗幟或標(biāo)記對(duì)方團(tuán)隊(duì)的成員以消除它們—因此該模型可以處理更復(fù)雜的問題。
“通過將任務(wù)分解為子任務(wù),我們可以改善適應(yīng)性。我們培訓(xùn)了一位高級(jí)決策者,他為每個(gè)代理分配了子任務(wù)以供其關(guān)注。” 特蘭說。Tran說,分層結(jié)構(gòu)有助于簡(jiǎn)化模型的更新。僅層次控制器將需要更新,而不是每個(gè)代理都需要更新。
“這種方法有可能解決有趣且具有挑戰(zhàn)性的問題,但是在現(xiàn)實(shí)環(huán)境中部署這些系統(tǒng)之前,我們?nèi)匀恍枰鉀Q許多問題。例如,我們了解到該框架可以幫助適應(yīng)”,Tran說,“但我們認(rèn)識(shí)到,在這項(xiàng)研究中,我們根據(jù)對(duì)游戲運(yùn)行方式的直覺決定了子任務(wù)應(yīng)該是什么。這并不理想,因?yàn)樗形覀冏约旱钠?。我們現(xiàn)在要做的是尋找新的技術(shù),使代理商能夠自己弄清楚那些次目標(biāo)是什么。”
Neale Van Stralen,Seung Hyun Kim,Huy T. Tran和Girish Chowdhary撰寫了研究“評(píng)估分層深度強(qiáng)化學(xué)習(xí)的適應(yīng)性能”。該研究由美國(guó)國(guó)防高級(jí)研究計(jì)劃局資助,并在2020 IEEE國(guó)際機(jī)器人與自動(dòng)化會(huì)議(ICRA)上發(fā)表,并在會(huì)議記錄中發(fā)表。一段簡(jiǎn)短的視頻說明了包括分層控制器在起作用的工作。