您現(xiàn)在的位置是:首頁 >人工智能 > 2022-07-21 16:48:42 來源:
使用人工智能訓(xùn)練機(jī)器人團(tuán)隊(duì)一起工作
當(dāng)通信線路開放時(shí),機(jī)器人或無人機(jī)等個(gè)體代理可以協(xié)同工作,協(xié)作完成任務(wù)。但是,如果他們沒有配備正確的硬件或信號(hào)被阻塞,從而無法進(jìn)行通信怎么辦?伊利諾伊大學(xué)厄巴納-香檳分校的研究人員從這個(gè)更困難的挑戰(zhàn)開始。他們開發(fā)了一種使用多智能體強(qiáng)化學(xué)習(xí)(一種人工智能)訓(xùn)練多個(gè)智能體協(xié)同工作的方法。
伊利諾伊州的航空工程師HuyTran說:“當(dāng)代理人可以互相交談時(shí),會(huì)更容易。”“但我們希望以一種去中心化的方式來做到這一點(diǎn),這意味著他們不會(huì)互相交談。我們還關(guān)注代理的不同角色或工作應(yīng)該是什么并不明顯的情況。”
Tran說,這種情況要復(fù)雜得多,也是一個(gè)更難的問題,因?yàn)椴磺宄粋€(gè)代理與另一個(gè)代理應(yīng)該做什么。
“有趣的問題是,隨著時(shí)間的推移,我們?nèi)绾螌W(xué)會(huì)一起完成一項(xiàng)任務(wù),”Tran說。
Tran和他的合作者使用機(jī)器學(xué)習(xí)來解決這個(gè)問題,方法是創(chuàng)建一個(gè)實(shí)用函數(shù),該函數(shù)告訴代理什么時(shí)候做對(duì)團(tuán)隊(duì)有用或有益的事情。
“對(duì)于球隊(duì)的進(jìn)球,很難知道誰為勝利做出了貢獻(xiàn),”他說。“我們開發(fā)了一種機(jī)器學(xué)習(xí)技術(shù),使我們能夠識(shí)別個(gè)人代理何時(shí)為全球團(tuán)隊(duì)目標(biāo)做出貢獻(xiàn)。如果你從運(yùn)動(dòng)的角度來看,一名足球運(yùn)動(dòng)員可能會(huì)得分,但我們也想知道其他隊(duì)友的行動(dòng)“這導(dǎo)致了進(jìn)球,就像助攻一樣。很難理解這些延遲效應(yīng)。”
圖片來源:伊利諾伊大學(xué)航空航天工程系
研究人員開發(fā)的算法還可以識(shí)別代理或機(jī)器人何時(shí)在做對(duì)目標(biāo)沒有貢獻(xiàn)的事情。“與其說機(jī)器人選擇做錯(cuò)事,不如說是對(duì)最終目標(biāo)無用的事情。”
他們使用模擬游戲來測(cè)試他們的算法,例如奪旗游戲和流行的電腦游戲星際爭霸。
“星際爭霸可能有點(diǎn)難以預(yù)測(cè)——我們很高興看到我們的方法在這種環(huán)境下也能很好地工作。”
Tran說,這種算法適用于許多現(xiàn)實(shí)生活中的情況,例如監(jiān)視、機(jī)器人在倉庫中協(xié)同工作、交通信號(hào)控制、自動(dòng)車輛協(xié)調(diào)交付或控制電網(wǎng)。
Tran說,SeungHyunKim在攻讀機(jī)械工程的本科生時(shí)就完成了這個(gè)想法背后的大部分理論,而航空專業(yè)的學(xué)生NealeVanStralen則幫助實(shí)施了這個(gè)想法。Tran和GirishChowdhary為兩名學(xué)生提供建議。這項(xiàng)工作最近在自治代理和多代理系統(tǒng)同行評(píng)審會(huì)議上提交給AI社區(qū)。
這項(xiàng)名為“解開多智能體強(qiáng)化學(xué)習(xí)中協(xié)調(diào)的后繼特征”的研究發(fā)表在2022年5月舉行的第21屆自主智能體和多智能體系統(tǒng)國際會(huì)議論文集上。