您現(xiàn)在的位置是:首頁 >財(cái)經(jīng) > 2020-12-10 10:34:38 來源:
一種無需人工演示就能訓(xùn)練機(jī)器人的模仿學(xué)習(xí)方法
大多數(shù)人可以通過觀察他人僅執(zhí)行一次任務(wù)來學(xué)習(xí)如何完成給定任務(wù)。但是,被編程為通過模仿人類學(xué)習(xí)的機(jī)器人通常需要在一系列人類演示中進(jìn)行訓(xùn)練,然后才能有效地復(fù)制所需的行為。
研究人員最近能夠使用元學(xué)習(xí)方法,通過讓機(jī)器人觀察單個人類演示,來教機(jī)器人執(zhí)行新任務(wù)。但是,這些學(xué)習(xí)技術(shù)通常需要現(xiàn)實(shí)世界中的數(shù)據(jù),這些數(shù)據(jù)可能昂貴且難以收集。
為了克服這一挑戰(zhàn),倫敦帝國理工學(xué)院的研究人員開發(fā)了一種新方法,該方法無需使用現(xiàn)實(shí)世界中的人類演示,就可以在機(jī)器人中進(jìn)行一次仿制學(xué)習(xí)。他們的方法在arXiv上預(yù)先發(fā)表的一篇論文中提出,使用了稱為任務(wù)嵌入式控制網(wǎng)絡(luò)(TecNets)的算法,該算法允許人工代理從單個或多個演示中學(xué)習(xí)如何完成任務(wù)以及人工生成的訓(xùn)練數(shù)據(jù)。
研究人員在論文中寫道:“我們證明,通過嵌入任務(wù)的控制網(wǎng)絡(luò),我們可以通過嵌入人類示范來推斷控制策略,這些示范可以制定控制策略并實(shí)現(xiàn)一次模仿學(xué)習(xí)。”
由研究人員提出的方法不需要與現(xiàn)實(shí)中人類的任何交互機(jī)器人的訓(xùn)練。該方法使用TechNets來推斷控制策略,嵌入可演示給定控制策略并最終實(shí)現(xiàn)一鍵式模仿學(xué)習(xí)的人類演示。
為了消除訓(xùn)練過程中對現(xiàn)實(shí)世界中的人類演示的需求,研究人員使用了模擬人類演示的視頻數(shù)據(jù)集,這些視頻數(shù)據(jù)集是使用PyRep(最近發(fā)布的用于機(jī)器人學(xué)習(xí)研究的工具包)生成的。研究人員使用PyRep對人類3-D手臂進(jìn)行建模,然后將其分解為各種形狀,以再現(xiàn)類似于人類觀察到的動作。
然后,他們創(chuàng)建了一個由視頻組成的數(shù)據(jù)集,該模擬手臂在其中執(zhí)行了許多任務(wù),并用它來訓(xùn)練機(jī)器人系統(tǒng)。最終,機(jī)器人僅通過分析這些模擬視頻并在現(xiàn)實(shí)世界中進(jìn)行一次人工演示就能夠?qū)W習(xí)如何完成任務(wù)。
研究人員在論文中解釋說:“重要的是,我們在訓(xùn)練期間不使用真實(shí)的手臂來提供演示,而是在以前從未見過的應(yīng)用程序中利用域隨機(jī)化:在人類上實(shí)現(xiàn)從模擬到真實(shí)的傳輸,”研究人員在論文中解釋說。
該團(tuán)隊(duì)在模擬和現(xiàn)實(shí)世界中都評估了這種新的單次學(xué)習(xí)方法,使用它來訓(xùn)練機(jī)器人來完成涉及放置和推動對象的任務(wù)。值得注意的是,他們的學(xué)習(xí)方法所取得的結(jié)果可與使用更傳統(tǒng)的基于模仿學(xué)習(xí)的方法所取得的結(jié)果相提并論,盡管它需要對機(jī)器人進(jìn)行人工生成的視頻而非真實(shí)的人類演示進(jìn)行訓(xùn)練。