您現(xiàn)在的位置是：首頁 >財(cái)經(jīng) > 2020-12-10 10:34:38 來源：

一種無需人工演示就能訓(xùn)練機(jī)器人的模仿學(xué)習(xí)方法

導(dǎo)讀大多數(shù)人可以通過觀察他人僅執(zhí)行一次任務(wù)來學(xué)習(xí)如何完成給定任務(wù)。但是，被編程為通過模仿人類學(xué)習(xí)的機(jī)器人通常需要在一系列人類演示中進(jìn)行

大多數(shù)人可以通過觀察他人僅執(zhí)行一次任務(wù)來學(xué)習(xí)如何完成給定任務(wù)。但是，被編程為通過模仿人類學(xué)習(xí)的機(jī)器人通常需要在一系列人類演示中進(jìn)行訓(xùn)練，然后才能有效地復(fù)制所需的行為。

研究人員最近能夠使用元學(xué)習(xí)方法，通過讓機(jī)器人觀察單個人類演示，來教機(jī)器人執(zhí)行新任務(wù)。但是，這些學(xué)習(xí)技術(shù)通常需要現(xiàn)實(shí)世界中的數(shù)據(jù)，這些數(shù)據(jù)可能昂貴且難以收集。

為了克服這一挑戰(zhàn)，倫敦帝國理工學(xué)院的研究人員開發(fā)了一種新方法，該方法無需使用現(xiàn)實(shí)世界中的人類演示，就可以在機(jī)器人中進(jìn)行一次仿制學(xué)習(xí)。他們的方法在arXiv上預(yù)先發(fā)表的一篇論文中提出，使用了稱為任務(wù)嵌入式控制網(wǎng)絡(luò)(TecNets)的算法，該算法允許人工代理從單個或多個演示中學(xué)習(xí)如何完成任務(wù)以及人工生成的訓(xùn)練數(shù)據(jù)。

研究人員在論文中寫道：“我們證明，通過嵌入任務(wù)的控制網(wǎng)絡(luò)，我們可以通過嵌入人類示范來推斷控制策略，這些示范可以制定控制策略并實(shí)現(xiàn)一次模仿學(xué)習(xí)。”

由研究人員提出的方法不需要與現(xiàn)實(shí)中人類的任何交互機(jī)器人的訓(xùn)練。該方法使用TechNets來推斷控制策略，嵌入可演示給定控制策略并最終實(shí)現(xiàn)一鍵式模仿學(xué)習(xí)的人類演示。

為了消除訓(xùn)練過程中對現(xiàn)實(shí)世界中的人類演示的需求，研究人員使用了模擬人類演示的視頻數(shù)據(jù)集，這些視頻數(shù)據(jù)集是使用PyRep(最近發(fā)布的用于機(jī)器人學(xué)習(xí)研究的工具包)生成的。研究人員使用PyRep對人類3-D手臂進(jìn)行建模，然后將其分解為各種形狀，以再現(xiàn)類似于人類觀察到的動作。

然后，他們創(chuàng)建了一個由視頻組成的數(shù)據(jù)集，該模擬手臂在其中執(zhí)行了許多任務(wù)，并用它來訓(xùn)練機(jī)器人系統(tǒng)。最終，機(jī)器人僅通過分析這些模擬視頻并在現(xiàn)實(shí)世界中進(jìn)行一次人工演示就能夠?qū)W習(xí)如何完成任務(wù)。

研究人員在論文中解釋說：“重要的是，我們在訓(xùn)練期間不使用真實(shí)的手臂來提供演示，而是在以前從未見過的應(yīng)用程序中利用域隨機(jī)化：在人類上實(shí)現(xiàn)從模擬到真實(shí)的傳輸，”研究人員在論文中解釋說。

該團(tuán)隊(duì)在模擬和現(xiàn)實(shí)世界中都評估了這種新的單次學(xué)習(xí)方法，使用它來訓(xùn)練機(jī)器人來完成涉及放置和推動對象的任務(wù)。值得注意的是，他們的學(xué)習(xí)方法所取得的結(jié)果可與使用更傳統(tǒng)的基于模仿學(xué)習(xí)的方法所取得的結(jié)果相提并論，盡管它需要對機(jī)器人進(jìn)行人工生成的視頻而非真實(shí)的人類演示進(jìn)行訓(xùn)練。

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！