您現(xiàn)在的位置是:首頁(yè) >人工智能 > 2022-07-28 16:54:21 來源:
一種在現(xiàn)實(shí)世界中快速教授機(jī)器人新行為的算法
訓(xùn)練機(jī)器人完成現(xiàn)實(shí)世界中的任務(wù)可能是一個(gè)非常耗時(shí)的過程,其中包括構(gòu)建一個(gè)快速高效的模擬器,在其上進(jìn)行大量試驗(yàn),然后將這些試驗(yàn)中學(xué)到的行為轉(zhuǎn)移到現(xiàn)實(shí)世界中。然而,在許多情況下,由于環(huán)境或任務(wù)的不可預(yù)測(cè)的變化,在模擬中獲得的性能與在現(xiàn)實(shí)世界中獲得的性能不匹配。
加州大學(xué)伯克利分校(UCBerkeley)的研究人員最近開發(fā)了DayDreamer,這是一種可用于訓(xùn)練機(jī)器人更有效地完成現(xiàn)實(shí)世界任務(wù)的工具。他們的方法在arXiv上預(yù)先發(fā)表的一篇論文中進(jìn)行了介紹,該方法基于世界的學(xué)習(xí)模型,使機(jī)器人能夠預(yù)測(cè)其運(yùn)動(dòng)和動(dòng)作的結(jié)果,從而減少了在現(xiàn)實(shí)世界中進(jìn)行大量試錯(cuò)訓(xùn)練的需要。
進(jìn)行這項(xiàng)研究的研究人員之一DanijarHafner告訴TechXplore:“我們希望構(gòu)建能夠直接在現(xiàn)實(shí)世界中持續(xù)學(xué)習(xí)的機(jī)器人,而無(wú)需創(chuàng)建模擬環(huán)境。”“我們之前只學(xué)習(xí)過電子游戲的世界模型,所以看到同樣的算法也能讓機(jī)器人在現(xiàn)實(shí)世界中快速學(xué)習(xí),真是太令人興奮了!”
使用他們的方法,研究人員能夠高效、快速地教機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行特定行為。例如,他們訓(xùn)練了一只機(jī)器狗在短短一小時(shí)內(nèi)從背部滾下來、站起來走路。
訓(xùn)練完成后,團(tuán)隊(duì)開始推動(dòng)機(jī)器人,發(fā)現(xiàn)在10分鐘內(nèi),它也能夠承受推力或快速回滾。該團(tuán)隊(duì)還在機(jī)械臂上測(cè)試了他們的工具,訓(xùn)練他們撿起物體并將它們放置在特定的位置,而不告訴他們物體最初的位置。
“我們看到機(jī)器人適應(yīng)了光照條件的變化,例如一天中隨著太陽(yáng)移動(dòng)的陰影,”哈夫納說。“除了在現(xiàn)實(shí)世界中快速、持續(xù)地學(xué)習(xí)之外,沒有任何變化的相同算法在四種不同的機(jī)器人和任務(wù)中運(yùn)行良好。因此,我們認(rèn)為世界模型和在線適應(yīng)將在機(jī)器人技術(shù)的發(fā)展中發(fā)揮重要作用。”
基于強(qiáng)化學(xué)習(xí)的計(jì)算模型可以隨著時(shí)間的推移教授機(jī)器人的行為,方法是獎(jiǎng)勵(lì)他們想要的行為,例如良好的對(duì)象抓取策略或以合適的速度移動(dòng)。通常,這些模型是通過漫長(zhǎng)的試錯(cuò)過程進(jìn)行訓(xùn)練的,使用可以加速的模擬和現(xiàn)實(shí)世界中的實(shí)驗(yàn)。
另一方面,由Hafner及其同事開發(fā)的算法Dreamer根據(jù)其過去的“經(jīng)驗(yàn)??”構(gòu)建了一個(gè)世界模型。然后可以使用這個(gè)世界模型來教機(jī)器人基于“想象的”交互的新行為。這顯著減少了在現(xiàn)實(shí)環(huán)境中進(jìn)行試驗(yàn)的需要,從而大大加快了訓(xùn)練過程。
“直接預(yù)測(cè)未來的感官輸入將太慢且太昂貴,尤其是在涉及像相機(jī)圖像這樣的大輸入時(shí),”哈夫納說。“世界模型首先學(xué)習(xí)將其在每個(gè)時(shí)間步長(zhǎng)的感官輸入(電機(jī)角度、加速度計(jì)測(cè)量值、相機(jī)圖像等)編碼為一個(gè)緊湊的表示。給定一個(gè)表示和一個(gè)電機(jī)命令,然后它學(xué)會(huì)預(yù)測(cè)結(jié)果表示下一個(gè)時(shí)間步驟。”
Dreamer制作的世界模型允許機(jī)器人“想象”未來的表征,而不是處理原始的感官輸入。這反過來又允許模型使用單個(gè)圖形處理單元(GPU)并行計(jì)劃數(shù)千個(gè)動(dòng)作序列。這些“想象的”序列有助于快速提高機(jī)器人在特定任務(wù)上的表現(xiàn)。
“強(qiáng)化學(xué)習(xí)中潛在特征的使用已經(jīng)在表征學(xué)習(xí)的背景下進(jìn)行了廣泛的研究;其想法是可以創(chuàng)建大型感官輸入(相機(jī)圖像、深度掃描)的緊湊表征,從而減小模型大小并可能減少所需的培訓(xùn)時(shí)間,”另一位參與該研究的研究員AlejandroEscontrela告訴TechXplore。“然而,表征學(xué)習(xí)技術(shù)仍然需要機(jī)器人與現(xiàn)實(shí)世界或模擬器長(zhǎng)時(shí)間交互來學(xué)習(xí)任務(wù)。Dreamer允許機(jī)器人通過使用其學(xué)習(xí)的表征作為準(zhǔn)確且超高效的方式從想象的交互中學(xué)習(xí)”模擬器。這使機(jī)器人能夠在學(xué)習(xí)的世界模型中進(jìn)行大量的訓(xùn)練。”
在訓(xùn)練機(jī)器人的同時(shí),Dreamer不斷收集新的經(jīng)驗(yàn)并利用它們來增強(qiáng)其世界模型,從而改善機(jī)器人的行為。他們的方法使研究人員能夠在一小時(shí)內(nèi)訓(xùn)練一個(gè)四足機(jī)器人行走并適應(yīng)特定的環(huán)境刺激,而無(wú)需使用以前從未實(shí)現(xiàn)過的模擬器。
“在未來,我們認(rèn)為這項(xiàng)技術(shù)將使用戶能夠直接在現(xiàn)實(shí)世界中教授機(jī)器人許多新技能,從而無(wú)需為每項(xiàng)任務(wù)設(shè)計(jì)模擬器,”哈夫納說。“它還為構(gòu)建適應(yīng)硬件故障的機(jī)器人打開了大門,例如盡管其中一條腿的電機(jī)壞了,但仍能行走。”
在最初的測(cè)試中,Hafner、Escontrela、PhilipWu和他們的同事也使用他們的方法訓(xùn)練機(jī)器人撿起物體并將它們放置在特定的位置。這項(xiàng)由倉(cāng)庫(kù)和裝配線上的工人每天執(zhí)行的任務(wù)對(duì)于機(jī)器人來說可能很難完成,尤其是當(dāng)它們預(yù)期拾取的物體的位置未知時(shí)。
Dreamer遵循簡(jiǎn)單的物理機(jī)器人在線學(xué)習(xí)流程,無(wú)需模擬器。與現(xiàn)實(shí)世界的交互被添加到存儲(chǔ)所有過去經(jīng)驗(yàn)的回放緩沖區(qū)中。世界模型隨機(jī)學(xué)習(xí)從重放緩沖區(qū)中獲取的序列。該行為使用“演員評(píng)論家”算法從世界模型的預(yù)測(cè)中學(xué)習(xí)。當(dāng)前行為用于與世界交互以收集新體驗(yàn),從而關(guān)閉循環(huán)。信用:吳等人。
“與這項(xiàng)任務(wù)相關(guān)的另一個(gè)困難是,在機(jī)器人真正抓住某些東西之前,我們無(wú)法向它提供中間反饋或獎(jiǎng)勵(lì),因此在沒有中間指導(dǎo)的情況下,機(jī)器人有很多探索空間,”哈夫納說。“在10小時(shí)的完全自主操作中,使用Dreamer訓(xùn)練的機(jī)器人接近了人類遠(yuǎn)程操作員的性能。這一結(jié)果表明,世界模型是倉(cāng)庫(kù)和裝配線自動(dòng)化站的一種有前途的方法。”
在他們的實(shí)驗(yàn)中,研究人員成功地使用Dreamer算法訓(xùn)練了四個(gè)形態(tài)不同的機(jī)器人完成各種任務(wù)。使用傳統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練這些機(jī)器人通常需要大量的手動(dòng)調(diào)整,在沒有額外調(diào)整的情況下在任務(wù)中表現(xiàn)良好。
“根據(jù)我們的結(jié)果,我們預(yù)計(jì)會(huì)有更多的機(jī)器人團(tuán)隊(duì)開始使用和改進(jìn)Dreamer,以解決更具挑戰(zhàn)性的機(jī)器人問題,”Hafner說。“擁有開箱即用的強(qiáng)化學(xué)習(xí)算法可以讓團(tuán)隊(duì)有更多時(shí)間專注于構(gòu)建機(jī)器人硬件并指定他們想要使用世界模型自動(dòng)化的任務(wù)。”
該算法可以很容易地應(yīng)用于機(jī)器人,其代碼很快就會(huì)開源。這意味著其他團(tuán)隊(duì)很快將能夠使用它來使用世界模型訓(xùn)練自己的機(jī)器人。
Hafner、Escontrela、Wu和他們的同事現(xiàn)在想進(jìn)行新的實(shí)驗(yàn),為四足機(jī)器人配備攝像頭,這樣它不僅可以學(xué)會(huì)走路,還可以識(shí)別附近的物體。這應(yīng)該允許機(jī)器人處理更復(fù)雜的任務(wù),例如避開障礙物、識(shí)別環(huán)境中感興趣的對(duì)象或在人類用戶旁邊行走。
“機(jī)器人技術(shù)的一個(gè)公開挑戰(zhàn)是用戶如何直觀地為機(jī)器人指定任務(wù),”Hafner補(bǔ)充道。“在我們的工作中,我們將機(jī)器人優(yōu)化為Python函數(shù)的獎(jiǎng)勵(lì)信號(hào)實(shí)現(xiàn)了,但最終,通過直接告訴機(jī)器人何時(shí)做對(duì)或做錯(cuò)來根據(jù)人類偏好教機(jī)器人會(huì)很好。這可以通過按下按鈕來實(shí)現(xiàn)給予獎(jiǎng)勵(lì),甚至讓機(jī)器人了解人類語(yǔ)言。”
到目前為止,該團(tuán)隊(duì)僅使用他們的算法來訓(xùn)練機(jī)器人完成特定任務(wù),這些任務(wù)在實(shí)驗(yàn)開始時(shí)就已明確定義。然而,在未來,他們還希望訓(xùn)練機(jī)器人在不處理明確定義的任務(wù)的情況下探索他們的環(huán)境。
“一個(gè)有希望的方向是訓(xùn)練機(jī)器人在沒有任務(wù)的情況下通過人為的好奇心探索周圍環(huán)境,然后更快地適應(yīng)用戶指定的任務(wù),”哈夫納補(bǔ)充道。