您現(xiàn)在的位置是:首頁 >人工智能 > 2021-04-23 16:59:56 來源:
基于視覺模型的強化學習作為通用機器人的途徑
只需很少的明確監(jiān)督和反饋,人類就可以通過簡單地通過感官與世界互動并觀察世界來學習各種運動技能。雖然在構(gòu)建能夠?qū)W習復雜技能并基于圖像像素等原始感官信息學習的機器方面取得了重大進展,但獲得大量且多樣化的一般技能仍然是一個開放的挑戰(zhàn)。我們的目標是建立一個通才:一個可以執(zhí)行許多不同任務的機器人,比如安排物品,拿起玩具和折疊毛巾,并且可以在現(xiàn)實世界中使用許多不同的物體來完成,而無需為每個物體或任務重新學習。
雖然這些基本運動技能比掌握國際象棋甚至使用刮刀更簡單,更不令人印象深刻,但我們認為能夠通過單一模型實現(xiàn)這種通用性是智能的一個基本方面。
獲得普遍性的關(guān)鍵是多樣性。如果您在狹窄的封閉世界環(huán)境中部署學習算法,則代理將恢復僅在較窄范圍的設(shè)置中成功的技能。這就是為什么訓練出來玩Breakout的算法會在圖像或游戲的任何變化時發(fā)生變化。實際上,圖像分類器的成功依賴于像ImageNet這樣的大型,多樣化的數(shù)據(jù)集。然而,讓機器人自主地從大型和多樣化的數(shù)據(jù)集中學習是非常具有挑戰(zhàn)性的。雖然收集各種感官數(shù)據(jù)相對簡單,但是對于一個人來說注釋所有機器人的體驗是不切實際的。收集完全無標簽的體驗更具可擴展性。然后,只給出感官數(shù)據(jù),類似于人類所擁有的,你能學到什么?對于原始的感官數(shù)據(jù),沒有進步,獎勵或成功的概念。不像Breakout這樣的游戲,
我們開發(fā)了一種算法,可以使用未標記的感官體驗學習通用預測模型,然后使用這個單一模型執(zhí)行各種任務。
在這篇文章中,我們將描述它是如何工作的。我們將討論如何僅基于原始感官交互數(shù)據(jù)(即圖像像素,無需物體檢測器或手工設(shè)計的感知組件)來學習。我們將展示如何使用學到的東西來完成許多不同的用戶指定任務。并且,我們將演示這種方法如何從原始像素控制真實機器人,執(zhí)行任務以及與機器人以前從未見過的對象進行交互。
學會從無監(jiān)督的互動中預測
我們首先需要一種收集各種數(shù)據(jù)的方法。如果我們訓練機器人用單個物體實例執(zhí)行單一技能,即使用特定的錘子擊中特定的釘子,那么它將只學習那個狹窄的設(shè)置; 特別的錘子和釘子是它的整個宇宙。我們?nèi)绾谓ㄔ炷軌驅(qū)W習更多通用技能的機器人?我們可以讓機器人在不同的環(huán)境中學習,而不是在狹窄的環(huán)境中學習單個任務,類似于孩子玩耍和探索。
如果一個機器人可以自己收集數(shù)據(jù)并完全自主地學習這種經(jīng)驗,那么它不需要一個人監(jiān)督,因此可以在一天中的任何時間收集經(jīng)驗并了解世界,甚至一夜之間!此外,多個機器人可以同時收集數(shù)據(jù)并分享他們的經(jīng)驗 - 數(shù)據(jù)收集是可擴展的,因此可以收集具有許多對象和動作的各種數(shù)據(jù)。為了實現(xiàn)這一點,我們有兩個機器人通過隨機采取各種對象,包括玩具和杯子等剛性物體,以及布和毛巾等可變形物體,并行收集數(shù)據(jù):
在數(shù)據(jù)收集過程中,我們觀察機器人的傳感器測量的內(nèi)容:圖像像素(視覺),手臂的位置(本體感受)以及發(fā)送到機器人的動作命令(動作)。我們無法直接測量物體的位置,它們對被推動的反應,速度等。此外,在這些數(shù)據(jù)中,沒有進步或成功的概念。與Breakout游戲或敲釘子游戲不同,我們不會獲得分數(shù)或目標。在現(xiàn)實世界中進行交互時,我們必須學習的是我們的感官提供的東西,或者在這種情況下,機器人的傳感器。
那么,只有給予我們的感官,我們才能學到什么?我們可以學習預測 - 如果機器人以一種方式移動其手臂而不是另一種方式,世界將會是什么樣子或感覺?
預測允許我們學習關(guān)于世界的一般事物,例如物體和物理。而這樣的通用知識正是突破游戲代理所缺失的。預測還允許我們從我們擁有的所有數(shù)據(jù)中學習:動作和圖像流有很多隱含的監(jiān)督。這很重要,因為我們沒有得分或獎勵功能。無模型強化學習系統(tǒng)通常僅從獎勵函數(shù)提供的監(jiān)督中學習,而基于模型的RL代理利用他們觀察到的像素中可用的豐富信息。現(xiàn)在,我們?nèi)绾螌嶋H使用這些預測?我們接下來會討論這個。
計劃執(zhí)行人為指定的任務
如果我們有一個世界的預測模型,那么我們可以用它來計劃實現(xiàn)目標。也就是說,如果我們了解行為的后果,那么我們就可以利用這種理解來選擇導致預期結(jié)果的行動。我們使用基于抽樣的程序來計劃。特別地,我們對許多不同的候選動作序列進行抽樣,然后選擇最頂層的計劃 - 最有可能導致期望結(jié)果的行動 - 并通過從適合頂級候選動作序列的動作分布重新采樣來迭代地改進我們的計劃。一旦我們提出了我們喜歡的計劃,我們就會在現(xiàn)實世界中執(zhí)行我們計劃的第一步,觀察下一張圖像,然后在發(fā)生意外情況時進行重新計劃。
現(xiàn)在一個自然的問題是 - 用戶如何為機器人指定目標或期望的結(jié)果?我們已經(jīng)嘗試了許多不同的方法來實現(xiàn)這一目標。我們發(fā)現(xiàn)的最簡單的機制之一是簡單地點擊初始圖像中的像素,并通過單擊另一個像素位置來指定應該移動與該像素對應的對象的位置。我們還可以給出一對以上的像素來指定其他所需的對象運動。雖然有些目標無法以這種方式表達(我們已經(jīng)探索了更多通用的目標規(guī)范,例如目標分類器),但我們發(fā)現(xiàn)指定像素位置可用于描述各種各樣的任務并且非常容易提供。需要說明的是,在數(shù)據(jù)收集過程中不使用這些用戶提供的目標規(guī)范,
實驗
我們在Sawyer機器人上嘗試了這種整體方法,收集了2周的無人監(jiān)督經(jīng)驗。重要的是,訓練期間唯一的人類參與是為機器人提供各種各樣的物體(周期性地交換物體)和編碼用于收集數(shù)據(jù)的隨機機器人運動。這使我們能夠以極少的努力每天24小時收集多個機器人的數(shù)據(jù)。我們在所有這些數(shù)據(jù)上訓練單個動作條件視頻預測模型,包括兩個攝像機視點,并使用前面描述的迭代規(guī)劃程序來規(guī)劃和執(zhí)行用戶指定的任務。
由于我們著手實現(xiàn)通用性,我們在涉及機器人以前從未見過的對象和機器人以前沒有遇到的目標的各種任務上評估相同的預測模型。
相關(guān)工作
目前 已經(jīng) 被 很多 之前 的作品是接近基于模型的強化學習(RL),即學習預測模型,然后利用該模型行事,或用它來學習策略的問題。許多此類先前的工作集中于可以直接訪問對象的位置或其他任務相關(guān)信息的設(shè)置,而不是通過圖像或其他原始傳感器觀察。具有這種低維狀態(tài)表示是一種強烈的假設(shè),在現(xiàn)實世界中通常是不可能實現(xiàn)的。直接對原始圖像幀進行操作的基于模型的RL方法尚未得到廣泛研究。已經(jīng)提出了幾種用于簡單合成 圖像和視頻的算法 游戲 環(huán)境,專注于一組固定的對象和任務。其他 的工作 已經(jīng)研究了在現(xiàn)實世界中的基于模型的RL,又注重個人技能。
最近的一些研究已經(jīng)研究了自我監(jiān)督的機器人學習,其中大規(guī)模的無人值守數(shù)據(jù)收集用于學習個人技能,例如掌握(例如看到 這些 作品),推動協(xié)作或避障 。我們的方法也完全是自我監(jiān)督的; 與這些方法相比,我們學習了一種與目標無關(guān)的預測模型,可用于執(zhí)行各種操作技能。
討論
在視覺上不同的環(huán)境中對許多不同任務的推廣可以說是當今強化學習和機器人研究的最大挑戰(zhàn)之一。深度學習大大減少了部署算法所需的任務特定工程量; 然而,現(xiàn)有方法通常需要大量的監(jiān)督經(jīng)驗或?qū)W⒂谡莆諉蝹€任務。我們的結(jié)果表明,我們的方法可以推廣到廣泛的任務和對象,包括以前從未見過的任務和對象。模型的一般性是從交互中進行大規(guī)模自我監(jiān)督學習的結(jié)果。我們相信,結(jié)果代表了在單一機器人強化學習系統(tǒng)所實現(xiàn)的任務的一般性方面向前邁出的重要一步。