您現(xiàn)在的位置是：首頁(yè) >生活 > 2021-04-10 10:18:56 來(lái)源：

OpenAI的最先進(jìn)系統(tǒng)為機(jī)器人提供了人性化的靈活性

導(dǎo)讀 OpenAI是一家位于舊金山的非營(yíng)利性人工智能研究公司，由Elon Musk，Reid Hoffman和Peter Thiel以及其他行業(yè)巨頭支持，在6月宣布最新版本

OpenAI是一家位于舊金山的非營(yíng)利性人工智能研究公司，由Elon Musk，Reid Hoffman和Peter Thiel以及其他行業(yè)巨頭支持，在6月宣布最新版本的Dota 2播放AI 時(shí)成為頭條新聞- 被稱為OpenAI Five - 成功擊敗了業(yè)余球員。今天，它首次推出了一個(gè)機(jī)器人系統(tǒng)，可以操縱具有人類靈活性的物體。

在即將發(fā)表的一篇論文(“靈巧的手工操作”)中，OpenAI研究人員描述了一種系統(tǒng)，該系統(tǒng)使用強(qiáng)化模型，人工智能通過(guò)反復(fù)試驗(yàn)來(lái)學(xué)習(xí)，指導(dǎo)機(jī)器人手掌握和操縱具有下列狀態(tài)的物體。藝術(shù)精準(zhǔn)。更令人印象深刻的是，它在計(jì)算機(jī)模擬中完全以數(shù)字方式進(jìn)行了訓(xùn)練，并沒(méi)有提供任何人類演示來(lái)學(xué)習(xí)。

“雖然對(duì)物體的靈巧操控是人類的一項(xiàng)基本日常任務(wù)，但對(duì)自主機(jī)器人來(lái)說(shuō)仍然具有挑戰(zhàn)性，”該團(tuán)隊(duì)寫(xiě)道。“現(xiàn)代機(jī)器人通常設(shè)計(jì)用于受限設(shè)置中的特定任務(wù)，并且在很大程度上無(wú)法使用復(fù)雜的末端效應(yīng)器......在這項(xiàng)工作中，我們演示了訓(xùn)練控制策略的方法，這些策略執(zhí)行手動(dòng)操作并將其部署在物理機(jī)器人上。 ”

那怎么做呢?研究人員使用MuJoCo物理引擎來(lái)模擬真實(shí)機(jī)器人可能在其中運(yùn)行的物理環(huán)境，并使用Unity來(lái)渲染圖像以訓(xùn)練計(jì)算機(jī)視覺(jué)模型以識(shí)別姿勢(shì)。但該團(tuán)隊(duì)寫(xiě)道，這種方法有其局限性 - 模擬僅僅是物理設(shè)置的“粗略近似”，這使得“不太可能”生成能夠很好地轉(zhuǎn)化為現(xiàn)實(shí)世界的系統(tǒng)。

他們的解決方案是隨機(jī)化環(huán)境的各個(gè)方面，如物理(摩擦，重力，關(guān)節(jié)限制，物體尺寸等)和視覺(jué)外觀(照明條件，手和物體姿勢(shì)，材料和紋理)。這既降低了過(guò)度擬合的可能性 - 當(dāng)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)噪聲，對(duì)其性能產(chǎn)生負(fù)面影響時(shí)發(fā)生的現(xiàn)象 - 并且增加了生成基于真實(shí)世界指尖位置和對(duì)象姿勢(shì)成功選擇動(dòng)作的算法的機(jī)會(huì)。

接下來(lái)，研究人員使用384臺(tái)機(jī)器訓(xùn)練模型 - 一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò) - 每臺(tái)機(jī)器有16個(gè)CPU核心，每小時(shí)可以產(chǎn)生大約兩年的模擬經(jīng)驗(yàn)。在八GPU上進(jìn)行優(yōu)化后，他們進(jìn)入下一步：訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，從三個(gè)模擬攝像機(jī)圖像中預(yù)測(cè)機(jī)器人“手”中物體的位置和方向。

一旦模型被訓(xùn)練，就進(jìn)行驗(yàn)證測(cè)試。研究人員使用了一只暗影靈巧之手，這是一只五指共有24個(gè)自由度的機(jī)器人手，安裝在鋁制框架上以操縱物體。同時(shí)，兩組攝像機(jī) - 運(yùn)動(dòng)捕捉攝像機(jī)和RGB攝像機(jī) - 作為系統(tǒng)的眼睛，可以跟蹤物體的旋轉(zhuǎn)和方向。(盡管暗影靈巧手具有觸摸傳感器，但該團(tuán)隊(duì)僅選擇使用其關(guān)節(jié)感應(yīng)功能對(duì)手指位置進(jìn)行細(xì)粒度控制。)

在兩個(gè)測(cè)試的第一個(gè)中，算法的任務(wù)是重新定向標(biāo)有字母表字母的塊。團(tuán)隊(duì)選擇了一個(gè)隨機(jī)目標(biāo)，每次AI實(shí)現(xiàn)它時(shí)，他們選擇一個(gè)新目標(biāo)，直到機(jī)器人(1)掉落塊，(2)花了一分多鐘操縱塊，或(3)成功旋轉(zhuǎn)50次。在第二次測(cè)試中，塊與八角形棱鏡交換。

結(jié)果?這些模型不僅表現(xiàn)出“前所未有”的表現(xiàn)，而且自然發(fā)現(xiàn)了在人類中觀察到的類型的抓握，例如三腳架(一種使用拇指，食指和中指的握把)，棱柱形(拇指和手指相對(duì)的握把)彼此)和尖端捏握。他們還學(xué)習(xí)了如何旋轉(zhuǎn)和滑動(dòng)機(jī)器人手的手指，以及如何使用重力，平移和扭轉(zhuǎn)力將物體插入所需位置。

他們寫(xiě)道：“[O]你的系統(tǒng)可以[不僅]重新發(fā)現(xiàn)在人類身上發(fā)現(xiàn)的掌握，而是讓它們更好地適應(yīng)自己身體的局限和能力。”

這并不是說(shuō)它是一個(gè)完美的系統(tǒng)。它沒(méi)有經(jīng)過(guò)明確的訓(xùn)練來(lái)處理多個(gè)物體 - 它很難旋轉(zhuǎn)球形的第三個(gè)物體。在第二次測(cè)試中，模擬與真實(shí)機(jī)器人之間存在可測(cè)量的性能差距。

但最終，結(jié)果證明了當(dāng)代深度學(xué)習(xí)算法的潛力，研究人員得出結(jié)論：“[這些]算法可以應(yīng)用于解決復(fù)雜的現(xiàn)實(shí)世界機(jī)器人問(wèn)題，這些問(wèn)題超出了現(xiàn)有的非學(xué)習(xí)方法的范圍。 ”

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

標(biāo)簽：