您現(xiàn)在的位置是:首頁 >人工智能 > 2022-04-01 15:08:43 來源:
訓(xùn)練機(jī)器人操縱柔軟和可變形的物體
機(jī)器人可以解決魔方并在火星崎嶇的地形中航行,但它們?cè)谧鲆恍┖?jiǎn)單的任務(wù)時(shí)會(huì)遇到困難,比如搟一塊面團(tuán)或處理一雙筷子。即使擁有大量數(shù)據(jù)、清晰的指示和廣泛的培訓(xùn),他們也很難完成孩子輕松完成的任務(wù)。
新的模擬環(huán)境PlasticineLab旨在讓機(jī)器人學(xué)習(xí)更加直觀。通過將物理世界的知識(shí)構(gòu)建到模擬器中,研究人員希望能夠更容易地訓(xùn)練機(jī)器人來操縱現(xiàn)實(shí)世界中經(jīng)常彎曲和變形而不會(huì)恢復(fù)其原始形狀的物體和材料。該模擬器由麻省理工學(xué)院、麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室和加州大學(xué)圣地亞哥分校的研究人員開發(fā),于5月在國際學(xué)習(xí)代表大會(huì)上發(fā)布。
在PlasticineLab中,機(jī)器人代理學(xué)習(xí)如何通過在模擬中操縱各種軟物體來完成一系列給定的任務(wù)。在RollingPin中,目標(biāo)是通過按壓或用大頭針將面團(tuán)壓平;在繩索中,將繩索纏繞在柱子上;在筷子中,拿起一根繩子并將其移動(dòng)到目標(biāo)位置。
他們說,研究人員通過將世界的物理知識(shí)嵌入到模擬器中,訓(xùn)練他們的代理以比在強(qiáng)化學(xué)習(xí)算法下訓(xùn)練的代理更快地完成這些和其他任務(wù),這使他們能夠利用基于梯度下降的優(yōu)化技術(shù)來找到最好的解決方案。
“將物理基礎(chǔ)知識(shí)編程到模擬器中可以提高學(xué)習(xí)過程的效率,”該研究的主要作者黃志奧說,他曾是麻省理工學(xué)院-IBM沃森人工智能實(shí)驗(yàn)室的實(shí)習(xí)生,現(xiàn)在是一名博士。加州大學(xué)圣地亞哥分校的學(xué)生。“這讓機(jī)器人對(duì)現(xiàn)實(shí)世界有更直觀的感覺,這個(gè)世界充滿了生物和可變形的物體。”
“機(jī)器人可能需要數(shù)千次迭代才能通過強(qiáng)化學(xué)習(xí)的試錯(cuò)技術(shù)來掌握一項(xiàng)任務(wù),這種技術(shù)通常用于在模擬中訓(xùn)練機(jī)器人,”該工作的資深作者、IBM研究員ChuangGan說.“我們表明,通過學(xué)習(xí)一些物理知識(shí)可以更快地完成它,這允許機(jī)器人使用基于梯度的規(guī)劃算法來學(xué)習(xí)。”
PlasticineLab通過一種名為Taichi的圖形編程語言將基本物理方程烘焙到其中。太極拳和PlasticineLab所基于的早期模擬器ChainQueen都是由研究合著者胡元明開發(fā)的。通過使用基于梯度的規(guī)劃算法,PlasticineLab中的代理能夠不斷地將其目標(biāo)與它在該點(diǎn)所做的動(dòng)作進(jìn)行比較,從而更快地進(jìn)行路線修正。
“我們可以通過反向傳播找到最佳解決方案,這與用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的技術(shù)相同,”該研究的共同作者、博士陶杜說。麻省理工學(xué)院的學(xué)生。“反向傳播為代理提供了更新其操作以更快地達(dá)到其目標(biāo)所需的反饋。”
這項(xiàng)工作是賦予機(jī)器人更多常識(shí)的持續(xù)努力的一部分,以便它們有朝一日能夠在現(xiàn)實(shí)世界中烹飪、清潔、折疊衣物以及執(zhí)行其他平凡的任務(wù)。