您現(xiàn)在的位置是:首頁(yè) >要聞 > 2020-12-04 15:13:29 來(lái)源:
受嬰兒行為啟發(fā)而改善機(jī)器學(xué)習(xí)的技術(shù)
從出生的第一年開(kāi)始,人類(lèi)就具有天生的能力,他們可以不斷地學(xué)習(xí)并建立世界的心理模型,只需觀察并與周?chē)氖挛锘蛉嘶?dòng)即可。認(rèn)知心理學(xué)研究表明,人類(lèi)會(huì)廣泛利用以前獲得的知識(shí),尤其是在遇到新情況或做出決策時(shí)。
盡管最近在人工智能(AI)領(lǐng)域取得了重大進(jìn)展,但大多數(shù)虛擬代理仍需要數(shù)百小時(shí)的培訓(xùn)才能在幾個(gè)任務(wù)中達(dá)到人類(lèi)水平的性能,而人類(lèi)可以學(xué)習(xí)如何在幾小時(shí)或更短的時(shí)間內(nèi)完成這些任務(wù)。最近的研究強(qiáng)調(diào)了人類(lèi)如此迅速地獲取知識(shí)的能力的兩個(gè)關(guān)鍵因素,即直觀的物理學(xué)和直觀的心理學(xué)。
從開(kāi)發(fā)的早期階段就在人類(lèi)中觀察到的這些直覺(jué)模型可能是未來(lái)學(xué)習(xí)的核心推動(dòng)者?;谶@一想法,韓國(guó)高級(jí)科學(xué)技術(shù)研究院(KAIST)的研究人員最近開(kāi)發(fā)了一種內(nèi)在的獎(jiǎng)勵(lì)歸一化方法,該方法可以使AI代理選擇最能改善其直覺(jué)模型的動(dòng)作。在arXiv上預(yù)先發(fā)表的論文中,研究人員專(zhuān)門(mén)提出了一種圖形物理網(wǎng)絡(luò),該網(wǎng)絡(luò)與受人類(lèi)嬰兒觀察到的學(xué)習(xí)行為啟發(fā)的深度強(qiáng)化學(xué)習(xí)相集成。
研究人員在論文中解釋說(shuō):“想像人類(lèi)嬰兒在一間房間里,玩具擺在可以觸及的距離處。” “他們不斷地對(duì)物體進(jìn)行抓取,投擲和執(zhí)行動(dòng)作;有時(shí),他們觀察到動(dòng)作的后果,但有時(shí),他們失去興趣并轉(zhuǎn)移到另一個(gè)物體上。'兒童為科學(xué)家'的觀點(diǎn)表明,人類(lèi)嬰兒是具有內(nèi)在動(dòng)機(jī)去進(jìn)行自己的實(shí)驗(yàn),發(fā)現(xiàn)更多信息,并最終學(xué)會(huì)區(qū)分不同的對(duì)象并為它們創(chuàng)建更豐富的內(nèi)部表示。”
心理學(xué)研究表明,人類(lèi)在生命的最初幾年中一直在不斷地探索周?chē)沫h(huán)境,這使他們能夠形成對(duì)世界的關(guān)鍵理解。此外,當(dāng)孩子觀察到的結(jié)果不符合他們先前的期望(即違反期望)時(shí),通常會(huì)鼓勵(lì)他們做進(jìn)一步的實(shí)驗(yàn)以更好地了解自己所處的狀況。
KAIST的研究人員團(tuán)隊(duì)嘗試使用強(qiáng)化學(xué)習(xí)方法在AI代理中重現(xiàn)這些行為。在他們的研究中,他們首先引入了圖形物理網(wǎng)絡(luò),該網(wǎng)絡(luò)可以提取對(duì)象之間的物理關(guān)系并預(yù)測(cè)其在3-D環(huán)境中的行為。隨后,他們將該網(wǎng)絡(luò)與深度強(qiáng)化學(xué)習(xí)模型集成在一起,引入了一種內(nèi)在的獎(jiǎng)勵(lì)歸一化技術(shù),該技術(shù)鼓勵(lì)A(yù)I代理探索和識(shí)別將不斷改善其直覺(jué)模型的動(dòng)作。
研究人員使用3D物理引擎證明了他們的圖形物理網(wǎng)絡(luò)可以有效地推斷不同物體的位置和速度。他們還發(fā)現(xiàn),他們的方法使深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)能夠不斷改善其直覺(jué)模型,鼓勵(lì)其僅基于內(nèi)在動(dòng)機(jī)與對(duì)象進(jìn)行交互。
在一系列評(píng)估中,由這組研究人員設(shè)計(jì)的新技術(shù)取得了非凡的準(zhǔn)確性,其中AI代理執(zhí)行了更多的不同探索操作。將來(lái),它可以為機(jī)器學(xué)習(xí)工具的發(fā)展提供信息,這些工具可以更快,更有效地從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí)。
研究人員在論文中解釋說(shuō):“我們已經(jīng)在不同質(zhì)量和半徑的球形物體的場(chǎng)景中測(cè)試了網(wǎng)絡(luò)在靜止和非靜止問(wèn)題上的作用。” “我們的希望是,這些經(jīng)過(guò)預(yù)訓(xùn)練的直覺(jué)模型將在以后用作其他面向目標(biāo)的任務(wù)(如ATARI游戲或視頻預(yù)測(cè))的先驗(yàn)知識(shí)。”