您現(xiàn)在的位置是:首頁 >生活 > 2020-12-25 09:13:40 來源:
DeepMind可以在不知道規(guī)則的情況下掌握游戲
人工智能的圣杯一直是使計(jì)算機(jī)學(xué)習(xí)人類的方式。但是,當(dāng)今最強(qiáng)大的AI仍然依賴于某些已知規(guī)則,例如下棋或圍棋的規(guī)則。然而,人類的學(xué)習(xí)在推理上常常是混亂的,隨著我們的前進(jìn)學(xué)習(xí)生活規(guī)則。長期以來,DeepMind一直在嘗試使用游戲作為其環(huán)境和測試套件來創(chuàng)建此類AI。谷歌專注于人工智能研究的姊妹公司剛剛在MuZero上展示了其最新成果,MuZero是一款無需事先學(xué)習(xí)規(guī)則即可掌握游戲的AI。
DeepMind以前的AlphaGo等AI已在媒體上廣泛報(bào)道,以在各自的游戲中擊敗人類冠軍。盡管令人印象深刻,但距離最終目標(biāo)還有幾步之遙。特別是,AlphaGo的優(yōu)勢是不僅了解Go的規(guī)則,而且了解人類玩家的領(lǐng)域知識和數(shù)據(jù)。它的繼任者AlphaGo Zero和AlphaZero仍然可以依靠規(guī)則書來學(xué)習(xí)。
雖然這些AI在具有復(fù)雜策略但視覺效果簡單的游戲中表現(xiàn)出色,但當(dāng)應(yīng)用于規(guī)則不易推斷的視覺復(fù)雜的游戲時(shí),它們就會失敗。那就是新的MuZero AI出現(xiàn)的地方,它使用了一系列的Atari游戲,例如Pac-Man女士來測試其理論。
大多數(shù)AI研究人員使用兩種策略來解決學(xué)習(xí)問題,其中一種是依靠獲得游戲規(guī)則或知識來進(jìn)行超前搜索。基于模型的計(jì)劃通過創(chuàng)建準(zhǔn)確的環(huán)境模型來學(xué)習(xí),但是代價(jià)是過于復(fù)雜。MuZero的優(yōu)勢在于,它僅對重要的環(huán)境部分進(jìn)行建模,例如知道傘將幫助您在雨中保持干燥,而不是對所有雨滴的運(yùn)動進(jìn)行建模。
即使只有很少的步驟需要預(yù)先計(jì)劃,MuZero能夠熟練掌握游戲的效率和速度也給DeepMind留下了深刻的印象。它希望這種新的AI學(xué)習(xí)方法將被用于雜亂的現(xiàn)實(shí)環(huán)境中,在這些環(huán)境中不能以明確的方式制定規(guī)則。