您現(xiàn)在的位置是:首頁 >要聞 > 2020-12-25 08:19:13 來源:
DeepMind的MuZero可以征服并學(xué)習(xí)規(guī)則
愛因斯坦(Albert Einstein)曾經(jīng)說過:“您必須學(xué)習(xí)游戲規(guī)則,然后才能比其他人玩得更好。” 這很可能是DeepMind的座右銘,因?yàn)橐环菪碌膱?bào)告顯示它已經(jīng)開發(fā)了一個(gè)程序,可以在不知道規(guī)則的情況下掌握復(fù)雜的游戲。
Alphabet的子公司DeepMind此前曾通過加強(qiáng)學(xué)習(xí)來開創(chuàng)性的進(jìn)步,該課程教授掌握中國(guó)棋盤游戲Go和日本戰(zhàn)略游戲Shogi以及國(guó)際象棋和具有挑戰(zhàn)性的Atari電子游戲的程序。在所有這些情況下,計(jì)算機(jī)都被賦予了游戲規(guī)則。
但是《自然》雜志今天報(bào)道說,DeepMind的MuZero在沒有首先學(xué)習(xí)規(guī)則的情況下也完成了相同的壯舉,并且在某些情況下?lián)魯×嗽缙诘某绦颉?/p>
DeepMind的程序員依賴于稱為“超前搜索”的原理。通過這種方法,MuZero可以根據(jù)對(duì)手的反應(yīng)來評(píng)估許多潛在的舉動(dòng)。雖然在象棋這樣的復(fù)雜游戲中可能會(huì)有驚人數(shù)量的潛在動(dòng)作,但MuZero優(yōu)先考慮最相關(guān)和最可能的動(dòng)作,從成功的技巧中學(xué)習(xí),并避免失敗的技巧。
據(jù)研究人員稱,在與雅達(dá)利(Atari)的吃豆女士(Pac-Man)對(duì)抗時(shí),MuZero只能考慮考慮六到七個(gè)潛在的未來舉動(dòng),但仍然表現(xiàn)出色。
“實(shí)際上,我們首次擁有了一個(gè)系統(tǒng),能夠建立自己對(duì)世界運(yùn)作方式的理解,并利用這種理解來進(jìn)行這種復(fù)雜的預(yù)見性計(jì)劃,這是您以前在象棋這樣的游戲中所見過的,” DeepMind的首席研究科學(xué)家David Silver說。MuZero可以“從零開始,通過反復(fù)試驗(yàn),發(fā)現(xiàn)世界規(guī)則,并使用這些規(guī)則實(shí)現(xiàn)某種超人的表現(xiàn)。”
Silver預(yù)計(jì)MuZero的應(yīng)用將比單純的游戲更多。視頻壓縮已經(jīng)取得了進(jìn)展,考慮到大量不同的視頻格式和多種壓縮模式,這是一項(xiàng)艱巨的任務(wù)。到目前為止,它們的壓縮率提高了5%,這對(duì)Google擁有的公司而言可謂是不小的壯舉,該公司還處理著世界第二受歡迎的網(wǎng)站YouTube上巨大的視頻緩存,其中十億小時(shí)的內(nèi)容每天查看。(排名第一的網(wǎng)站?Google。)
西爾弗說,實(shí)驗(yàn)室還正在研究機(jī)器人程序設(shè)計(jì)和蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì),這有望使藥物個(gè)性化生產(chǎn)。