您現(xiàn)在的位置是:首頁(yè) >市場(chǎng) > 2020-11-19 09:42:35 來(lái)源:
深度學(xué)習(xí)模型在Gran上實(shí)現(xiàn)了超人的表現(xiàn)
在過(guò)去的幾十年中,全球的研究團(tuán)隊(duì)開(kāi)發(fā)了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),這些技術(shù)可以在各種任務(wù)上實(shí)現(xiàn)人類(lèi)可比的性能。這些模型中的一些還經(jīng)過(guò)訓(xùn)練,可以玩著名的棋盤(pán)或視頻游戲,例如古代中國(guó)游戲Go或Atari街機(jī)游戲,以便進(jìn)一步評(píng)估其功能和性能。
蘇黎世大學(xué)和索尼AI蘇黎世大學(xué)的研究人員最近測(cè)試了一種基于深度強(qiáng)化學(xué)習(xí)的方法的性能,該方法經(jīng)過(guò)訓(xùn)練可玩Gran Turismo Sport,這是由Polyphony Digital開(kāi)發(fā)并由Sony Interactive Entertainment發(fā)行的著名賽車(chē)視頻游戲。他們的發(fā)現(xiàn)發(fā)表在arXiv上預(yù)先發(fā)表的一篇論文中,進(jìn)一步凸顯了深度學(xué)習(xí)技術(shù)在模擬環(huán)境中控制汽車(chē)的潛力。
進(jìn)行這項(xiàng)研究的研究人員之一宋云龍告訴TechXplore:“高速自動(dòng)駕駛是一項(xiàng)艱巨的任務(wù),即使車(chē)輛接近其物理極限,也需要做出快速而精確的動(dòng)作。” “自動(dòng)賽車(chē)的目標(biāo)是在最短的時(shí)間內(nèi)完成給定的路線,其中包括控制汽車(chē)以接近其物理限制的一些困難。要解決這些挑戰(zhàn)并推進(jìn)前沿,我們考慮了自動(dòng)賽車(chē)的任務(wù)在最暢銷(xiāo)的賽車(chē)游戲《 Gran Turismo Sport》中,該游戲以對(duì)各種汽車(chē)和賽道的詳細(xì)物理模擬而聞名。”
Song和他的同事最近進(jìn)行的研究的主要目的是開(kāi)發(fā)一種基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的控制器,該控制器可以在模擬軌道內(nèi)自動(dòng)移動(dòng)賽車(chē),而無(wú)需事先了解賽車(chē)的動(dòng)力學(xué)特性。為了在Gran Turismo Sport上表現(xiàn)出色,控制器應(yīng)嘗試盡量減少完成給定軌道的時(shí)間。
為了實(shí)現(xiàn)他們的目標(biāo),研究人員首先定義了一個(gè)獎(jiǎng)勵(lì)函數(shù),該函數(shù)將“競(jìng)賽問(wèn)題”公式化為最短時(shí)間問(wèn)題,并概述了將輸入的觀察結(jié)果直接映射到汽車(chē)控制命令的神經(jīng)網(wǎng)絡(luò)策略。隨后,他們使用強(qiáng)化學(xué)習(xí)訓(xùn)練了神經(jīng)網(wǎng)絡(luò)的參數(shù),從而最大限度地提高了模型在表現(xiàn)良好時(shí)將獲得的回報(bào)。
研究人員在Gran Turismo Sport的試驗(yàn)中訓(xùn)練了他們基于神經(jīng)網(wǎng)絡(luò)的控制器,并在四個(gè)Playstation 4游戲機(jī)和臺(tái)式PC上運(yùn)行了該游戲。值得注意的是,經(jīng)過(guò)不到73小時(shí)的訓(xùn)練,他們的模型已經(jīng)達(dá)到了超人的表現(xiàn)。
猜你喜歡
最新文章
點(diǎn)擊排行
- 崇陽(yáng)縣高枧鄉(xiāng)(關(guān)于崇陽(yáng)縣高枧鄉(xiāng)簡(jiǎn)介)
- RazerZephyr可穿戴空氣凈化器評(píng)測(cè)
- 您現(xiàn)在可以訓(xùn)練Google助理更好地識(shí)別您的聲音
- WallpaperEngine現(xiàn)在可用于安卓設(shè)備
- 山芋千切(關(guān)于山芋千切簡(jiǎn)介)
- 3月7日PikminBloom將讓您在散步時(shí)播種和種植Pikmin它今天開(kāi)始發(fā)布
- Twitter終于讓每個(gè)人都可以創(chuàng)建Spaces
- 山芋丸子(關(guān)于山芋丸子簡(jiǎn)介)