日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >財經(jīng) > 2021-04-28 22:29:02 來源:

        谷歌發(fā)布了用于培訓(xùn)AI模型的開源強(qiáng)化學(xué)習(xí)框架

        導(dǎo)讀 強(qiáng)化學(xué)習(xí) - 一種人工智能(AI)技術(shù),使用獎勵(或懲罰)來驅(qū)動代理人朝著特定目標(biāo)前進(jìn) - 訓(xùn)練系統(tǒng)擊敗Alpha Go世界冠軍并掌握Valve的Dota

        強(qiáng)化學(xué)習(xí) - 一種人工智能(AI)技術(shù),使用獎勵(或懲罰)來驅(qū)動代理人朝著特定目標(biāo)前進(jìn) - 訓(xùn)練系統(tǒng)擊敗Alpha Go世界冠軍并掌握Valve的Dota 2。它是谷歌子公司DeepMind的深度Q網(wǎng)絡(luò)(DQN)的核心部分,它可以在多個工作人員中分配學(xué)習(xí),例如,在Atari 2600游戲中實現(xiàn)“超人”性能。麻煩的是,強(qiáng)化學(xué)習(xí)框架需要時間來掌握一個目標(biāo),往往是不靈活的,并不總是穩(wěn)定的。

        這就是谷歌提出替代方案的原因:基于TensorFlow的開源強(qiáng)化框架,它是機(jī)器學(xué)習(xí)庫。 從今天開始,它可以從Github獲得 。

        “受到大腦中獎勵動機(jī)行為的主要成分之一的啟發(fā),并反映了神經(jīng)科學(xué)與強(qiáng)化學(xué)習(xí)研究之間強(qiáng)烈的歷史聯(lián)系,該平臺旨在實現(xiàn)可以推動激進(jìn)發(fā)現(xiàn)的那種投機(jī)性研究,”Pablo Samuel Castro和Google Brain Team的研究人員Marc G. Bellemare在一篇博文中寫道。“這個版本還包括一組闡明如何使用我們框架的colabs。”

        谷歌發(fā)布了用于培訓(xùn)AI模型的開源強(qiáng)化學(xué)習(xí)框架

        他們和Google Brain團(tuán)隊開發(fā)了強(qiáng)化框架,其中考慮了三個原則:靈活性,穩(wěn)定性和可重復(fù)性。

        為此,它包括一套精心編寫的代碼(15個Python文件),專注于街機(jī)學(xué)習(xí)環(huán)境 - 一個用視頻游戲評估AI技術(shù)的平臺 - 以及四種不同的機(jī)器學(xué)習(xí)模型:上述DQN; C51; Rainbow代理的簡化版本; 和隱式分位數(shù)網(wǎng)絡(luò)。為了重現(xiàn)性,代碼在Arcade學(xué)習(xí)環(huán)境支持的60個游戲中提供完整的測試覆蓋率和訓(xùn)練數(shù)據(jù)(以JSON和Python pickle格式),并遵循標(biāo)準(zhǔn)化經(jīng)驗評估結(jié)果的最佳實踐。

        除了增強(qiáng)框架的發(fā)布,谷歌還推出了一個網(wǎng)站,允許開發(fā)人員快速可視化多個代理的培訓(xùn)運行。它還提供經(jīng)過訓(xùn)練的模型,原始統(tǒng)計日志和TensorFlow事件文件,用于TensorBoard繪圖,TensorBoard是Mountain View公司的TensorFlow程序可視化工具套件。

        “我們的希望是,我們的框架的靈活性和易用性將使研究人員能夠嘗試新的思想,包括增量和激進(jìn),”Bellemare和Castro寫道。“我們已經(jīng)積極地將它用于我們的研究,并發(fā)現(xiàn)它使我們能夠靈活地快速迭代許多想法。我們很高興看到更大的社區(qū)可以做些什么。