您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2020-11-03 14:04:15 來源:
Alphabet的DeepMind開源了其AI項(xiàng)目的關(guān)鍵構(gòu)建塊
Alphabet公司的人工智能研究小組DeepMind Technologies Ltd正在與世界分享更多的研究成果。
今天,該部門開源了“關(guān)鍵算法組件”的集合,這些集合源于它所描述的一些最成功的AI計劃。該庫名為TRFL,發(fā)音為“松露”,旨在幫助從事采用強(qiáng)化學(xué)習(xí)(一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的流行方法)的項(xiàng)目的研究人員。
強(qiáng)化學(xué)習(xí)本質(zhì)上是一種通過反復(fù)試驗(yàn)來提高算法準(zhǔn)確性的方法。每當(dāng)AI在訓(xùn)練環(huán)境中做出正確的決定時,它都會獲得一種虛擬獎勵,從而使神經(jīng)網(wǎng)絡(luò)的發(fā)展保持在正確的軌道上。
TRFL包括依靠強(qiáng)化學(xué)習(xí)的算法通常使用的數(shù)學(xué)運(yùn)算的實(shí)現(xiàn)。它們與DeepMind所說的可以執(zhí)行更多“尖端”計算的組件以及各種其他構(gòu)建模塊(包括用于確保AI培訓(xùn)課程順利進(jìn)行的工具)配對使用。
整個集合都建立在可運(yùn)行的流行TensorFlow深度學(xué)習(xí)引擎上,該引擎由Alphabet的Google LLC創(chuàng)建并開源。根據(jù)DeepMind的說法,研究人員可以通過應(yīng)用程序編程接口與TRFL進(jìn)行交互,該接口使將內(nèi)部組件與其他來源的技術(shù)和概念結(jié)合起來相對簡單。
該小組對圖書館的目標(biāo)遠(yuǎn)遠(yuǎn)超出了簡化單個強(qiáng)化學(xué)習(xí)項(xiàng)目的范圍。TRFL是DeepMind做出的更廣泛工作的一部分,該工作旨在創(chuàng)建可供AI研究人員使用的通用構(gòu)建基塊,多年來,該工作已經(jīng)使該部門開源了其他內(nèi)部軟件。
基本思想是,如果在各個項(xiàng)目中重復(fù)使用相同的組件,則研究人員將可以更輕松地復(fù)制同事的工作。更緊密地復(fù)制AI項(xiàng)目參數(shù)的能力反過來會增加調(diào)試工作。根據(jù)DeepMind的說法,外部評審人員通常在識別影響神經(jīng)網(wǎng)絡(luò)或相關(guān)組件的缺陷方面起著重要作用。
該小組表示:“這些部分傾向于以微妙的方式進(jìn)行交互(通常在文件中沒有很好地記錄,正如Henderson及其同事所強(qiáng)調(diào)的那樣),因此很難在如此大的計算圖中識別錯誤。” “ OpenAI最近發(fā)表的一篇博客文章通過分析一些最受歡迎的增強(qiáng)學(xué)習(xí)代理的開源實(shí)現(xiàn),并發(fā)現(xiàn)十分之六的漏洞是由社區(qū)成員發(fā)現(xiàn)并得到作者確認(rèn)的,從而突出了這個問題。”
TRFL 在GitHub上可用。它為DeepMind和Alphabet近年來發(fā)布的一長串開源項(xiàng)目增加了另一項(xiàng)內(nèi)容。