日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >綜合 > 2020-11-29 08:53:16 來源:

        融合在線和離線強化學習的算法

        導讀 近年來,越來越多的研究人員正在開發(fā)基于人工神經網絡(ANN)的模型,可以使用稱為強化學習(RL)的技術對其進行訓練。RL要求訓練人工代理以通

        近年來,越來越多的研究人員正在開發(fā)基于人工神經網絡(ANN)的模型,可以使用稱為強化學習(RL)的技術對其進行訓練。RL要求訓練人工代理以通過在他們表現(xiàn)良好(例如,正確分類圖像)時給予他們“獎勵”來解決各種任務。

        到目前為止,大多數(shù)基于人工神經網絡的模型進行了培訓采用網上RL方法,其中,這是從來沒有接觸到代理人的任務是通過與網絡虛擬環(huán)境交互設計,完全可以學習。但是,這種方法可能非常昂貴,費時且效率低下。

        最近,一些研究探索了離線訓練模型的可能性。在這種情況下,人工代理通過分析固定的數(shù)據(jù)集學習完成給定的任務,因此不會主動與虛擬環(huán)境進行交互。盡管離線RL方法在某些任務上取得了可喜的成果,但它們不允許代理實時學習。

        加州大學伯克利分校的研究人員最近推出了一種新的算法,該算法使用在線和離線RL方法進行了訓練。該算法在arXiv上預先發(fā)表的一篇論文中提出,最初是針對大量離線數(shù)據(jù)進行訓練的,但同時也完成了一系列的在線訓練試驗。

        進行這項研究的研究人員之一阿什文·奈爾(Ashvin Nair)對TechXplore表示:“我們的工作重點是在現(xiàn)實世界的機器人環(huán)境中不斷面臨的兩個案例之間的情況。” “通常,在嘗試解決機器人技術問題時,研究人員擁有一些先驗數(shù)據(jù)(例如,一些有關如何解決任務的專家演示或您上次執(zhí)行的實驗中的一些數(shù)據(jù)),并且希望利用先驗數(shù)據(jù)來解決任務部分地,但是然后能夠微調解決方案以通過少量交互來掌握它。”

        在回顧過去的RL文獻時,Nair和他的同事意識到,先前開發(fā)的模型在首先進行離線訓練然后進行在線微調時效果不佳。這通常是因為他們學習速度太慢或在培訓期間未充分利用離線數(shù)據(jù)集。