您現(xiàn)在的位置是:首頁 >要聞 > 2020-12-08 08:46:49 來源:
研究人員介紹了減少機器學(xué)習(xí)時間的新算法
中國科學(xué)院深圳先進技術(shù)研究所(SIAT)的李慧云教授領(lǐng)導(dǎo)的研究團隊介紹了一種簡單的深度強化學(xué)習(xí)(DRL)算法,該算法采用m-out-of-n引導(dǎo)程序技術(shù),并具有多個深度確定性策略梯度(DDPG)算法結(jié)構(gòu)。
新算法被稱為“自舉聚合多DDPG”(BAMDDPG),加速了訓(xùn)練過程,并提高了智能人工研究領(lǐng)域的性能。
研究人員在二維機器人和開放式賽車模擬器(TORCS)上測試了他們的算法。在二維機器人手臂博弈中的實驗結(jié)果表明,集合策略所獲得的報酬比子策略所獲得的報酬要高10%-50%,而在TORCS上的實驗結(jié)果表明,該新算法可以學(xué)習(xí)到成功的控制策略。培訓(xùn)時間減少了56.7%。
在連續(xù)動作空間上運行的DDPG算法在強化學(xué)習(xí)中引起了極大的關(guān)注。然而,即使對于簡單的系統(tǒng),通過貝葉斯信念狀態(tài)空間中的動態(tài)編程進行的探索策略也是相當(dāng)?shù)托У?。?dāng)學(xué)習(xí)最佳策略時,這通常會導(dǎo)致標(biāo)準(zhǔn)引導(dǎo)失敗。
所提出的算法使用集中式體驗重放緩沖區(qū)來提高探索效率。具有隨機初始化功能的n出n引導(dǎo)程序可以以較低的計算成本產(chǎn)生合理的不確定性估計,從而有助于訓(xùn)練的收斂。建議的自舉和聚合DDPG可以減少學(xué)習(xí)時間。
BAMDDPG使每個代理可以使用其他代理遇到的經(jīng)驗。由于每個代理都擁有更廣闊的視野和更多的環(huán)境信息,因此這使BAMDDPG子政策的培訓(xùn)更加有效。
此方法對于順序和迭代訓(xùn)練數(shù)據(jù)有效,在該數(shù)據(jù)中,數(shù)據(jù)表現(xiàn)出長尾分布,而不是獨立的相同分布的數(shù)據(jù)假設(shè)所暗示的范數(shù)分布。對于具有連續(xù)動作和狀態(tài)空間的任務(wù),它可以用更少的培訓(xùn)時間來學(xué)習(xí)最佳策略。
該研究的標(biāo)題為“具有多個深度確定