您現(xiàn)在的位置是:首頁 >財經(jīng) > 2020-12-03 09:29:22 來源:
用戶友好的機器人主動獎勵學習方法
近年來,研究人員一直在嘗試開發(fā)使機器人學習新技能的方法。一種選擇是讓機器人從人類那里學習這些新技能,在不確定如何操作時提出問題,并從人類用戶的反應中學習。斯坦福大學的研究團隊最近開發(fā)了一種用戶友好的主動獎勵學習方法,可通過讓人類用戶回答他們的問題來訓練機器人。在arXiv上預發(fā)表的一篇論文中提出的這種新方法可以訓練機器人提出一些問題,這些問題對于人類用戶來說很容易回答,并且不是多余或不必要的。
研究人員通過電子郵件告訴TechXplore:“我們的團隊對機器人如何學習人類想要的東西很感興趣。” “一種直觀的學習方式是通過提問。例如,您寧愿謹慎駕駛還是主動駕駛自動駕駛汽車?這種自動駕駛汽車應該在人類駕駛的汽車之前還是之后合并?”
這項最新研究背后的主要假設是,理想情況下,機器人應該問一些有益的問題,以從人類用戶那里獲取盡可能多的信息。換句話說,機器人應該能夠通過問盡可能少的問題來理解人類的需求或想要他們做什么。
但是,實際上,大多數(shù)基于問題回答的現(xiàn)有培訓方法都沒有考慮人類用戶回答機器人提出的特定問題有多么容易。這通常會導致用戶浪費時間來回答大量不必要的問題或無法確定地進行響應。
研究人員說:“我們發(fā)現(xiàn)大多數(shù)最先進的算法都顯示出(幾乎)無法區(qū)分的人類替代方案,從而使人們無法正確回答機器人的問題。” “以我們的示例為例,這些方法可能會問:“您是否希望以29 mph或31 mph的速度在人工駕駛的汽車前合并?”這對于機器人決定是否以人們希望時速超過30英里/小時,但這種選擇太接近以至于人們無法可靠地做出響應。”
為了克服現(xiàn)有主動學習方法的局限性,研究人員開發(fā)了一種算法,可以選擇更有效的問題向人類用戶提問。該算法確定的問題最大程度地減少了機器人對人類用戶偏好的不確定性(即,使信息獲取最大化),同時還考慮了人類用戶回答這些問題的難易程度。