日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >要聞 > 2020-10-27 10:28:08 來源:

        狗訓(xùn)練方法可幫助教機(jī)器人學(xué)習(xí)新技巧

        導(dǎo)讀 約翰霍普金斯大學(xué)的計(jì)算機(jī)科學(xué)家采用一種通常用于教狗坐下和坐下的訓(xùn)練技術(shù),向機(jī)器人展示了一種如何自學(xué)幾種新技巧的機(jī)器人,包括堆砌塊。

        約翰霍普金斯大學(xué)的計(jì)算機(jī)科學(xué)家采用一種通常用于教狗坐下和坐下的訓(xùn)練技術(shù),向機(jī)器人展示了一種如何自學(xué)幾種新技巧的機(jī)器人,包括堆砌塊。通過這種方法,名為Spot的機(jī)器人可以在幾天內(nèi)學(xué)習(xí)通常需要一個(gè)月的時(shí)間。

        通過使用正強(qiáng)化,這是任何使用過的對待改變狗行為的人都熟悉的方法,團(tuán)隊(duì)極大地提高了機(jī)器人的技能,并且很快地完成了訓(xùn)練,使訓(xùn)練實(shí)際工作的機(jī)器人成為一個(gè)更可行的企業(yè)。這些發(fā)現(xiàn)新發(fā)表在名為“ Good Robot!”的論文中。

        “這里的問題是我們?nèi)绾巫寵C(jī)器人學(xué)習(xí)技能?” 主要作者安德魯·洪特(Andrew Hundt)說。在約翰·霍普金斯大學(xué)計(jì)算互動與機(jī)器人實(shí)驗(yàn)室工作的學(xué)生。“我有狗,所以我知道獎勵的工作,這就是我設(shè)計(jì)學(xué)習(xí)算法的靈感。”

        與天生具有高度直覺的大腦的人和動物不同,計(jì)算機(jī)是空白板,必須從頭開始學(xué)習(xí)一切。但是,真正的學(xué)習(xí)通常是通過反復(fù)試驗(yàn)來完成的,機(jī)器人專家仍在研究如何從錯誤中有效學(xué)習(xí)。

        該團(tuán)隊(duì)在這里通過設(shè)計(jì)一種獎勵系統(tǒng)來實(shí)現(xiàn)這一目標(biāo),該獎勵系統(tǒng)可以像對待狗一樣對待機(jī)器人,為機(jī)器人工作。狗可能會因?yàn)樽龅煤玫墓ぷ鞫玫斤灨桑鴻C(jī)器人則獲得了數(shù)字積分。

        洪特回憶說,他曾經(jīng)教過他的小混混小狗叫利亞(Leah)命令“離開它”,這樣她就可以無視步行中的松鼠。他使用兩種類型的零食,普通的教練零食和更好的東西,例如奶酪。當(dāng)莉亞興奮而無所事事時(shí),她一無所有。但是當(dāng)她冷靜下來并移開視線時(shí),她得到了好東西。“那時(shí)候我給了她奶酪,然后說,'離開!好呀!'”

        同樣,要堆積塊,發(fā)現(xiàn)機(jī)器人需要學(xué)習(xí)如何專注于建設(shè)性行動。當(dāng)機(jī)器人探索積木時(shí),它很快了解到正確的堆疊行為可以賺取高分,而錯誤的堆疊則不能賺到高分。伸出手,但不理解障礙?沒有分?jǐn)?shù) 敲一堆?絕對沒有分。通過將最后一個(gè)區(qū)塊放在四個(gè)區(qū)塊的堆棧之上,Spot獲得了最大的收益。

        訓(xùn)練策略不僅有效,而且花了幾天的時(shí)間來告訴機(jī)器人過去需要數(shù)周的時(shí)間。通過首先訓(xùn)練類似于視頻游戲的模擬機(jī)器人,然后使用Spot運(yùn)行測試,該團(tuán)隊(duì)能夠減少練習(xí)時(shí)間。

        最新文章