您現(xiàn)在的位置是:首頁 >人工智能 > 2021-04-26 16:18:43 來源:
更好的機器人視覺
物體識別是計算機視覺中研究最廣泛的問題之一。但是,操縱世界物體的機器人需要做的不僅僅是識別它們; 它還需要了解他們的方向。那個杯子是正面向上還是倒置?它的手柄面向哪個方向?
為了提高機器人測量物體定位的能力,麻省理工學(xué)院電氣工程和計算機科學(xué)系的研究生Jared Glover正在開發(fā)一種名為Bingham分布的統(tǒng)計結(jié)構(gòu)。他們將于11月在智能機器人和系統(tǒng)國際會議上發(fā)表的一篇論文中,Glover和麻省理工學(xué)院的校友Sanja Popovic '12,即現(xiàn)在谷歌的MEng '13,描述了一種新的機器人視覺算法,基于Bingham分布,比最好的競爭對手在識別雜亂場景中熟悉的物體方面好15%。
然而,該算法用于在熟悉的設(shè)置中分析高質(zhì)量的視覺數(shù)據(jù)。因為Bingham分布是概率推理的工具,所以它在信息不完整或不可靠的情況下承諾更大的優(yōu)勢。在正在進行的工作中,格洛弗正在使用賓厄姆分布來分析飛行中乒乓球的方向,作為教授機器人打乒乓球的更廣泛項目的一部分。在視覺信息特別差的情況下,他的算法比最佳替代方案提供了超過50%的改進。
“對齊是機器人技術(shù)中許多問題的關(guān)鍵,從物體檢測和跟蹤到繪圖,”格洛弗說。“模糊性實際上是在高度混亂的場景中獲得良好對齊的核心挑戰(zhàn),例如在冰箱內(nèi)或抽屜里。這就是為什么Bingham發(fā)行版似乎是一個有用的工具,因為它允許算法從每個模糊的本地特征中獲取更多信息。“
由于Bingham發(fā)行版對他的工作至關(guān)重要,因此Glover還開發(fā)了一套軟件工具,可以大大加快涉及它們的計算速度。該軟件可在線免費獲取,供其他研究人員使用。
在旋轉(zhuǎn)
賓漢姆分布對于機器人視覺如此有用的一個原因是它提供了一種組合來自不同來源的信息的方法。通常,在確定對象的取向需要試圖疊加對象在由照相機捕獲可視數(shù)據(jù)的幾何模型 - 在Glover的工作中,微軟Kinect相機的情況下,它與有關(guān)的距離信息一起捕捉2-d的彩色圖像色塊。
為簡單起見,假設(shè)物體是四面體,幾何模型由標(biāo)記四面體四個角的四個點組成。想象一下,軟件已經(jīng)識別出圖像中的四個位置,其中顏色或深度值突然變化 - 可能是對象的角落。它是四面體嗎?
然后,問題歸結(jié)為采取兩組點 - 模型和對象 - 并確定一個點是否可以疊加在另一個上。大多數(shù)算法,包括Glover,將首先嘗試對齊點。在四面體的情況下,假設(shè)在臨時對齊之后,模型中的每個點都靠近對象中的一個點,但與它不完全一致。
如果兩組點實際上描述了相同的對象,則可以通過圍繞右軸旋轉(zhuǎn)其中一個來對齊它們。對于任何給定的點對 - 一個來自模型,一個來自對象 - 可以計算圍繞特定軸旋轉(zhuǎn)一個特定角度的點將與另一個點對齊的概率。問題是相同的旋轉(zhuǎn)可能會使另外一對點移動得更遠。
然而,Glover能夠證明,任何給定點對的旋轉(zhuǎn)概率都可以描述為Bingham分布,這意味著它們可以組合成單個累積的Bingham分布。這允許Glover和Popovic的算法以原則方式探索可能的旋轉(zhuǎn),快速收斂于提供點之間最佳擬合的旋轉(zhuǎn)。
大傘
此外,與Bingham分布可以將每對點的概率組合成單個概率的方式相同,它還可以包含來自其他信息源的概率 - 例如對象曲面的曲率估計。當(dāng)前版本的Glover和Popovic算法將點旋轉(zhuǎn)概率與其他幾種概率相結(jié)合。
在涉及特定雜亂場景的視覺數(shù)據(jù)的實驗中 - 描繪家庭機器人將要操作的環(huán)境類型 - Glover的算法具有與最佳現(xiàn)有算法大致相同的誤報率:大約84%的對象識別是正確的,而不是83%的比賽。但它能夠確定場景中物體的百分比顯著更高--73%對64%。格洛弗認(rèn)為,這種差異是因為他的算法能夠更好地確定物體方向。
他還認(rèn)為,額外的信息來源可以進一步提高算法的性能。例如,Bingham分布還可以包含關(guān)于特定對象的統(tǒng)計信息 - 例如,咖啡杯可以是倒置的或正面朝上的,但很少在對角線處找到它。
實際上,正是因為賓漢分布的靈活性,格洛弗認(rèn)為它是機器人研究的一個有前途的工具。“你可以把你的整個博士學(xué)位編程用于尋找桌椅,杯子和類似的東西,但實際上并沒有很多通用工具,”格洛弗說。“對于更大的問題,例如估計對象與其屬性之間的關(guān)系以及處理有些含糊不清的事物,我們實際上并不是我們需要的地方。直到我們能做到這一點,我才真的認(rèn)為機器人將會非常有限。“
Magic Leap的計算機視覺和機器學(xué)習(xí)副總裁,OpenCV的總裁兼首席執(zhí)行官Gary Bradski認(rèn)為Bingham分布最終會成為標(biāo)準(zhǔn)的方法,OpenCV是負(fù)責(zé)監(jiān)管最廣泛使用的開源計算機視覺軟件庫的非營利組織。哪個機器人專家代表面向?qū)ο蟆?ldquo;賓厄姆分布生活在一個超球面上,”布拉茲基說道 - 一個圓形或球形的高維數(shù)。“我們試圖表示三維物體,球形表示自然適合三維空間。它只是對具有更多自然屬性的功能進行重新編碼。“
“這并不像數(shù)學(xué)看起來那么難,”布拉茲基補充道。“這是一個更好的表現(xiàn)形式,所以我認(rèn)為一旦理解了,這將成為你在做3-D時所構(gòu)建的事情之一。[格洛弗]發(fā)現(xiàn)了一些不為人知的東西,但一旦人們熟悉它,它就會毫無疑問。