您現(xiàn)在的位置是:首頁 >市場 > 2020-11-20 10:04:45 來源:
建立可以推理日常行為的機器學(xué)習(xí)模型
事件發(fā)生時抽象地推理的能力是人類智能的定義特征。我們本能地知道,哭泣和書寫是交流的手段,從樹上掉下來的熊貓和飛機降落是下降時的變異。
將世界組織成抽象的類別對計算機來說并不容易,但是近年來,研究人員通過訓(xùn)練機器學(xué)習(xí)模型來學(xué)習(xí)單詞和圖像,并注入有關(guān)世界的結(jié)構(gòu)信息以及物體,動物和動作之間的關(guān)系,從而使這一過程更加緊密。在本月舉行的歐洲計算機視覺會議上的一項新研究中,研究人員推出了一種混合語言視覺模型,該模型可以比較和對比在視頻上捕獲的一組動態(tài)事件,以闡明連接它們的高級概念。
他們的模型在兩種類型的視覺推理任務(wù)上的表現(xiàn)均優(yōu)于或優(yōu)于人類:選擇在概念上最能完善場景的視頻,以及挑選不合適的視頻。例如,在顯示狗吠叫和一個人在狗旁邊his叫的視頻時,該模型通過從五個視頻集中挑選哭泣的嬰兒來完成了整個場景。研究人員將其結(jié)果復(fù)制到兩個用于訓(xùn)練動作識別的AI系統(tǒng)的數(shù)據(jù)集上:MIT的Time-Moments和DeepMind的Kinetics。
這項研究的資深作者,麻省理工學(xué)院尋求情報的共同主任,麻省理工學(xué)院高級研究科學(xué)家奧德·奧利瓦(Aude Oliva)說:“我們證明您可以將抽象構(gòu)建到AI系統(tǒng)中,以執(zhí)行接近人類水平的普通視覺推理任務(wù)。”以及MIT-IBM Watson AI Lab的MIT總監(jiān)。“可以識別抽象事件的模型將提供更準(zhǔn)確,邏輯上的預(yù)測,并且對決策更有用。”
隨著深度神經(jīng)網(wǎng)絡(luò)成為識別照片和視頻中的對象和動作的專家,研究人員將目光投向了下一個里程碑:抽象和訓(xùn)練模型以推斷出所看到的東西。在一種方法中,研究人員將深網(wǎng)的模式匹配功能與符號程序的邏輯相結(jié)合,以教授一種模型來解釋場景中的復(fù)雜對象關(guān)系。在這里,研究人員利用另一種方法,利用嵌入詞義中的關(guān)系來賦予模型可視的推理能力。
這項研究的合著者,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究科學(xué)家Mathew Monfort說:“語言表示使我們能夠?qū)奈谋緮?shù)據(jù)庫中學(xué)習(xí)到的上下文信息集成到我們的視覺模型中。” “奔跑”,“起重”和“拳擊”之類的詞共有一些共同特征,例如,與“駕駛”相比,它們與“鍛煉”的概念更緊密相關(guān)。
研究人員使用WordNet(一個詞義數(shù)據(jù)庫),將Moments and Kinetics中每個動作類標(biāo)簽與兩個數(shù)據(jù)集中其他標(biāo)簽之間的關(guān)系映射。例如,“雕刻”,“雕刻”和“切割”等詞與“工藝”,“制作藝術(shù)”和“烹飪”等更高層次的概念相關(guān)?,F(xiàn)在,當(dāng)模型識別出雕刻等活動時,它可以從數(shù)據(jù)集中挑選出概念上相似的活動。
這個抽象類的關(guān)系圖用于訓(xùn)練模型執(zhí)行兩個基本任務(wù)。給定一組視頻,該模型會為每個視頻創(chuàng)建一個數(shù)字表示,該數(shù)字表示與視頻中顯示的動作的單詞表示相一致。然后,抽象模塊組合為集合中的每個視頻生成的表示,以創(chuàng)建新的集合表示,該新的集合表示用于標(biāo)識集合中所有視頻共享的抽象。
為了了解該模型與人類相比的表現(xiàn),研究人員要求人類受試者在線執(zhí)行相同的視覺推理任務(wù)。令他們感到驚訝的是,該模型在許多情況下的表現(xiàn)都與人類一樣好,有時還會產(chǎn)生意外的結(jié)果。在設(shè)定完成任務(wù)的一種變體中,在觀看了有人包裹禮物并用膠帶覆蓋物品的視頻后,模型建議有人在海灘上將某人掩埋在沙子中的視頻。
麻省理工學(xué)院的博士生卡米洛·福斯科說:“它實際上是在'覆蓋',但與其他片段的視覺特征卻大不相同。” “從概念上講,它是合適的,但我必須考慮一下。”
該模型的局限性包括過分強調(diào)某些功能的趨勢。在一個案例中,它建議用一組嬰兒和一個球的視頻來完成一組體育視頻,顯然是將球與運動和比賽相關(guān)聯(lián)。
研究人員說,可以訓(xùn)練以更抽象地“思考”的深度學(xué)習(xí)模型可以用更少的數(shù)據(jù)進行學(xué)習(xí)。抽象也為更高層次,更像人類的推理鋪平了道路。
Oliva說:“人類認(rèn)知的一個標(biāo)志就是我們有能力描述與其他事物相關(guān)的事物,以進行比較和對比。” “這是一種豐富而有效的學(xué)習(xí)方式,最終可以導(dǎo)致機器學(xué)習(xí)模型能夠理解類比,并且更接近與我們進行智能交流。”