您現(xiàn)在的位置是:首頁 >要聞 > 2020-11-19 08:23:55 來源:
新測試顯示AI仍缺乏常識
最近,自然語言處理(NLP)取得了長足進步,但是AI對其閱讀的內(nèi)容了解多少?據(jù)南加州大學計算機科學系的研究人員說,這比我們想象的要少。在最近的論文中,助理教授助理項仁和博士。學生林雨晨(Yuchen Lin)發(fā)現(xiàn),盡管取得了進步,但AI仍不具備生成合理句子所需的常識。
林說:“當前的機器文本生成模型可以寫一篇可能使許多人信服的文章,但是它們基本上是在訓練階段看到的。” “本文的目標是研究當前最先進的文本生成模型是否可以編寫句子來描述我們?nèi)粘I钪械淖匀粓鼍啊?rdquo;
了解日常生活中的場景
具體地說,Ren和Lin測試了模型的推理能力,并表明當前文本生成模型與人類表現(xiàn)之間存在很大差距。給定一組常見的名詞和動詞,使用最先進的NLP計算機模型來創(chuàng)建描述日常場景的可信句子。雖然這些模型生成的語法正確的句子,但它們通常在邏輯上是不一致的。
例如,這是一個由最新模型使用“狗,飛盤,投擲,抓住”一詞生成的示例句子:
“兩只狗互相扔飛盤。”
該測試基于以下假設:如果沒有更深的常識概念,就不會產(chǎn)生連貫的想法(在這種情況下:“一個人扔飛盤,一只狗抓飛盤”)。換句話說,常識不僅僅是對語言的正確理解,這意味著您不必在對話中解釋所有內(nèi)容。這是開發(fā)通用AI的目標所面臨的根本挑戰(zhàn),但是,除了學術界以外,它對消費者也很重要。
在不了解語言的情況下,基于這些最新自然語言模型構建的聊天機器人和語音助手很容易出現(xiàn)故障。如果機器人要在人類環(huán)境中變得越來越重要,這也至關重要。畢竟,如果您向機器人詢問熱牛奶,您會希望它知道您要一杯牛奶,而不是整箱牛奶。
Lin說:“我們還證明,如果生成模型在我們的測試中表現(xiàn)更好,它也可以使其他需要常識推理的應用程序受益,例如機器人學習。” “機器人在采取合理的行動與人互動之前,需要了解我們?nèi)粘I钪械淖匀粓鼍啊?rdquo;
常識測試
常識性推理或使用關于世界的基本知識進行推理的能力(例如狗不能互相扔飛盤這一事實)數(shù)十年來一直抵制AI研究人員的努力。先進的深度學習模型現(xiàn)在可以達到90%左右的準確度,因此NLP似乎已經(jīng)接近其目標。
但是,自然語言處理專家Ren和他的學生Lin需要更令人信服的統(tǒng)計數(shù)據(jù)的準確性。他們在11月16日發(fā)表于《自然語言處理中的經(jīng)驗方法的發(fā)現(xiàn)》(EMNLP)會議上的論文中,他們挑戰(zhàn)了基準測試的有效性,因此挑戰(zhàn)了該領域實際取得的進步。