您現(xiàn)在的位置是:首頁(yè) >要聞 > 2020-11-13 09:01:09 來(lái)源:
通過(guò)挖掘人類(lèi)測(cè)試人員來(lái)增強(qiáng)AI
人工智能的進(jìn)步取決于對(duì)大量數(shù)據(jù)的持續(xù)測(cè)試。通過(guò)該基準(zhǔn)測(cè)試,研究人員可以確定AI的“智能”程度,發(fā)現(xiàn)弱點(diǎn),然后開(kāi)發(fā)更強(qiáng)大,更智能的模型。
但是,該過(guò)程很耗時(shí)。當(dāng)AI系統(tǒng)處理一系列計(jì)算機(jī)生成的任務(wù)并最終達(dá)到最佳性能時(shí),研究人員必須回到圖紙上,設(shè)計(jì)更新,更復(fù)雜的項(xiàng)目,以進(jìn)一步增強(qiáng)AI的性能。
Facebook本周宣布,它已經(jīng)找到了更好的工具來(lái)執(zhí)行此任務(wù)-人員。為了創(chuàng)建更好,更靈活的AI,它構(gòu)建了Dynabench,該平臺(tái)利用人和計(jì)算機(jī)模型來(lái)收集數(shù)據(jù)和基準(zhǔn)AI。
它依賴(lài)于稱(chēng)為動(dòng)態(tài)對(duì)抗性數(shù)據(jù)收集的程序,正如周四發(fā)布的Facebook白皮書(shū)所解釋的那樣,它“徹底地重新思考了AI基準(zhǔn)測(cè)試”。
通過(guò)與自然語(yǔ)言處理模型進(jìn)行對(duì)話,人們嘗試通過(guò)使用語(yǔ)言上具有挑戰(zhàn)性的問(wèn)題來(lái)破壞程序。該程序可能會(huì)跳出具有挑戰(zhàn)性的詞匯或習(xí)慣用法,或者可能會(huì)誤解諷刺。人類(lèi)的問(wèn)題越有挑戰(zhàn)性,人工智能就越會(huì)學(xué)會(huì)在棘手的地形上導(dǎo)航。
Facebook解釋說(shuō):“它衡量了人類(lèi)對(duì)AI系統(tǒng)的欺騙程度,這比當(dāng)前的靜態(tài)基準(zhǔn)更好地表明了模型的質(zhì)量。” “最終,該指標(biāo)將更好地反映最重要情況下的AI模型的性能:與人互動(dòng)時(shí),他們的行為和反應(yīng)以復(fù)雜,變化的方式發(fā)生,而這些方式無(wú)法反映在一組固定的數(shù)據(jù)點(diǎn)中。”
實(shí)際上,最近的研究發(fā)現(xiàn)傳統(tǒng)的基準(zhǔn)測(cè)試并不可靠,發(fā)現(xiàn)自然語(yǔ)言學(xué)習(xí)模型中提供的答案中有多達(dá)三分之二實(shí)際上不知不覺(jué)地嵌入了測(cè)試中,并且僅允許模型記住答案。
Facebook研究員Douwe Kiela說(shuō),依靠錯(cuò)誤的基準(zhǔn)會(huì)阻礙AI的增長(zhǎng)。
Kiela說(shuō):“最終,您的系統(tǒng)在測(cè)試上要比人類(lèi)更好,但在整體任務(wù)上卻沒(méi)有更好。” “這非常具有欺騙性,因?yàn)樗刮覀兛瓷先ケ葘?shí)際情況要遠(yuǎn)得多。”
正如Facebook白皮書(shū)所指出的那樣,Dynabench指標(biāo)“將在最重要的情況下更好地反映AI模型的性能:與人互動(dòng)時(shí),他們的行為方式和反應(yīng)方式復(fù)雜而變化,而固定方式無(wú)法體現(xiàn)數(shù)據(jù)點(diǎn)集。”
華盛頓大學(xué)的AI研究人員強(qiáng)調(diào),由于機(jī)器學(xué)習(xí)能夠熟練地檢測(cè)人類(lèi)無(wú)法感知的數(shù)據(jù)集相關(guān)性,因此當(dāng)前AI的基準(zhǔn)測(cè)試已失真:這些機(jī)器正確回答了問(wèn)題,但沒(méi)有必要的“理解”含義。
崔業(yè)珍說(shuō):“我們看到了漢斯的聰明處境。” 她指的是1907年的一則啟示,即一匹馬可以執(zhí)行數(shù)學(xué)任務(wù)。實(shí)際上,一位心理學(xué)家發(fā)現(xiàn)這匹馬正在對(duì)訓(xùn)練者的身體提示做出反應(yīng),該提示將動(dòng)物提示了適當(dāng)?shù)姆磻?yīng)。最有趣的是,這名心理學(xué)家得知培訓(xùn)師實(shí)際上并沒(méi)有意識(shí)到糟糕的情況會(huì)導(dǎo)致他的非自愿線索被閱讀。該場(chǎng)景已被稱(chēng)為“觀察者期望效應(yīng)”或“聰明漢斯效應(yīng)”。
同樣,Dynabench希望確保AI不僅響應(yīng)意外提示。
通過(guò)在dynabench.org上與其自然語(yǔ)言處理模型進(jìn)行對(duì)話,邀請(qǐng)公眾參與Dynabench項(xiàng)目。
“我們想讓AI社區(qū)相信有更好的方法來(lái)衡量進(jìn)度,” Kiela說(shuō)。“希望它將導(dǎo)致更快的進(jìn)度,并更好地理解為什么機(jī)器學(xué)習(xí)模型仍然會(huì)失敗。”