您現(xiàn)在的位置是:首頁(yè) >要聞 > 2020-12-11 08:17:22 來(lái)源:
新研究有助于消除社交媒體的錯(cuò)誤信息
賴斯大學(xué)的研究人員發(fā)現(xiàn)了一種更有效的方法,可以使社交媒體公司使用經(jīng)過(guò)人工智能訓(xùn)練的概率過(guò)濾器來(lái)防止錯(cuò)誤信息在網(wǎng)上傳播。賴斯計(jì)算機(jī)科學(xué)家Anshumali Shrivastava和統(tǒng)計(jì)專業(yè)的研究生Dai Zhenwei今天在僅在線的2020年神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2020)上發(fā)表的一項(xiàng)研究中概述了掃描社交媒體的新方法。他們的方法以更智能的方式應(yīng)用了機(jī)器學(xué)習(xí),以改善Bloom濾波器的性能,Bloom濾波器是半個(gè)世紀(jì)前設(shè)計(jì)的一種廣泛使用的技術(shù)。
通過(guò)使用虛假新聞和計(jì)算機(jī)病毒的測(cè)試數(shù)據(jù)庫(kù),Shrivastava和Dai展示了他們的自適應(yīng)學(xué)習(xí)型Bloom過(guò)濾器(Ada-BF)所需的內(nèi)存減少了50%,以實(shí)現(xiàn)與學(xué)習(xí)型Bloom過(guò)濾器相同的性能水平。
為了解釋他們的過(guò)濾方法,Shrivastava和Dai引用了Twitter的一些數(shù)據(jù)。這家社交媒體巨頭最近透露,其用戶每天增加約5億條推文,而這些推文通常在用戶點(diǎn)擊“發(fā)送”后一秒鐘就在線出現(xiàn)。
Shrivastava說(shuō):“在選舉期間,他們每秒收到約10,000條推文,而一秒鐘的延遲大約是每毫秒六條推文。” “如果您想應(yīng)用一個(gè)過(guò)濾器來(lái)讀取每條推文,并用已知為偽造的信息標(biāo)記這些推文,則您的標(biāo)記機(jī)制不能慢于6毫秒,否則您將落在后面而永不追趕。”
如果發(fā)送標(biāo)記的tweet進(jìn)行額外的手動(dòng)審核,則低假陽(yáng)性率也至關(guān)重要。換句話說(shuō),您需要最大程度地減少錯(cuò)誤標(biāo)記的真實(shí)推文數(shù)量。
他說(shuō):“如果您的假陽(yáng)性率低至0.1%,那么即使您錯(cuò)誤地將每秒10條推文(或每天超過(guò)80萬(wàn)條)標(biāo)記為要人工審核,” “這就是為什么大多數(shù)傳統(tǒng)的僅使用AI的方法禁止控制錯(cuò)誤信息的原因。”
Shrivastava表示,Twitter并未透露其過(guò)濾推文的方法,但據(jù)信它們采用了Bloom過(guò)濾器,Bloom過(guò)濾器是1970年發(fā)明的一種低內(nèi)存技術(shù),用于檢查特定數(shù)據(jù)元素(例如一段計(jì)算機(jī)代碼)是否是其中的一部分已知元素集的集合,例如已知計(jì)算機(jī)病毒的數(shù)據(jù)庫(kù)。布隆過(guò)濾器可以確保找到與數(shù)據(jù)庫(kù)匹配的所有代碼,但它也會(huì)記錄一些誤報(bào)。
Shrivastava說(shuō):“假設(shè)您發(fā)現(xiàn)了一條錯(cuò)誤信息,并希望確保它不會(huì)在推文中傳播。” “ Bloom過(guò)濾器可讓您在百萬(wàn)分之一秒或更短的時(shí)間內(nèi)非??斓貦z查tweet。如果它說(shuō)tweet是干凈的,則它與您的錯(cuò)誤信息數(shù)據(jù)庫(kù)中的任何內(nèi)容都不匹配,這是100%保證的。因此沒(méi)有可以通過(guò)已知的錯(cuò)誤信息發(fā)送一條推文。但是Bloom過(guò)濾器會(huì)在很短的時(shí)間內(nèi)標(biāo)記無(wú)害的推文。”
在過(guò)去三年中,研究人員提供了各種使用機(jī)器學(xué)習(xí)的方案,以增強(qiáng)Bloom過(guò)濾器并提高其效率??梢杂?xùn)練語(yǔ)言識(shí)別軟件來(lái)識(shí)別和批準(zhǔn)大多數(shù)推文,從而減少需要使用Bloom過(guò)濾器處理的數(shù)量。機(jī)器學(xué)習(xí)分類器的使用可以減少過(guò)濾數(shù)據(jù)所需的計(jì)算開(kāi)銷,從而使公司可以在更短的時(shí)間內(nèi)使用相同的資源處理更多的信息。
“當(dāng)人們今天使用機(jī)器學(xué)習(xí)模型時(shí),他們浪費(fèi)了許多來(lái)自機(jī)器學(xué)習(xí)模型的有用信息,”戴說(shuō)。
典型的方法是設(shè)置容差閾值,并將低于該閾值的所有內(nèi)容發(fā)送到Bloom過(guò)濾器。如果置信度閾值為85%,則意味著分類器認(rèn)為安全性為80%的信息所接受的檢查級(jí)別與僅10%的信息相同。
戴說(shuō):“即使我們不能完全依靠機(jī)器學(xué)習(xí)分類器,它仍然可以為我們提供有價(jià)值的信息,可以減少Bloom過(guò)濾器資源的數(shù)量。” “我們所做的是概率性地應(yīng)用這些資源。當(dāng)分類器只有10%的置信度時(shí),我們會(huì)提供更多的資源;而當(dāng)分類器只有20%的置信度時(shí),我們會(huì)提供較少的資源,依此類推。我們將整個(gè)分類器用于分析并使用可以從布隆過(guò)濾器分配的全部資源。”
Shrivastava說(shuō),Ada-BF減少的內(nèi)存需求直接轉(zhuǎn)化為實(shí)時(shí)過(guò)濾系統(tǒng)的額外容量。
他說(shuō):“我們需要一半的空間。” “因此,實(shí)質(zhì)上,我們可以使用相同的資源處理兩倍的信息。”
猜你喜歡
最新文章
點(diǎn)擊排行
- 怎樣進(jìn)行工程項(xiàng)目質(zhì)量管理(關(guān)于怎樣進(jìn)行工程項(xiàng)目質(zhì)量管理介紹)
- 德誠(chéng)珠寶集團(tuán)有限公司(關(guān)于德誠(chéng)珠寶集團(tuán)有限公司介紹)
- 快穿回家就要嫖(關(guān)于快穿回家就要嫖介紹)
- 快穿回來(lái) 我佛了(關(guān)于快穿回來(lái) 我佛了介紹)
- 快穿回來(lái)后我成了團(tuán)寵(關(guān)于快穿回來(lái)后我成了團(tuán)寵介紹)
- 快穿回來(lái)后我成了大佬(關(guān)于快穿回來(lái)后我成了大佬介紹)
- 德誠(chéng)改造家(關(guān)于德誠(chéng)改造家介紹)
- 德詩(shī)苑閣樓精品酒店(關(guān)于德詩(shī)苑閣樓精品酒店介紹)
隨機(jī)推薦
怎樣進(jìn)行建工電氣施工-工程建設(shè)十萬(wàn)個(gè)怎么辦(關(guān)于怎樣進(jìn)行建工電氣施工-工程建設(shè)十萬(wàn)個(gè)怎么辦介紹)
怎樣進(jìn)行工程項(xiàng)目質(zhì)量管理(關(guān)于怎樣進(jìn)行工程項(xiàng)目質(zhì)量管理介紹)
怎樣進(jìn)行工程項(xiàng)目合同管理(關(guān)于怎樣進(jìn)行工程項(xiàng)目合同管理介紹)
怎樣進(jìn)行黨性修養(yǎng)和黨性分析(關(guān)于怎樣進(jìn)行黨性修養(yǎng)和黨性分析介紹)
怎樣進(jìn)行黨性修養(yǎng)與黨性分析(關(guān)于怎樣進(jìn)行黨性修養(yǎng)與黨性分析介紹)