日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁(yè) >要聞 > 2020-12-09 15:21:37 來(lái)源:

        建議變得越來(lái)越快捷且相關(guān)性更高

        導(dǎo)讀 在線擁有數(shù)十億本書,新聞報(bào)道和文檔,因此,現(xiàn)在是閱讀最佳時(shí)機(jī)的最佳時(shí)機(jī)-如果您有時(shí)間來(lái)篩選所有選項(xiàng)。麻省理工學(xué)院的助理教授賈斯汀·

        在線擁有數(shù)十億本書,新聞報(bào)道和文檔,因此,現(xiàn)在是閱讀最佳時(shí)機(jī)的最佳時(shí)機(jī)-如果您有時(shí)間來(lái)篩選所有選項(xiàng)。麻省理工學(xué)院的助理教授賈斯汀·所羅門說(shuō):“互聯(lián)網(wǎng)上有很多文字。” “任何有助于切穿所有材料的東西都是非常有用的。”

        所羅門公司與麻省理工學(xué)院的IBM Watson AI實(shí)驗(yàn)室及其位于麻省理工學(xué)院的幾何數(shù)據(jù)處理小組合作,最近在神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS)上提出了一種用于切入大量文本的新技術(shù)。他們的方法結(jié)合了三種流行的文本分析工具-主題建模,單詞嵌入和最佳傳輸-可以提供比流行的用于對(duì)文檔進(jìn)行分類的基準(zhǔn)上的競(jìng)爭(zhēng)方法更好,更快的結(jié)果。

        如果算法知道您過(guò)去喜歡什么,它可以掃描數(shù)百萬(wàn)種可能性來(lái)尋找類似的東西。隨著自然語(yǔ)言處理技術(shù)的改進(jìn),那些“您可能也喜歡”的建議正在變得越來(lái)越快捷和相關(guān)。

        在NeurIPS提出的方法中,一種算法會(huì)根據(jù)收藏集中的常用單詞,將書籍的收藏匯總為主題。然后將每本書分為5至15個(gè)最重要的主題,并估算每個(gè)主題對(duì)本書的總體貢獻(xiàn)。

        為了比較書籍,研究人員使用了另外兩種工具:?jiǎn)卧~嵌入(一種將單詞轉(zhuǎn)換為數(shù)字列表以反映其在常用用法中的相似性的技術(shù))和最佳傳輸(一種用于計(jì)算移動(dòng)物體或數(shù)據(jù)點(diǎn)的最有效方式的框架) -在多個(gè)目的地中。

        單詞嵌入使利用兩次最佳傳輸成為可能:首先比較整個(gè)館藏中的主題,然后在任意兩本書中比較常見主題的重疊程度。

        當(dāng)掃描大量書籍和冗長(zhǎng)的文檔時(shí),該技術(shù)特別有效。在這項(xiàng)研究中,研究人員提供了弗蘭克·斯托克頓(Frank Stockton)的《大戰(zhàn)辛迪加》的例子,這是一部19世紀(jì)的小說(shuō),預(yù)言了核武器的興起。如果您正在尋找一本類似的書,則主題模型將有助于識(shí)別與其他書共享的主要主題,在本例中是航海,元素和武術(shù)。

        但是,僅憑主題模型并不能證明托馬斯·赫x黎(Thomas Huxley)在1863年的演講“有機(jī)自然的過(guò)去條件”是很好的匹配。作家是查爾斯·達(dá)爾文(Charles Darwin)進(jìn)化論的擁護(hù)者,他的演講充斥著化石和沉積物,反映了關(guān)于地質(zhì)學(xué)的新興思想。當(dāng)赫x黎演講中的主題通過(guò)最佳傳輸方式與斯托克頓的小說(shuō)相匹配時(shí),就會(huì)出現(xiàn)一些貫穿各領(lǐng)域的主題:赫x黎的地理,動(dòng)植物/動(dòng)物主題和知識(shí)主題分別與斯托克頓的航海,元素和武術(shù)主題密切相關(guān)。

        通過(guò)書籍的代表性主題而不是單個(gè)單詞對(duì)書籍進(jìn)行建模,可以進(jìn)行高層比較。該研究的主要作者,IBM研究人員Mikhail Yurochkin說(shuō):“如果您要求某人比較兩本書,他們會(huì)將每一本書分解為易于理解的概念,然后進(jìn)行比較。”

        研究表明,結(jié)果是更快,更準(zhǔn)確的比較。研究人員在一秒鐘內(nèi)比較了古騰堡計(jì)劃數(shù)據(jù)集中的1,720對(duì)書籍,這比第二好的方法快800倍。

        與競(jìng)爭(zhēng)對(duì)手的方法相比,該技術(shù)在準(zhǔn)確地對(duì)文檔進(jìn)行排序方面也做得更好,例如,按作者對(duì)古騰堡數(shù)據(jù)集中的書籍進(jìn)行分組,按部門在亞馬遜上進(jìn)行產(chǎn)品評(píng)論以及按體育進(jìn)行BBC體育報(bào)道。在一系列可視化中,作者表明,他們的方法可以按類型整齊地對(duì)文檔進(jìn)行聚類。

        除了快速,準(zhǔn)確地對(duì)文檔進(jìn)行分類之外,該方法還提供了進(jìn)入模型決策過(guò)程的窗口。通過(guò)出現(xiàn)的主題列表,用戶可以查看模型為何推薦文檔。

        最新文章