您現(xiàn)在的位置是:首頁 >要聞 > 2020-11-27 16:25:43 來源:
數(shù)據(jù)挖掘連字標(biāo)題改善命名實體的識別
導(dǎo)讀 數(shù)據(jù)挖掘和從不同來源提取知識是大數(shù)據(jù),大業(yè)務(wù)。但是,搜索軟件如何處理提到的僅使用其一部分名稱或通常不使用名稱連字符的實體?發(fā)表在《
數(shù)據(jù)挖掘和從不同來源提取知識是大數(shù)據(jù),大業(yè)務(wù)。但是,搜索軟件如何處理提到的僅使用其一部分名稱或通常不使用名稱連字符的實體?發(fā)表在《國際智能信息與數(shù)據(jù)庫系統(tǒng)雜志》上的研究揭示了一種新方法的細(xì)節(jié),該方法可改善新聞標(biāo)題中的命名實體識別和歧義消除。
印度技術(shù)學(xué)院計算機(jī)科學(xué)與工程系的Jayendra Barua和Rajdeep Niyogi位于印度北阿坎德邦羅爾市的Roorkee,他們解釋說,他們對當(dāng)前新聞頭條進(jìn)行這種分析的方法是基于經(jīng)過訓(xùn)練的算法,該算法被教導(dǎo)刪除連字符,并填寫不完整的名稱以消除歧義。
團(tuán)隊對其新穎方法的評估表明,該方法的工作精度比傳統(tǒng)系統(tǒng)高出約10%,因此可以改善與特定公司,組織,事件,公眾人物以及這些數(shù)據(jù)挖掘感興趣的其他實體相關(guān)的新聞的自動檢索。新聞。該系統(tǒng)與新聞源(例如由定期更新的網(wǎng)站生成的RSS類型的新聞源)配合得很好。來自此類消息來源的標(biāo)題通??赡鼙葌鹘y(tǒng)報紙的標(biāo)題更長,但仍然簡潔,通常只有十個或更少的單詞。這樣,每個單詞在數(shù)據(jù)挖掘上下文中可能都很重要,因此消除歧義至關(guān)重要。