您現(xiàn)在的位置是:首頁 >要聞 > 2020-12-10 09:21:20 來源:
新研究測試機器學(xué)習(xí)以檢測世界語言中的借用單詞
秘魯天主教大學(xué)和馬克斯·普朗克人類歷史科學(xué)研究所的研究人員研究了機器學(xué)習(xí)算法使用一種語言中的單詞列表來識別詞匯借用的能力。發(fā)表在《PLOS ONE》雜志上的結(jié)果表明,僅當(dāng)前的機器學(xué)習(xí)方法不足以進行借位檢測,這證明需要額外的數(shù)據(jù)和專家知識來應(yīng)對歷史語言學(xué)最緊迫的挑戰(zhàn)之一。
詞匯借用或單詞從一種語言直接轉(zhuǎn)移到另一種語言已經(jīng)引起了幾千年的學(xué)者的興趣,這在柏拉圖的Kratylos對話中得到了證明,蘇格拉底在對話中討論了借用單詞對詞源學(xué)研究帶來的挑戰(zhàn)。在歷史語言學(xué)中,詞匯借用可幫助研究人員追蹤現(xiàn)代語言的發(fā)展,并指出不同語言群體之間的文化聯(lián)系(無論是近期的還是古代的)。但是,用于識別借用單詞的技術(shù)卻難以形式化,要求研究人員依賴各種代理信息以及多種語言的比較。
主持這項研究的約翰·馬蒂斯·李斯特說:“詞匯借用的自動檢測仍然是我們在計算歷史語言學(xué)中面臨的最困難的任務(wù)之一。”
在當(dāng)前的研究中,來自PUCP和MPI-SHH的研究人員采用了不同的機器學(xué)習(xí)技術(shù)來訓(xùn)練語言模型,這些模型模仿了語言學(xué)家在僅考慮一種語言提供的證據(jù)時識別借用的方式:聲音或聲音的組合方式當(dāng)將它們與同一種語言的其他單詞進行比較時,形成單詞是非典型的,這通常暗示了最近的借用。然后將模型應(yīng)用于世界貸款數(shù)據(jù)庫的修改版本,該數(shù)據(jù)庫是世界各地不同語言家族的40種語言樣本的借入信息目錄,目的是查看給定語言中的單詞將被分類為:是否借用了不同的技術(shù)。
在許多情況下,結(jié)果令人不滿意,這表明借詞檢測對于最常用的機器學(xué)習(xí)方法來說太困難了。但是,在特定情況下,例如在外來詞比例很高的列表中或外來詞主要來自單一捐助者語言的語言中,團隊的詞匯語言模型顯示出一定的希望。