您現(xiàn)在的位置是：首頁 >要聞 > 2020-11-30 15:03:39 來源：

計算模型通過預測對語音進行解碼

導讀大腦通過識別音節(jié)來分析口語。日內(nèi)瓦大學(UNIGE)和不斷發(fā)展的語言國家能力研究中心(NCCR)的科學家設(shè)計了一種計算模型，該模型再現(xiàn)了中樞神

大腦通過識別音節(jié)來分析口語。日內(nèi)瓦大學(UNIGE)和不斷發(fā)展的語言國家能力研究中心(NCCR)的科學家設(shè)計了一種計算模型，該模型再現(xiàn)了中樞神經(jīng)系統(tǒng)執(zhí)行此操作的復雜機制。該模型匯集了兩個獨立的理論框架，使用等效于大腦活動產(chǎn)生的神經(jīng)元振動來處理關(guān)聯(lián)語音的連續(xù)聲流。

該模型根據(jù)稱為預測編碼的理論運行，從而大腦通過不斷嘗試根據(jù)候選假設(shè)(此模型中的音節(jié))預測感覺信號來優(yōu)化感知。結(jié)果模型在《自然通訊》雜志上進行了描述，它幫助實時識別了以自然語言說出的數(shù)百個句子中包含的數(shù)千個音節(jié)。這已經(jīng)證實了這樣的想法，即神經(jīng)元振動可以用來協(xié)調(diào)我們聽到的音節(jié)的流動與大腦的預測。

UNIGE醫(yī)學院基礎(chǔ)神經(jīng)科學系教授，不斷發(fā)展的語言NCCR聯(lián)合主任Anne-Lise Giraud說：“腦活動產(chǎn)生了可以用腦電圖測量的神經(jīng)元振蕩。” 這些是電磁波，是由整個神經(jīng)元網(wǎng)絡的相干電活動產(chǎn)生的。有幾種類型，根據(jù)它們的頻率定義。它們被稱為α，β，θ，δ或γ波。這些節(jié)奏單獨或疊加使用，與不同的認知功能相關(guān)，例如感知，記憶，注意力，機敏性等。

但是，神經(jīng)科學家尚不知道他們是否積極參與這些功能以及如何發(fā)揮作用。在2015年發(fā)表的一項較早的研究中，Giraud教授的團隊表明，theta波(低頻)和gamma波(高頻)相互配合，對音節(jié)中的音流進行排序，并分析其內(nèi)容，以便對其進行識別。

總部位于日內(nèi)瓦的科學家基于這些生理節(jié)律開發(fā)了一種突跳的神經(jīng)網(wǎng)絡計算機模型，該模型在現(xiàn)場(在線)音節(jié)排序方面的性能優(yōu)于傳統(tǒng)的自動語音識別系統(tǒng)。

音節(jié)的節(jié)奏

在他們的第一個模型中，theta波(介于4赫茲和8赫茲之間)使得跟隨系統(tǒng)感知的音節(jié)節(jié)奏成為可能。伽馬波(大約30赫茲)用于將聽??覺信號切成較小的切片并進行編碼。這會產(chǎn)生一個鏈接到每個聲音序列的“音素”配置文件，可以將其與后一個音節(jié)進行比較，并與已知音節(jié)庫進行比較。這種類型的模型的優(yōu)點之一是，它可以自發(fā)地適應語音速度，語音速度可能因人而異。

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標簽：計算模型