您現(xiàn)在的位置是:首頁 >綜合 > 2021-05-10 09:41:11 來源:
研究人員通過對人類聽覺處理進行建模來改進機器人的語音識別
我們很少想到噪音,因為我們正在傾聽它們,但是在擁擠的城市廣場和繁忙的百貨商店等地方隔離音頻存在著巨大的復雜性。在我們的聽覺路徑的較低層次中,我們將個體來源與背景隔離,將它們在空間中定位,并檢測它們的運動模式 - 所有這些都在我們計算出它們的背景之前。
受到這種神經生理學的啟發(fā),一組研究人員在Arxiv.org的預印紙上分享了這一文章(“ 使用仿生雙耳聲源定位的增強型機器人語音識別 ”),該設計旨在測試地貌(即面部特征)對其的影響。聲音識別的組成部分,如聲源定位(SSL)和自動語音識別(ASR)。
正如研究人員指出的那樣,軀干,頭部和耳廓(耳朵的外部部分)吸收并反射聲波,因為它們接近身體,根據(jù)聲源的位置修改頻率。它們前往耳蝸(內耳的螺旋腔)和內部的Corti器官,產生神經沖動以響應聲音振動。這些沖動通過聽覺神經系統(tǒng)傳遞到耳蝸核,這是一種將信息轉發(fā)到兩個結構的中繼站:內側上橄欖(MSO)和側上橄欖(LSO)。(MSO被認為有助于定位左側或右側的角度以精確定位聲音源,而LSO使用強度來定位聲源。)最后,它們被整合到大腦的下丘(IC)中。
為了在算法上復制結構,研究人員設計了一個機器學習框架,處理嵌入人形機器人頭部的麥克風記錄的聲音--iCub和Soundman。該框架包括四個部分:一個SSL組件,將音頻分解為多組頻率,并使用頻率波來產生模仿Corti神經沖動的尖峰; 對某些角度產生的聲音敏感的MSO模型; 對其他角度敏感的LSO模型; 以及一個IC組合的層,它結合了MSO和LSO的信號。額外的神經網(wǎng)絡可以最大限度地減少混響和自我噪聲(機器人關節(jié)和電機產生的噪音)。
為了測試系統(tǒng)的性能,研究人員使用Soundman建立SSL和ASR基線以及iCub頭(配備允許其旋轉的馬達),以確定頭部和內部組件的共振效應。一組13個均勻分布的揚聲器采用半圓柱配置,朝向磁頭噴射噪聲,探測并處理它。
該團隊發(fā)現(xiàn),來自SSL的數(shù)據(jù)可以“顯著改善” - 在某些情況下,在句子級別上提高了兩倍 - 語音識別的準確性通過指示如何定位機器人頭并選擇適當?shù)耐ǖ雷鳛锳SR的輸入系統(tǒng)。當從頭部移除耳廓時,性能甚至更好。
“這種方法與相關方法形成對比,在這些方法中,來自兩個通道的信號在用于ASR之前被平均,”該論文的作者寫道。“動態(tài)SSL實驗的結果表明該架構能夠處理不同類型的混響。這些結果是我們之前在靜態(tài)SSL中工作的重要擴展,并支持系統(tǒng)對真實環(huán)境中聲音動態(tài)的穩(wěn)健性。此外,我們的系統(tǒng)可以輕松地與最近的方法集成,以增強混響環(huán)境中的ASR [55] - [57],而不會增加計算成本。