您現(xiàn)在的位置是:首頁 >動態(tài) > 2021-04-08 08:54:31 來源:
研究人員開發(fā)了97%準(zhǔn)確的離線語音識別
通常,語音識別的深度學(xué)習(xí)方法 - 采用神經(jīng)元模擬數(shù)學(xué)函數(shù)層來解析人類語音的系統(tǒng) - 依靠強(qiáng)大的遠(yuǎn)程服務(wù)器進(jìn)行大量處理。但是,滑鐵盧大學(xué)和創(chuàng)業(yè)公司DarwinAI的研究人員聲稱已經(jīng)開創(chuàng)了一種設(shè)計語音識別網(wǎng)絡(luò)的策略,該策略不僅能夠達(dá)到最先進(jìn)的精度,而且能夠生成足夠強(qiáng)大的模型,以便在低端智能手機(jī)上運(yùn)行。
他們在預(yù)印本服務(wù)器Arxiv.org上發(fā)表的論文中描述了他們的方法(“ EdgeSpeechNets:用于邊緣語音識別的高效深度神經(jīng)網(wǎng)絡(luò) ”)。它建立在亞馬遜的Alexa機(jī)器學(xué)習(xí)團(tuán)隊的基礎(chǔ)之上,該團(tuán)隊在今年早些時候開發(fā)了可在本地執(zhí)行的導(dǎo)航,溫度控制和音樂播放算法; 高通公司在5月聲稱已經(jīng)創(chuàng)建了95%%準(zhǔn)確的設(shè)備上語音識別模型; 愛爾蘭都柏林創(chuàng)業(yè)公司Voysis于9月宣布推出用于移動設(shè)備的離線WaveNet語音模型; 和英特爾。
“在這項研究中,我們探索了一種人機(jī)協(xié)同設(shè)計策略,用于通過人為驅(qū)動的原理網(wǎng)絡(luò)設(shè)計原型和機(jī)器驅(qū)動設(shè)計探索的結(jié)合,構(gòu)建用于語音識別的低占用空間[深度神經(jīng)網(wǎng)絡(luò)]架構(gòu),”研究人員寫道。“通過設(shè)計一系列高效的[深度神經(jīng)網(wǎng)絡(luò)](昵稱為Ed??geSpeechNets)來限制詞匯識別,證明了這種設(shè)計策略的有效性。”
該團(tuán)隊首先構(gòu)建了一個原型,該原型執(zhí)行有限詞匯量的語音識別或關(guān)鍵詞識別 - 能夠從語音流中快速識別特定關(guān)鍵詞。然后他們決定采用一種設(shè)計方法,將音頻信號轉(zhuǎn)換為稱為梅爾頻率倒譜系數(shù)的數(shù)學(xué)表示,利用深度殘差學(xué)習(xí)來獲得比傳統(tǒng)技術(shù)更大的“更強(qiáng)的表現(xiàn)能力”。
接下來,他們開始進(jìn)行生成綜合,這是一種機(jī)器驅(qū)動的設(shè)計策略,可以構(gòu)建深度神經(jīng)網(wǎng)絡(luò),并強(qiáng)調(diào)性能。在這種情況下,研究人員使用了一種配置,確保語音模型的驗證準(zhǔn)確度至少達(dá)到95%%。
為了評估生產(chǎn)的EdgeSpeechNets的性能,該團(tuán)隊使用了Google Speech Commands數(shù)據(jù)集,這是一個包含65,000個一秒鐘30個短字樣本和背景噪聲樣本的數(shù)據(jù)集。
其中一個型號 - EdgeSpeechNet-A - 與最先進(jìn)的語音識別模型(res15)相比,精度提高了1%%,同時要求的處理能力顯著降低。此外,它的測試精度達(dá)到了97%%,優(yōu)于之前公布的結(jié)果。
另一款型號 - EdgeSpeechNet-D - 搭載摩托羅拉Moto E手機(jī)的1.4GHz Cortex-A53處理器,預(yù)測延遲為34毫秒,內(nèi)存占用小于1MB - 延遲減少10倍,內(nèi)存占用比上述減少16.5%%最先進(jìn)的神經(jīng)網(wǎng)絡(luò)。
另一個模型 - EdgeSpeechNet-C,其中最小的一個 - 比最先進(jìn)的設(shè)備具有更高的精度,減少了7.8個參數(shù)(用于控制訓(xùn)練過程的某些屬性的函數(shù)參數(shù))和10.7個乘法加法運(yùn)算。
研究人員寫道:“...... EdgeSpeechNets在更小的尺寸下具有更高的精度,而且計算成本低于最先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)。” “這些結(jié)果表明,EdgeSpeechNets能夠?qū)崿F(xiàn)最先進(jìn)的性能,同時仍然明顯更小,并且需要的計算量更少,因此非常適合于設(shè)備邊緣語音接口應(yīng)用。”
在未來的工作中,他們計劃將人機(jī)協(xié)同深度神經(jīng)網(wǎng)絡(luò)設(shè)計策略應(yīng)用于視覺感知和自然語言處理等領(lǐng)域。