您現(xiàn)在的位置是:首頁(yè) >市場(chǎng) > 2021-04-14 23:46:04 來(lái)源:
Google DeepMind更貼近人類
DeepMind的人工智能研究人員利用神經(jīng)網(wǎng)絡(luò)創(chuàng)造了一些最逼真的人類語(yǔ)音。AI稱為WaveNet,它承諾對(duì)計(jì)算機(jī)生成的語(yǔ)音進(jìn)行重大改進(jìn),并最終可用于數(shù)字個(gè)人助理,如Siri,Cortana和亞馬遜的Alexa。該技術(shù)通過(guò)從英語(yǔ)和普通話人口中抽取真實(shí)的人類語(yǔ)音來(lái)產(chǎn)生聲音。在測(cè)試中,發(fā)現(xiàn)WaveNet生成的語(yǔ)音比其他形式的文本到語(yǔ)音程序更加真實(shí),但仍然沒(méi)有真正令人信服。
在500次盲測(cè)中,受訪者被要求以1到5的等級(jí)判斷樣本句子(其中5個(gè)是最現(xiàn)實(shí)的)。WaveNet在英語(yǔ)中被評(píng)為4.21,在普通話中被評(píng)為4.08(實(shí)際人類語(yǔ)言在測(cè)試中被評(píng)為4.55英語(yǔ)和4.21普通話)。在那一方面,WaveNet成功地超越了其他語(yǔ)音方法。
當(dāng)其他人工語(yǔ)音生成器專注于語(yǔ)言時(shí),WaveNet針對(duì)正在產(chǎn)生的聲波,分析原始音頻信號(hào)波形并對(duì)其進(jìn)行建模。在YouTube上聽(tīng)鋼琴獨(dú)奏后,研究人員還使用相同的技術(shù)制作音樂(lè)。
“WaveNets為T(mén)TS,音樂(lè)生成和音頻建模提供了很多可能性。使用深度神經(jīng)網(wǎng)絡(luò)直接生成時(shí)間步長(zhǎng)的事實(shí)對(duì)16kHz音頻起作用是非常令人驚訝的,更不用說(shuō)它優(yōu)于最先進(jìn)的TTS系統(tǒng)。我們很高興看到我們接下來(lái)可以做些什么,“Deepmind在博客文章中說(shuō)。
Deepmind還發(fā)表了一篇論文,詳細(xì)介紹了該技術(shù)。
該研究機(jī)構(gòu)還負(fù)責(zé)創(chuàng)建一個(gè)AI系統(tǒng),以擊敗今年的冠軍Go球員。