日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >互聯(lián)網(wǎng) > 2020-11-02 11:44:50 來源:

        亞馬遜已經(jīng)建立了一個人工智能系統(tǒng)可以訓(xùn)練機(jī)器人像新聞閱讀器一樣說話

        導(dǎo)讀 Amazon com Inc 提出了一個新的人工智能系統(tǒng),該系統(tǒng)可以訓(xùn)練Alexa等數(shù)字語音助手來學(xué)習(xí)新的講話方式,例如類似于新聞閱讀器,只需幾個小

        Amazon.com Inc.提出了一個新的人工智能系統(tǒng),該系統(tǒng)可以訓(xùn)練Alexa等數(shù)字語音助手來學(xué)習(xí)新的講話方式,例如類似于新聞閱讀器,只需幾個小時。

        亞馬遜應(yīng)用科學(xué)經(jīng)理特雷弗·伍德(Trevor Wood)在今天的博客文章中說,新的文本語音轉(zhuǎn)換系統(tǒng)可以代替?zhèn)鹘y(tǒng)的語音訓(xùn)練方法,后者通常要求演員以目標(biāo)風(fēng)格說話數(shù)十小時才能訓(xùn)練模型。

        “對于用戶來說,由神經(jīng)網(wǎng)絡(luò)產(chǎn)生的合成語音聽起來比通過級聯(lián)方法產(chǎn)生的語音自然得多,級聯(lián)方法將存儲在音頻數(shù)據(jù)庫中的簡短語音片段串在一起,”伍德寫道。“隨著[我們的系統(tǒng)]提供的更高的靈活性,我們可以輕松地改變合成語音的說話方式。”

        亞馬遜將其新模式稱為“神經(jīng)文本語音轉(zhuǎn)換”或NTTS,稱其有兩個關(guān)鍵組成部分。一個是“生成神經(jīng)網(wǎng)絡(luò)”,其工作原理是將音素序列轉(zhuǎn)換成聲譜圖序列,這些音素序列是將一個單詞與另一個單詞區(qū)分開的獨(dú)特聲音單元。由于它們隨時間變化,因此它們又是這些聲音的頻譜的視覺表示。伍德說,聲譜圖“強(qiáng)調(diào)人腦在處理語音時所使用的功能”。

        另一個組件稱為“聲碼器”,它有助于將這些頻譜圖轉(zhuǎn)換為用于訓(xùn)練文本到語音模型的連續(xù)音頻信號。

        Wood的博客文章中詳細(xì)介紹了復(fù)雜的技術(shù)過程,但最重要的是,它似乎運(yùn)行良好。新的訓(xùn)練方法可以將神經(jīng)文本語音轉(zhuǎn)換語音數(shù)據(jù)與幾個小時的補(bǔ)充數(shù)據(jù)結(jié)合起來,以產(chǎn)生一個模型,該模型可以區(qū)分特定于特定說話風(fēng)格的獨(dú)特語音元素。

        伍德寫道:“當(dāng)在操作過程中以口語風(fēng)格的代碼呈現(xiàn)時,網(wǎng)絡(luò)會預(yù)測適合該風(fēng)格的韻律模式,并將其應(yīng)用于單獨(dú)生成的,與風(fēng)格無關(guān)的表示形式。” “通過較少的額外培訓(xùn)數(shù)據(jù)即可獲得高質(zhì)量,從而可以快速擴(kuò)展說話風(fēng)格。”

        伍德說:“偏愛中性風(fēng)格的NTTS反映了由于神經(jīng)生成方法而引起的普遍語音合成質(zhì)量的廣泛報道。” “ NTTS新聞播音員語音的進(jìn)一步改進(jìn)反映了我們系統(tǒng)捕獲與文本相關(guān)的樣式的能力。”

        亞馬遜已經(jīng)發(fā)布了一系列有關(guān)其研究的白皮書,可在此處,此處和此處找到。