日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁 >財經(jīng) > 2021-04-29 10:15:47 來源:

        谷歌宣布推出26種WaveNet語音的云文本轉(zhuǎn)語音

        導(dǎo)讀 如果您是Google Cloud客戶,他們正在使用該公司的人工智能(AI)套件來進行文字轉(zhuǎn)語音或語音轉(zhuǎn)文本服務(wù),那么這是一個好消息:新功能正朝著

        如果您是Google Cloud客戶,他們正在使用該公司的人工智能(AI)套件來進行文字轉(zhuǎn)語音或語音轉(zhuǎn)文本服務(wù),那么這是一個好消息:新功能正朝著您的方向發(fā)展。Mountain View公司今天宣布了這些方面的重大更新,包括云文本到語音的普遍可用性,優(yōu)化聲音以便在不同設(shè)備上播放的新音頻配置文件,多聲道識別的增強功能等等。

        谷歌宣布推出26種WaveNet語音的云文本轉(zhuǎn)語音

        首先在列表中:改進了Google的云文本到語音轉(zhuǎn)換中的語音合成。從本周開始,它將提供多語言訪問使用WaveNet生成的語音,WaveNet是Alphabet子公司DeepMind開發(fā)的機器學(xué)習(xí)技術(shù)。如果不深入雜草潛水,它會模仿語音中的壓力和語調(diào) - 語言學(xué)中稱為韻律的聲音 - 通過識別音調(diào)模式。除了比以前的型號產(chǎn)生更有說服力的語音片段之外,它還更高效 - 在Google的云TPU硬件上運行,WaveNet可以在50毫秒內(nèi)生成一秒鐘的樣本。

        Cloud Text-to-Speech現(xiàn)在提供17種新的WaveNet語音,并支持14種語言和變體??偣灿?6種聲音:30種標(biāo)準(zhǔn)聲音和26種WaveNet聲音。(查看此網(wǎng)頁以獲取完整列表。)

        擴展的WaveNet支持并不是Cloud Text-to-Speech客戶唯一的新功能。以前在測試版中提供的音頻配置文件今天正在廣泛推出。

        簡而言之,音頻配置文件可讓您優(yōu)化Cloud Text-to-Speech的API生成的語音,以便在不同類型的硬件上播放。例如,您可以為具有較小揚聲器的可穿戴設(shè)備創(chuàng)建配置文件,或者專門為汽車揚聲器和耳機創(chuàng)建配置文件。對于不支持特定頻率的設(shè)備,它特別方便; Cloud Text-to-Speech可以自動將超出范圍的音頻移至聽覺范圍內(nèi),從而提高其清晰度。

        “每個設(shè)備的物理特性以及它們所處的環(huán)境都會影響它們產(chǎn)生的頻率范圍和細(xì)節(jié)水平(例如,低音,高音和音量),”Google Cloud團隊在博客文章中寫道。“音頻樣本[由音頻配置文件產(chǎn)生]實際上可能聽起來比筆記本電腦揚聲器上的原始樣本更糟糕,但在電話線上聽起來會更好。”

        谷歌在7月份的谷歌云下一代開發(fā)者大會上宣布了一些新的云語音到文本功能,今天還有三個方面:多聲道識別,語言自動檢測和詞級置信度。

        通過自動表示每個單詞的單獨通道,多通道識別提供了一種簡單的方法來轉(zhuǎn)錄多個音頻通道。(Google指出,實現(xiàn)最佳轉(zhuǎn)錄質(zhì)量通常需要使用多個頻道。)對于未單獨錄制的音頻樣本,Cloud Speech-to-Text提供了日記功能,它使用機器學(xué)習(xí)通過識別揚聲器標(biāo)記每個單詞數(shù)。谷歌表示,標(biāo)簽的準(zhǔn)確性會隨著時間的推移而提高。

        這一切都很好,但如果你是一個擁有大量雙語用戶的開發(fā)人員呢?輸入語言自動檢測功能,可讓您在查詢云語音到文本時一次最多發(fā)送四個語言代碼。API將自動確定所說的語言并返回成績單,就像Google智能助理檢測語言并以實物形式響應(yīng)一樣。(用戶還可以選擇手動選擇語言。)

        最后但并非最不重要的是,云語音到文本的前沿是詞級置信度,它為開發(fā)人員提供了對谷歌語音識別引擎的細(xì)粒度控制。如果您這樣選擇,您可以將置信度分?jǐn)?shù)與應(yīng)用程序中的觸發(fā)器相關(guān)聯(lián) - 例如,如果用戶嘟m或說話過于輕柔,則會鼓勵用戶重復(fù)自我。