您現(xiàn)在的位置是：首頁 >財經(jīng) > 2021-04-29 10:15:47 來源：

谷歌宣布推出26種WaveNet語音的云文本轉(zhuǎn)語音

導(dǎo)讀如果您是Google Cloud客戶，他們正在使用該公司的人工智能(AI)套件來進行文字轉(zhuǎn)語音或語音轉(zhuǎn)文本服務(wù)，那么這是一個好消息：新功能正朝著

如果您是Google Cloud客戶，他們正在使用該公司的人工智能(AI)套件來進行文字轉(zhuǎn)語音或語音轉(zhuǎn)文本服務(wù)，那么這是一個好消息：新功能正朝著您的方向發(fā)展。Mountain View公司今天宣布了這些方面的重大更新，包括云文本到語音的普遍可用性，優(yōu)化聲音以便在不同設(shè)備上播放的新音頻配置文件，多聲道識別的增強功能等等。

首先在列表中：改進了Google的云文本到語音轉(zhuǎn)換中的語音合成。從本周開始，它將提供多語言訪問使用WaveNet生成的語音，WaveNet是Alphabet子公司DeepMind開發(fā)的機器學(xué)習(xí)技術(shù)。如果不深入雜草潛水，它會模仿語音中的壓力和語調(diào) - 語言學(xué)中稱為韻律的聲音 - 通過識別音調(diào)模式。除了比以前的型號產(chǎn)生更有說服力的語音片段之外，它還更高效 - 在Google的云TPU硬件上運行，WaveNet可以在50毫秒內(nèi)生成一秒鐘的樣本。

Cloud Text-to-Speech現(xiàn)在提供17種新的WaveNet語音，并支持14種語言和變體?？偣灿?6種聲音：30種標(biāo)準(zhǔn)聲音和26種WaveNet聲音。(查看此網(wǎng)頁以獲取完整列表。)

擴展的WaveNet支持并不是Cloud Text-to-Speech客戶唯一的新功能。以前在測試版中提供的音頻配置文件今天正在廣泛推出。

簡而言之，音頻配置文件可讓您優(yōu)化Cloud Text-to-Speech的API生成的語音，以便在不同類型的硬件上播放。例如，您可以為具有較小揚聲器的可穿戴設(shè)備創(chuàng)建配置文件，或者專門為汽車揚聲器和耳機創(chuàng)建配置文件。對于不支持特定頻率的設(shè)備，它特別方便; Cloud Text-to-Speech可以自動將超出范圍的音頻移至聽覺范圍內(nèi)，從而提高其清晰度。

“每個設(shè)備的物理特性以及它們所處的環(huán)境都會影響它們產(chǎn)生的頻率范圍和細(xì)節(jié)水平(例如，低音，高音和音量)，”Google Cloud團隊在博客文章中寫道。“音頻樣本[由音頻配置文件產(chǎn)生]實際上可能聽起來比筆記本電腦揚聲器上的原始樣本更糟糕，但在電話線上聽起來會更好。”

谷歌在7月份的谷歌云下一代開發(fā)者大會上宣布了一些新的云語音到文本功能，今天還有三個方面：多聲道識別，語言自動檢測和詞級置信度。

通過自動表示每個單詞的單獨通道，多通道識別提供了一種簡單的方法來轉(zhuǎn)錄多個音頻通道。(Google指出，實現(xiàn)最佳轉(zhuǎn)錄質(zhì)量通常需要使用多個頻道。)對于未單獨錄制的音頻樣本，Cloud Speech-to-Text提供了日記功能，它使用機器學(xué)習(xí)通過識別揚聲器標(biāo)記每個單詞數(shù)。谷歌表示，標(biāo)簽的準(zhǔn)確性會隨著時間的推移而提高。

這一切都很好，但如果你是一個擁有大量雙語用戶的開發(fā)人員呢?輸入語言自動檢測功能，可讓您在查詢云語音到文本時一次最多發(fā)送四個語言代碼。API將自動確定所說的語言并返回成績單，就像Google智能助理檢測語言并以實物形式響應(yīng)一樣。(用戶還可以選擇手動選擇語言。)

最后但并非最不重要的是，云語音到文本的前沿是詞級置信度，它為開發(fā)人員提供了對谷歌語音識別引擎的細(xì)粒度控制。如果您這樣選擇，您可以將置信度分?jǐn)?shù)與應(yīng)用程序中的觸發(fā)器相關(guān)聯(lián) - 例如，如果用戶嘟m或說話過于輕柔，則會鼓勵用戶重復(fù)自我。

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標(biāo)簽：