日本精品aⅴ一区二区三区|国产欧美一二三区|国产乱码精品精|国产精品电影在线免费

      1. <blockquote id="utafg"><th id="utafg"></th></blockquote>
    1. <div id="utafg"></div>
        <blockquote id="utafg"><th id="utafg"></th></blockquote>

        <menuitem id="utafg"></menuitem>
      1. 您現(xiàn)在的位置是:首頁(yè) >互聯(lián)網(wǎng) > 2020-11-09 14:10:51 來(lái)源:

        Google通過(guò)針對(duì)云語(yǔ)音到文本的新培訓(xùn)模型來(lái)改善轉(zhuǎn)錄

        導(dǎo)讀 Google LLC拒絕放棄人工智能方面的工作。在今天的最新更新中,這家網(wǎng)絡(luò)巨頭宣布對(duì)其流行的云語(yǔ)音應(yīng)用程序編程接口進(jìn)行了一些重大更改。谷

        Google LLC拒絕放棄人工智能方面的工作。在今天的最新更新中,這家網(wǎng)絡(luò)巨頭宣布對(duì)其流行的云語(yǔ)音應(yīng)用程序編程接口進(jìn)行了一些重大更改。

        谷歌表示,它正在將Cloud Speech API重命名為“ Cloud Speech-to-Text ”,以幫助將其標(biāo)識(shí)為實(shí)際服務(wù),而不是開(kāi)發(fā)人員可以使用的工具。該服務(wù)本身還獲得了許多新的增強(qiáng)功能,這些功能應(yīng)有助于提高其作為企業(yè)和其他用戶的轉(zhuǎn)錄輔助工具的可靠性。

        更智能的模型

        公告是由Google Cloud AI產(chǎn)品經(jīng)理Dan Aharon在博客中發(fā)布的,他說(shuō)很多重點(diǎn)是提高Cloud Speech-to-Text的電話和視頻通話轉(zhuǎn)錄功能。為此,Aharon和他的團(tuán)隊(duì)引入了專門針對(duì)這些媒介的新模型。用戶現(xiàn)在可以為每種情況選擇最合適的模型,而以前的API會(huì)自動(dòng)執(zhí)行此操作。

        增強(qiáng)的“電話呼叫模型”在構(gòu)建時(shí)特別考慮了隱私,這意味著在創(chuàng)建過(guò)程中使用的數(shù)千小時(shí)的培訓(xùn)數(shù)據(jù)集是Google企業(yè)客戶自愿提供的。Google認(rèn)為,新模式可確保在轉(zhuǎn)錄電話對(duì)話時(shí)的錯(cuò)誤比以前的基本phone_call模式減少54%。

        還有一種針對(duì)視頻通話情況的新模型,該模型基于YouTube使用的機(jī)器學(xué)習(xí)技術(shù)為其視頻提供字幕。在這種情況下,Google聲稱與以前的模型相比,錯(cuò)誤減少了64%。

        Aharon說(shuō),增強(qiáng)的phone_call和高價(jià)視頻模型現(xiàn)在都可以用于美國(guó)英語(yǔ)轉(zhuǎn)錄,并且很快將用于其他語(yǔ)言。“我們還將繼續(xù)提供現(xiàn)有的語(yǔ)音command_and_search模型以及長(zhǎng)格式轉(zhuǎn)錄的默認(rèn)模型。”

        Google在此處免費(fèi)提供了Cloud Speech-to-Text的新模型的演示。

        輕松閱讀

        除了改進(jìn)的模型之外,Cloud Speech-to-Text現(xiàn)在可以首次處理標(biāo)點(diǎn),盡管僅在beta中。正如Aharon在其帖子中所承認(rèn)的那樣,“很難對(duì)轉(zhuǎn)錄的語(yǔ)音進(jìn)行適當(dāng)?shù)臉?biāo)點(diǎn)插入”,但是該公司認(rèn)為,通過(guò)創(chuàng)建一個(gè)稱為長(zhǎng)期短期記憶神經(jīng)網(wǎng)絡(luò)的東西(通過(guò)添加逗號(hào),句號(hào)和問(wèn)號(hào))來(lái)解決該問(wèn)題,在句子上。

        最終,Google希望其用戶通過(guò)為轉(zhuǎn)錄的音頻和視頻提供識(shí)別元數(shù)據(jù)來(lái)幫助改善Cloud Speech-to-Text。這個(gè)想法是,用戶將能夠根據(jù)他們所包含的內(nèi)容類型來(lái)標(biāo)記音頻和視頻記錄。標(biāo)簽的示例可能是“購(gòu)物應(yīng)用程序的語(yǔ)音命令”或“籃球體育電視節(jié)目”。然后,這些數(shù)據(jù)將跨用戶匯總,以告知Google未來(lái)更新的重點(diǎn)。

        谷歌表示,目前所有型號(hào)的云語(yǔ)音轉(zhuǎn)文本價(jià)格為每15秒十分之一美分,而視頻型號(hào)的價(jià)格為每15秒1.2美分,是后者的兩倍。