您現在的位置是:首頁 >每日動態(tài) > 2024-06-06 09:35:33 來源:
字節(jié)推語音生成模型Seed-TTS 擅長感情控制,聲音與真人無異
導讀 6月6日 消息:繼ChatTTS之后,字節(jié)跳動團隊提出了一種名為Seed-TTS的新型語音生成模型。Seed-TTS基于自回歸Transformer架構,能夠生成聽...
6月6日 消息:繼ChatTTS之后,字節(jié)跳動團隊提出了一種名為Seed-TTS的新型語音生成模型。Seed-TTS基于自回歸Transformer架構,能夠生成聽起來非常自然且富有表現力的語音,其質量與人類語音極為接近,難以區(qū)分。
演示視頻
該模型在多個方面表現出色,特別是在情感控制、小說配音和跨語言內容創(chuàng)作等方面。Seed-TTS模型通過自我蒸餾和強化學習技術,提升了其發(fā)音的自然性和可控性。此外,研究團隊還提出了該模型的非自回歸變體,進一步增強了模型的性能。
Seed-TTS的推理過程包括四個主要步驟:
語音分詞器:學習并理解參考語音中的各個音素或音標。
自回歸語言模型:根據輸入的文本和已有的語音信息生成語音標記。
擴散變換器:采用分層方法生成連續(xù)的語音表示,為語音合成提供中間特征。
聲學波形合成器:從擴散變換器的輸出生成更高質量的語音波形。
Seed-TTS在多種語音特征的可控性上展現出優(yōu)越性能,并且在不同語言的語音生成任務中也有良好的表現。它在零樣本(zero-shot)語境學習、發(fā)音調整和情感控制方面具有廣泛的應用潛力。
總體而言,Seed-TTS模型在語音合成領域帶來了顯著的進展,為創(chuàng)造更自然、更可控的語音合成技術開辟了新的道路。這項技術的突破預示著未來在提高語音合成自然度和表現力方面將會有更多的可能性和創(chuàng)新應用。
項目頁:https://top.aibase.com/tool/seed-tts