您現(xiàn)在的位置是：首頁 >每日動(dòng)態(tài) > 2024-06-06 09:50:42 來源：

?Stability AI發(fā)布AI音頻模型Stable Audio Open：支持文本生成鼓點(diǎn)、樂器等音效

導(dǎo)讀站長(zhǎng)之家（ChinaZ.com）6月6日消息:Stability AI 今天發(fā)布了 Stable Audio Open1.0，這是其音頻領(lǐng)域的新一款生成 AI 模型。Stabil...

站長(zhǎng)之家（ChinaZ.com）6月6日消息:Stability AI 今天發(fā)布了 Stable Audio Open1.0，這是其音頻領(lǐng)域的新一款生成 AI 模型。Stability AI 以穩(wěn)定擴(kuò)散文本到圖像生成 AI 技術(shù)而聞名，但這只是該公司產(chǎn)品組合的一部分。該公司在2023年首次推出了 Stable Audio，這是一種文本到音頻的生成 AI 工具。最近發(fā)布的 Stable Audio2.0提高了生成音頻的清晰度和長(zhǎng)度。

Stable Audio Open產(chǎn)品入口：https://top.aibase.com/tool/stable-audio-open-1-0

與完整版 Stable Audio 可用于一般商業(yè)用途并生成長(zhǎng)達(dá)3分鐘的音頻不同，Stable Audio Open 的應(yīng)用場(chǎng)景更為局限。Stable Audio Open 的目標(biāo)是生成短音效片段，而非完整的歌曲。

正如其名稱所示，Stable Audio Open 是一種開放模型，盡管它并非開源。Stable Audio Open 根據(jù) Stability AI 的非商業(yè)研究社區(qū)協(xié)議許可證向用戶提供，該許可證允許開放訪問模型，但對(duì)使用該模型執(zhí)行的操作有限制。

Stability AI 音頻研究主管 Zach Evans 表示:“我們推出 Stable Audio Open 的目標(biāo)是讓音頻研究人員和制作人能夠親身體驗(yàn)我們的生成音頻模型之一，以加速這些令人難以置信的新工具的研究、采用和實(shí)際創(chuàng)造性使用?！?/p>

Stable Audio Open是什么?

Stable Audio Open 是一種專門針對(duì)音樂制作和聲音設(shè)計(jì)的模型，優(yōu)化了鼓點(diǎn)、樂器樂段、環(huán)境聲音等音頻樣本的生成。與商業(yè)版 Stable Audio 相比，Stable Audio Open 的生成音頻長(zhǎng)度為47秒，質(zhì)量較高。

Stability AI 對(duì)模型的訓(xùn)練采取了負(fù)責(zé)任的態(tài)度，使用了來自 FreeSound 和免費(fèi)音樂檔案的音頻數(shù)據(jù)進(jìn)行訓(xùn)練，以確保未使用受版權(quán)保護(hù)或?qū)Ｓ胁牧稀?/p>

用戶可對(duì)Stable Audio Open 微調(diào)

Stable Audio Open 的另一個(gè)主要優(yōu)勢(shì)是用戶可以根據(jù)自己的自定義音頻數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。例如，鼓手可以根據(jù)自己的鼓聲錄音樣本微調(diào)模型，生成全新、獨(dú)特的節(jié)拍。

Stable Audio Open 的微調(diào)是通過穩(wěn)定音頻工具庫實(shí)現(xiàn)的，該庫是根據(jù)實(shí)際開源許可證授權(quán)的。Stable Audio Open 的模型權(quán)重現(xiàn)已在 Hugging Face 上可用。

Evans 表示:“音頻研究團(tuán)隊(duì)一直在努力提高生成音頻模型的質(zhì)量和可控性。我們期待進(jìn)一步發(fā)布商業(yè)和開放模型，以反映我們研究的進(jìn)展?！?/p>

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！

標(biāo)簽：