您現(xiàn)在的位置是:首頁 >每日動(dòng)態(tài) > 2024-06-06 17:10:01 來源:
“快手版Sora”可靈開放測(cè)試 最長可生成2分鐘視頻
站長之家(ChinaZ.com)6月6日 消息:快手公司推出了一款名為可靈的全新國產(chǎn)視頻生成大模型,它采用了與Sora相似的技術(shù)路線,并結(jié)合了快手自研的技術(shù)創(chuàng)新。這款模型能夠生成長達(dá)2分鐘、30fps、1080p分辨率的超長視頻,并支持多種寬高比。不同于實(shí)驗(yàn)室的Demo或視頻演示,「可靈」是快手推出的產(chǎn)品級(jí)應(yīng)用,并已在快影APP中正式開啟邀測(cè)。
可靈大模型能夠在想象中天馬行空,同時(shí)在描繪運(yùn)動(dòng)時(shí)符合真實(shí)的運(yùn)動(dòng)規(guī)律,準(zhǔn)確刻畫復(fù)雜、大幅度的時(shí)空運(yùn)動(dòng)。它不僅能模擬真實(shí)物理世界的特性,生成符合物理規(guī)律的視頻,還能處理與真實(shí)物理世界的交互,例如在視頻中展現(xiàn)小男孩吃漢堡時(shí)齒印的變化。
可靈采用了原生的文生視頻技術(shù)路線,替代了圖像生成加時(shí)序模塊的組合,這是它能夠生成視頻時(shí)間長、幀率高,并準(zhǔn)確處理復(fù)雜運(yùn)動(dòng)的關(guān)鍵??焓执竽P蛨F(tuán)隊(duì)著重考慮了模型設(shè)計(jì)、數(shù)據(jù)保障、計(jì)算效率以及模型能力的擴(kuò)展這四大核心要素。
在模型設(shè)計(jì)方面,可靈采用了類Sora的DiT結(jié)構(gòu),用Transformer代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的U-Net,并通過自研的3D VAE網(wǎng)絡(luò)和全注意力機(jī)制(3D Attention)提升模型的建模能力。
數(shù)據(jù)構(gòu)建方面,快手大模型團(tuán)隊(duì)構(gòu)建了完備的標(biāo)簽體系,精細(xì)化篩選訓(xùn)練數(shù)據(jù),并研發(fā)了視頻描述模型,以生成精確、詳盡、結(jié)構(gòu)化的視頻描述。
運(yùn)算效率方面,「可靈」使用了傳輸路徑更短的flow模型作為擴(kuò)散模型基座,并采用分布式訓(xùn)練集群和算子優(yōu)化等手段提升硬件利用率。
模型能力擴(kuò)展方面,「可靈」支持自由的長寬比,并研發(fā)了基于自回歸的視頻時(shí)序拓展方案,同時(shí)還支持多種控制信息輸入。
可靈大模型的應(yīng)用不僅限于視頻生成,快手還基于此模型推出了其他應(yīng)用,如"AI舞王"和"AI唱跳",并即將推出圖生視頻功能。
快手在大模型技術(shù)方面動(dòng)作迅速,已與多個(gè)高?;蚩蒲袡C(jī)構(gòu)合作發(fā)布了多項(xiàng)關(guān)鍵技術(shù),為可靈大模型積累了深厚的技術(shù)沉淀?,F(xiàn)在,快手的文生視頻功能已正式亮相,期待其在短視頻場(chǎng)景中的應(yīng)用落地。
對(duì)AI視頻創(chuàng)作感興趣的用戶,可以在快影APP中體驗(yàn)可靈大模型的功能。
官網(wǎng)地址:https://kling.kuaishou.com/