騰訊在12月3日正式推出了其備受期待的混元大模型文生視頻功能,該功能此前已在11月底被提前“劇透”。用戶現(xiàn)在可以通過騰訊元寶App中的“AI視頻”板塊申請?jiān)囉茫髽I(yè)客戶則可以通過騰訊云接入服務(wù)。與此同時(shí),API內(nèi)測申請也已同步開放。
騰訊混元大模型的文生視頻功能允許用戶通過輸入一段描述性文字來生成視頻。混元為用戶提供了三種靈感提示:轉(zhuǎn)場視頻、多動(dòng)作視頻和超寫實(shí)視頻。在體驗(yàn)過程中,用戶可以選擇五種視頻風(fēng)格(寫實(shí)、動(dòng)畫、電影、黑白、賽博朋克)和五種比例,以及更多的高級(jí)指令選項(xiàng),如景別、光線和鏡頭運(yùn)動(dòng)。
據(jù)騰訊提供的評測報(bào)告顯示,騰訊混元視頻生成模型在文本對齊、運(yùn)動(dòng)質(zhì)量和視覺質(zhì)量方面與國內(nèi)同類模型相比表現(xiàn)出色。騰訊混元還宣布開源該視頻生成大模型,企業(yè)和個(gè)人開發(fā)者可免費(fèi)使用并開發(fā)生態(tài)插件。
騰訊混元多模態(tài)生成技術(shù)負(fù)責(zé)人凱撒表示,混元基于與Sora類似的DiT架構(gòu),并進(jìn)行了升級(jí)。通過新一代文本編碼器、統(tǒng)一的全注意力機(jī)制和圖像視頻混合VAE,模型在細(xì)節(jié)表現(xiàn)上有了顯著提升。
對于選擇此時(shí)上線文生視頻功能的原因,凱撒表示技術(shù)已經(jīng)成熟。分析師李錦清則認(rèn)為,盡管文生視頻的實(shí)現(xiàn)難度較高,但其商業(yè)空間更大,行業(yè)和企業(yè)需要解決數(shù)據(jù)等共性和特性問題。