騰訊近期宣布了一項重大技術突破,其混元大模型正式上線并開源了一項引人注目的能力——文生視頻。這款大模型擁有高達130億的參數量,并支持中英文雙語輸入,為用戶帶來了前所未有的視頻生成體驗。
在騰訊的展示中,一款由混元大模型生成的視頻令人印象深刻。視頻中,以肩攝視角切入,清晨的陽光透過紗簾溫柔地灑落在一位老爺爺身上。他正專注地在木工臺前雕刻,攝影機緩緩推進,特寫鏡頭下,老爺爺布滿皺紋的手指與紛飛的木屑清晰可見。背景中,老房間內的木工工具整齊排列,墻上掛滿了已完成的作品,整個畫面充滿了生活氣息與歲月的痕跡。
騰訊官方宣稱,這款混元視頻生成大模型能夠生成“超寫實”的高質量視頻,畫面穩定且不易變形。尤其在涉及鏡面或鏡子場景的視頻中,該模型能夠實現鏡面反射動作與外部場景的完全同步,光影反射效果也基本符合物理規律,使得生成的視頻更加逼真。
另一段視頻則展示了沖浪者在超大水管浪尖上起跳的壯觀場景。攝影機從海浪內部穿越而出,捕捉到了陽光透過海水的瞬間,水花在空中形成了完美的弧線,沖浪板劃過水面留下的軌跡清晰可見。最終畫面定格在沖浪者穿越水簾的完美瞬間,令人嘆為觀止。
還有一段手持長焦鏡頭跟拍的視頻,展現了磨砂金屬車廂在高速行駛中留下的光帶。隧道燈光斷續閃過,映照出乘客若隱若現的側臉。防護玻璃上的水珠隨著速度扭曲變形,構建出一個充滿神秘感與光影變化的城市地下迷宮。
據了解,騰訊混元視頻生成大模型采用了先進的DiT架構,并適配了新一代文本編碼器,以提升語義遵循能力。這使得模型能夠更好地應對多個主體的描繪,實現更加細致的指令和畫面呈現。
在騰訊元寶App中,用戶已進入“AI應用”并選擇“AI視頻”功能,即可申請試用這一前沿技術。騰訊表示,本次開源包含了模型權重、推理代碼、模型算法等完整模型內容,旨在為企業與個人開發者提供免費使用和開發生態插件的機會。