騰訊在AI視頻生成領域邁出了重要一步,正式上線了其混元大模型的視頻生成功能。這一功能是在騰訊已經實現的文本生成文本、文本生成圖像以及3D生成能力之后的又一技術突破。
騰訊混元多模態生成技術的負責人凱撒在介紹中表示,此次更新的HunYuan-Video模型經歷了四大核心改進。首先,引入了超大規模的數據處理系統,顯著提升了視頻畫質。這一系統能夠混合處理圖像與視頻數據,通過多個維度的功能,如文字檢測、轉景檢測、美學打分等,進一步優化了視頻質量。
其次,模型采用了多模態大語言模型(MLLM)作為文本編碼器,提升了復雜文本的理解能力,并實現了多語言支持。這一改進使得文本與圖像之間的對齊更加精確,能夠根據用戶提供的提示詞生成符合要求的視頻內容。
模型架構方面,HunYuan-Video使用了130億參數的全注意力機制(DIT)和雙模態ScalingLaw,有效利用了算力和數據資源,增強了時空建模能力,并優化了視頻生成過程中的動態表現。這一架構支持原生轉場,實現了多個鏡頭間的自然切換,同時保持了主體的一致性。
最后,騰訊自研的3D VAE架構被應用于HunYuan-Video模型中,以提升圖像和視頻重建的能力。這一架構特別在小人臉和大幅運動場景下表現更加流暢,進一步增強了視頻的視覺效果。
與此同時,騰訊宣布將這款擁有130億參數規模的視頻生成模型進行開源,并在APP與Web端發布。用戶可以在標準模式下大約120秒內完成視頻生成。這一舉措將極大地促進AI視頻生成技術的發展和應用。
在技術升級之外,騰訊還對HunYuan-Video模型進行了多項應用拓展。通過微調、應用拓展及開源等措施,騰訊進一步強化了模型的實際應用能力。目前,HunYuan-Video正在六個關鍵方面進行專項微調,包括畫質優化、高動態效果、藝術鏡頭、手寫文本、轉場效果以及連續動作的生成。這些微調將進一步提升模型在視頻生成方面的定向能力。
HunYuan-Video還推出了Recaption模型,提供了常規模式和導演模式兩種生成模式。常規模式適合專業用戶進行精細操作,而導演模式則更適合非專業用戶使用,通過提升畫面質感、強化鏡頭運用等方面,幫助用戶生成高質量的視頻內容。
騰訊混元大模型在視頻生成領域的表現也獲得了認可。經過千題盲測的定量分析,混元在總體排序中以41.3%的表現領先,優于其他多個模型。特別是在處理人文場景、人工場所以及多主體組合場景時,其生成效果尤為突出。這一成績顯示了騰訊在AI視頻生成領域的強大實力。