2024年,AI視頻生成技術迎來了顯著的飛躍,盡管領軍企業推動了整個行業的發展,但商業化進程仍顯得相對遲緩。在技術前沿,GAN、Transformer、Diffusion Model等技術模型持續演進,其中Diffusion Transformer成為了核心路徑,Sora等模型的成功應用展示了其強大潛力。同時,語言模型路線因其可擴展性強等優勢,被視作未來發展的重要方向。
AI視頻生成技術的應用場景極為廣泛,涵蓋了視頻風格化、鏡頭控制等全局元素,以及目標編輯、移動目標等局部元素。字節跳動、騰訊等企業紛紛推出了諸多創新成果,如字節跳動的Dreamina和騰訊的MOFA-Video,這些成果在畫質、時長等方面均實現了顯著提升。
在行業未來發展層面,AI視頻生成技術的應用場景呈現出多元化趨勢。外接場景如Sora、Runway等,為Adobe等企業提供了API接口;應用場景則如AI視頻營銷等,為各行業賦能。同時,存量場景在不斷優化,而增量場景則需進一步探索。在產品層面,交互界面的提升成為關鍵,應用類模型的重點在于可控性,工作流雖有滲透但呈現碎片化狀態。
基礎模型層的研發難度較大,頭部玩家將持續優化其模型,而其他玩家則可能選擇深耕場景,實現差異化發展。整體而言,AI視頻生成領域前景廣闊,但同時也面臨著諸多挑戰與機遇。