2024年,AI視頻生成技術(shù)迎來(lái)了顯著的飛躍,盡管領(lǐng)軍企業(yè)推動(dòng)了整個(gè)行業(yè)的發(fā)展,但商業(yè)化進(jìn)程仍顯得相對(duì)遲緩。在技術(shù)前沿,GAN、Transformer、Diffusion Model等技術(shù)模型持續(xù)演進(jìn),其中Diffusion Transformer成為了核心路徑,Sora等模型的成功應(yīng)用展示了其強(qiáng)大潛力。同時(shí),語(yǔ)言模型路線(xiàn)因其可擴(kuò)展性強(qiáng)等優(yōu)勢(shì),被視作未來(lái)發(fā)展的重要方向。
AI視頻生成技術(shù)的應(yīng)用場(chǎng)景極為廣泛,涵蓋了視頻風(fēng)格化、鏡頭控制等全局元素,以及目標(biāo)編輯、移動(dòng)目標(biāo)等局部元素。字節(jié)跳動(dòng)、騰訊等企業(yè)紛紛推出了諸多創(chuàng)新成果,如字節(jié)跳動(dòng)的Dreamina和騰訊的MOFA-Video,這些成果在畫(huà)質(zhì)、時(shí)長(zhǎng)等方面均實(shí)現(xiàn)了顯著提升。
在行業(yè)未來(lái)發(fā)展層面,AI視頻生成技術(shù)的應(yīng)用場(chǎng)景呈現(xiàn)出多元化趨勢(shì)。外接場(chǎng)景如Sora、Runway等,為Adobe等企業(yè)提供了API接口;應(yīng)用場(chǎng)景則如AI視頻營(yíng)銷(xiāo)等,為各行業(yè)賦能。同時(shí),存量場(chǎng)景在不斷優(yōu)化,而增量場(chǎng)景則需進(jìn)一步探索。在產(chǎn)品層面,交互界面的提升成為關(guān)鍵,應(yīng)用類(lèi)模型的重點(diǎn)在于可控性,工作流雖有滲透但呈現(xiàn)碎片化狀態(tài)。
基礎(chǔ)模型層的研發(fā)難度較大,頭部玩家將持續(xù)優(yōu)化其模型,而其他玩家則可能選擇深耕場(chǎng)景,實(shí)現(xiàn)差異化發(fā)展。整體而言,AI視頻生成領(lǐng)域前景廣闊,但同時(shí)也面臨著諸多挑戰(zhàn)與機(jī)遇。