【ITBEAR科技資訊】2月21日消息,近日,人工智能領域的領軍企業OpenAI發布了其首款名為Sora的文本生成視頻大模型。這款模型能夠根據用戶提供的文字提示,生成長達60秒的高質量視頻。令人驚嘆的是,Sora所輸出的視頻效果堪比專業的影視CG,因此在發布后迅速引爆了科技圈。
與此同時,在文生視頻技術的研發上,國內高校也取得了顯著進展。據國家知識產權局網站公布的信息,清華大學于2月2日申請了一項名為“一種定制化多主體文生視頻方法、裝置、設備及介質”的專利。該專利涉及神經網絡技術領域,為文生視頻技術的進一步發展提供了新的思路。
據ITBEAR科技資訊了解,清華大學的這項專利申請中詳細描述了一種定制化多主體文生視頻的方法。該方法需要獲取多個主體分別對應的主體文本表述以及主體圖像;然后,基于這些信息,進一步獲取混合文本和組合圖像。接下來,將混合文本和組合圖像輸入到文生視頻模型中,生成第二噪聲預測值,并根據這個預測值與組合圖像,計算出第二損失和第三損失。通過綜合考慮第一損失、第二損失與第三損失,對文生視頻模型進行優化,從而得到一個性能更優的文生視頻模型。
這項專利技術的創新之處在于,它通過多種損失函數對文生視頻模型的參數進行優化,確保在基于文本描述生成視頻中的圖像時,文本描述與定制化主體能夠保持一致。同時,該技術在生成過程中能夠確保每個主體的特征不會發生混淆,并且在最終的視頻中消除合成痕跡,從而提升視頻的整體質量和觀感。