騰訊近日在AI領域邁出了重要一步,其混元大模型推出的文生視頻功能正式上線,標志著用戶僅需一句話便能輕松生成視頻。
這款視頻生成大模型擁有驚人的130億參數量,是目前市面上最大的視頻開源模型。它不僅包含了完整的模型權重、推理代碼以及算法,還已在Hugging Face平臺和Github上公開發布,供企業和個人開發者免費使用,并鼓勵他們在此基礎上開發更多的生態插件。
用戶現在可以通過騰訊元寶APP中的AI應用模塊,進入AI視頻功能提交試用申請。同時,企業客戶也能夠通過騰訊云接入服務,API內測申請也已同步開放。
該視頻生成功能支持中英文雙語輸入,并提供多種視頻尺寸和清晰度選項,滿足用戶多樣化的需求。生成的視頻質量極高,即便是沖浪、跳舞等動作幅度大的場景,畫面也自然流暢,不易變形。
在鏡面或鏡子場景中,該模型生成的視頻更是令人驚嘆,鏡面反射動作與外部場景完全同步,光影反射效果也基本符合物理規律,展現出其強大的技術實力。
騰訊混元視頻生成大模型采用了先進的DiT架構,并在多個方面進行了優化升級。新一代文本編碼器的引入,顯著提升了模型的語義理解能力,使其能夠更好地應對復雜場景下的多個主體描繪,實現更加細膩的畫面呈現。
模型還采用了先進的圖像視頻混合VAE(3D變分編碼器),使得在細節表現上有顯著提升,特別是在小人臉、高速鏡頭等場景中,效果尤為明顯。
騰訊的這一創新之舉,無疑將為視頻創作領域帶來全新的變革,讓更多人能夠輕松享受到AI帶來的便利與樂趣。