日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

 

本文詳解了AI target=_blank class=infotextkey>OpenAI Sora的技術報告,闡述了它的核心功能:視頻生成、視頻合成、圖片生成以及它的強大之處,最后解釋了Sora背后的原理、局限等。

首先,讓我們來談談這個名字。OpenAI所推出的Sora并不僅僅是一個視頻生成工具,而是被定位為世界模擬器,這一定位頗具格局。那么,什么是世界模擬器呢?OpenAI認為,這個工具能夠有效地模擬物理和數字世界,包括其中的物體、動物和人類等各種元素。

從字里行間可以看出,這個模型是構建元宇宙的一個非常有效的途徑。

以往的視頻生成模型和算法往往局限于特定類別的視覺數據,比如較短或固定大小的視頻。與此不同的是,Sora是一個通用的視覺數據模型——它能夠生成持續時間、寬高比和分辨率多樣的視頻和圖像,甚至能夠生成長達一分鐘的高清視頻。

這意味著,Sora超越了以往模型的限制,不僅能夠處理更廣泛類型的視覺內容,還能生成更長、更高質量的視頻。這種能力讓Sora在視頻生成和圖像處理領域展現出更為強大和靈活的潛力,無論是為社交媒體內容創作、電影制作預覽、虛擬現實環境構建,還是為科研和教育提供視覺資料,Sora都表現出了巨大的應用前景。

Sora的核心功能

Sora Features

01

Sora的核心功能可以歸納為三個:視頻生成、視頻合成以及圖片生成。因此,我們不能簡單地將其視為一個僅限于視頻生成的工具,否則將忽略其許多實用的功能。

盡管視頻生成和視頻合成在其他AI視頻工具中也存在,但Sora有其獨特的優勢和強大之處。

01

視頻生成

視頻生成是Sora的核心功能,但它擁有幾個強大的特點,使其能夠在競爭激烈的AI視頻工具市場中脫穎而出:

生成長達1分鐘視頻

大多數工具通常只能生成幾秒到十幾秒的視頻。而Sora則可以直接生成長達一分鐘的視頻,且這一分鐘的視頻并非單一場景,而是由多個鏡頭組成。更令人印象深刻的是,Sora能夠確保多個鏡頭之間的人物、場景等保持一致性。理論上講,Sora可以生成更長的視頻,就像使用ChatGPT寫文章時能夠比以前寫更長一樣,但這可能受到算力的限制。

上面的視頻長達一分鐘,但它是有多個鏡頭組成,不同鏡頭有不同的景別

可生成不同尺寸的視頻

Sora能夠生成不同尺寸的視頻,包括寬屏的1920x1080p視頻、豎屏的1080x1920視頻,以及這兩者之間的所有尺寸。這意味著Sora可以直接按照不同設備的原生寬高比創建內容。這樣做的好處是,無論是手機、電腦還是電視,Sora都能為它們直接制作出完美匹配的視頻。

上面的視頻有不同的長寬比

更優秀的語義理解

Sora采用了獨特的訓練方法,使其能夠更好地理解語義(即提示詞),從而生成更符合需求的視頻,后文詳細說明。

3D一致性

這個功能也可以理解為對運動相機的支持,比如類似航拍環繞鏡頭,Sora能隨著相機的移動和旋轉,人物和場景元素在三維空間中一致地移動,讓人有身臨其境的感覺。

上面的視頻模擬了一個一鏡到底的航拍鏡頭,可以看到隨著鏡頭運動,人物和場景元素并為發生變化。

多鏡頭之間的角色一致性

Sora可以持續地模擬人物、動物和物體,即使它們被遮擋或離開畫面。同樣,它能夠在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持他們的外觀。

上面的視頻中斑點狗有一次被行人遮擋,但再次出現后它的形象仍然可以保持一致。

上面的視頻中包含2個鏡頭,但角色形象在2個鏡頭中保持了一致。

以下是一些更具體的說明:

可變的視頻時長、分辨率、寬高比

以往的視頻生成方法通常會將視頻調整為標準尺寸,比如裁剪成4秒長、分辨率為256x256。然而,OpenAI發現,直接在視頻原始尺寸上進行訓練有許多好處。

就好比是,如果我們讓孩子總是穿著同一尺碼的衣服,可能就無法培養他們選擇合適衣服的能力。但如果讓他們嘗試不同尺碼和樣式的衣服,他們就能更好地了解什么樣的衣服最適合自己,也能更自在地表達自己的風格。

同樣地,當我們讓電腦處理原始大小的視頻時,電腦就能學會更好地理解和生成各種不同尺寸和形式的視頻,這樣生成的視頻也會更加多樣化和自然。

可先制作低分辨率視頻原型

此外,還可以用Sora在較低分辨率下快速制作原型內容,然后再以全分辨率生成內容,而這一切都能用同一個模型完成。這就像是先用鉛筆畫出草圖,確認了設計之后再用顏料畫出精美的畫作,既高效又方便。

通過實驗發現,直接在視頻的原生寬高比上訓練,可以改善視頻的構圖和取景。將Sora與另一個版本的模型進行了比較,后者會將所有訓練用的視頻裁剪成正方形。結果發現,那些在正方形視頻上訓練的模型有時會生成畫面中主體只部分可見的視頻。相比之下,Sora生成的視頻在取景上有了明顯的改善。

為什么Sora能更好的理解提示詞

訓練文本到視頻生成系統需要大量帶有對應文本描述的視頻。OpenAI借鑒了在DALL·E 3中介紹的重新標注技術,將其應用于視頻。

首先,OpenAI訓練了一個能生成高度描述性文本的模型,然后用這個模型訓練集中的所有視頻生成文本描述。OpenAI發現,在高度描述性的視頻描述上訓練可以提高文本的準確性以及視頻的整體質量。

這就像是給視頻配上一本詳細的說明書。當電腦在學習如何根據文本生成視頻時,如果這些文本描述得越詳細,電腦就能更準確地理解和再現文本中描述的場景,從而制作出更高質量的視頻。這種方法不僅讓視頻更貼合文本,還提升了視頻的整體觀賞性。

與DALL·E 3類似,OpenAI也利用GPT將用戶的簡短提示轉化為更長、更詳細的說明,然后這些說明會被送到視頻模型中。這樣做使得Sora能夠根據用戶的提示生成高質量的視頻,準確地反映用戶的要求。

這個過程就像是有一個智能助手,當你告訴它你想看的視頻大概是什么樣子的時候,它不僅聽懂了你的要求,還能擴展你的想法,給出更具體、更豐富的描述。然后,這個描述就像是給Sora的一個詳細藍圖,讓Sora知道該如何制作出你想要的視頻,確保最終的視頻既符合你的期待,又有高質量的表現。

圖生成視頻

Sora能夠基于圖片和提示生成視頻。下面展示了一些例子,這些視頻是基于DALL·E 2和DALL·E 3生成的圖片制作的。

這意味著Sora不僅僅是一個視頻制作工具,它更像是一個全能的創意伙伴,能夠幫助你將任何想法變為現實。無論是有一個具體的場景想要動畫化,還是想要給一張圖片添加故事背景,或者是想看看某個瞬間如果向前或向后延續會是什么樣,Sora都能幫你實現。這大大擴展了創作的可能性,讓你可以更自由地表達和探索創意。

將圖片轉成視頻

02

視頻合成

Sora支持多種視頻合成技術,包括擴展視頻、視頻到視頻編輯(替換視頻中的場景),以及無縫連接兩個視頻。這些能力極大地拓展了Sora的適用范圍,降低了視頻后期處理的門檻。

擴展視頻

Sora還能夠擴展視頻,無論是向前還是向后延伸時間。下面有四個視頻,它們都是從一個生成的視頻片段開始,向后倒退延伸的。因此,這四個視頻的開始各不相同,但都會以同樣的場景結束。

可以利用這種方法,將一個視頻向前和向后延伸,從而制作出一個無縫的無限循環視頻。

通過Sora制作了一個無限循環的視頻。

這種能力就像是給視頻添加了時間旅行的功能。想象一下,你有一個精彩的瞬間或場景,通過Sora,你不僅可以看到這個場景接下來會發生什么,還可以探索如果時間倒流,這個場景會如何展開。這為創造具有吸引力和創意的內容提供了無限的可能性,比如制作循環播放的背景視頻、講述一個故事的不同開頭但相同結局的版本,或者僅僅是為了創造一些美妙且引人入勝的視覺體驗。

視頻到視頻編輯技術

通過擴散模型,已經使得從文本提示編輯圖片和視頻成為可能。OpenAI還將一種方法——SDEdit——應用到了Sora上。這項技術使得Sora能夠零次學習(zero-shot)地轉換輸入視頻的風格和環境。

這就像是給Sora一個魔法棒,讓它能夠理解你的文字提示,然后按照這些提示改變視頻的外觀和感覺。比如,你可以讓一個晴朗的海灘視頻變成雪地里的場景,或者將日間的場景轉變為夜晚,甚至更換整個視頻的藝術風格,比如從現實風格變為卡通風格,而這一切都不需要重新拍攝視頻,僅僅通過輸入新的文本提示就可以實現。

上面的視頻中展現了將原視頻進行場景替換后生成的新視頻。

這種技術大大擴展了視頻編輯的可能性,讓創作者能夠輕松實驗和創新,將原本平凡的視頻轉換為全新的視覺體驗,增加了內容的創意和多樣性。

視頻連接

我們還可以利用Sora在兩個輸入視頻之間進行逐漸的插值,創造出完全不同主題和場景組成的視頻之間的無縫過渡。在下面的例子中,中間的視頻是左右兩邊對應視頻之間的過渡。

上面的視頻中展現了將兩個視頻拼接后的新視頻。

這就像是有了一座魔法橋,可以將兩個完全不同的世界連接起來。比如,一個視頻是在繁忙的城市街道,另一個視頻是在寧靜的鄉村田野,Sora可以創造出一個過渡視頻,觀眾可以看到城市逐漸變成鄉村的畫面,就像是從一個場景平滑地旅行到另一個場景。

這種能力為視頻制作提供了新的創意手段,允許創作者以前所未有的方式來講故事或展示內容。無論是為了講述一個跨越不同地點的故事,還是為了創造吸引人的視覺效果,通過Sora連接視頻的功能都能讓視頻內容變得更加豐富和吸引人。

03

圖片生成

Sora也具備生成圖片的能力。這個模型能夠生成不同大小的圖片——分辨率最高可達2048x2048。

這種能力使Sora成為一個多才多藝的創意工具,不僅可以制作視頻,也能創造出精美的靜態圖像,適用于各種視覺藝術和設計領域。

涌現能力

Emerging simulation capabilities

02

當在大規模上訓練時,視頻模型展現出了一些有趣的涌現能力。這些能力使得Sora能夠模擬現實世界中人類、動物和環境的某些方面。這些屬性的出現,并不需要對三維、物體等進行明確的引導——它們完全是規模效應的現象。

與世界互動。Sora有時可以模擬以簡單方式影響世界狀態的行為。例如,畫家可以在畫布上留下隨時間持續存在的新筆觸,或者一個人吃漢堡時留下咬痕。

模擬數字世界。Sora還能夠模擬人工過程——一個例子是視頻游戲。Sora可以在模擬《Minecraft》世界及其動態的同時,用基本策略控制玩家。通過用提及“Minecraft”的字幕提示Sora,可以零次學習地引發這些能力。

這些能力表明,繼續擴大視頻模型的規模是朝著開發能夠高效模擬物理和數字世界及其中的物體、動物和人類的高能力模擬器的有希望的道路。

Sora訓練方法

How training Sora

03

借鑒了ChatGPT的訓練思路

雖然Sora是一個視頻模型,但其訓練方式與諸如ChatGPT這類語言模型相似。不同之處在于,Sora使用的訓練數據是視頻和圖片,而ChatGPT則使用文本數據。

訓練過程類似,首先需要對視覺數據(即視頻和圖片)進行壓縮,然后將簡化后的視頻分解成許多小塊(這里稱為視覺補丁),每個小塊包含視頻的一小部分畫面和時間,就像是將一段故事分成一幕幕小片段一樣。這樣的處理有助于使電腦更容易學習和理解視頻中的信息。

用于視頻生成的縮放轉換器

Sora被描述為一種擴散模型,你可以將其想象成一個超級洗衣機。給它一些“臟”衣服塊(在我們的例子中,這些帶有噪聲的視頻塊),再加上一些清洗指令(比如文字提示),它就能夠訓練自己預測出這些衣服塊原本的干凈樣子。而且,Sora作為一個擴散變換器,在語言模型、計算機視覺和圖像生成等領域都顯示出了驚人的擴展能力。

就像變換器在不同領域都表現出色一樣,Sora也利用這種能力來學習如何從噪聲中恢復出清晰的視頻塊。這使得Sora在處理視頻和圖像時變得非常強大和靈活。

在實驗中,發現擴散變換器在視頻模型方面也能夠有效地擴展。進行了一個實驗,用固定的種子和輸入比較了訓練過程中視頻樣本的質量變化。隨著訓練計算量的增加,樣本質量顯著提高。

Sora的局限性

盡管Sora作為一個模擬器展現了許多涌現能力,但它目前還存在許多限制。例如,它不能準確地模擬許多基本互動的物理過程,比如玻璃碎裂。其他互動,比如吃食物,不總是導致物體狀態的正確變化。OpenAI在官網上列舉了模型的其他常見失敗模式——比如在長時間樣本中發展的不連貫性或物體的突然出現。(有人竟把它當作Sora翻車視頻??)

OpenAI認為,Sora目前所具有的能力表明,繼續擴大視頻模型的規模是朝著開發能夠有效模擬物理和數字世界及其中的物體、動物和人類的高能力模擬器的有希望的道路。

雖然目前還有許多挑戰需要克服,但Sora的發展方向是明確的,未來有潛力成為一個更加精準和多功能的模擬工具。隨著技術的進一步發展和改進,OpenAI相信Sora將為科學、藝術和娛樂領域帶來更多令人興奮的應用。

參考

- https://openai.com/research/video-generation-models-as-world-simulators

分享到:
標簽:Sora
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定