波多野结衣 蜜桃视频,国产在线精品露脸ponn,a v麻豆成人,AV在线免费小电影

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

譯者 | 布加迪

審校 | 重樓

上周AI target=_blank class=infotextkey>OpenAI團(tuán)隊(duì)推出了Sora這一大規(guī)模視頻生成模型,展示了模擬物理世界基本方面的新功能。我關(guān)注文本生成視頻這個(gè)領(lǐng)域已有很長(zhǎng)一段時(shí)間,我認(rèn)為這個(gè)模型代表了質(zhì)量方面的突飛猛進(jìn)。

我在Reddit和Twitter上看到許多人在猜測(cè)這個(gè)模型如何工作,包括一些非主流的說法(Sora是否在名為Unreal的游戲引擎中運(yùn)行?)。當(dāng)這個(gè)突破性的AI工具發(fā)布時(shí),很多人都想顯得自己似乎了解相關(guān)原理,或者甚至可能欺騙自己,認(rèn)為基于幾個(gè)已發(fā)布的視頻樣本就能從微妙的線索略知一二。我發(fā)現(xiàn)這方面最糟糕的例子莫過于Jim Fan博士的帖子,他聲稱“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎”,該帖子在Twitter上被瀏覽了大約400萬(wàn)人次(Sora根本就不是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎)。

幸運(yùn)的是,OpenAI發(fā)布了一篇研究文章,解釋了其模型的架構(gòu)。如果我們讀了這篇文章,實(shí)際上沒有必要猜測(cè)。下面我將介紹OpenAI團(tuán)隊(duì)提供的技術(shù),這樣我們就可以看懂Sora到底是如何工作的。

為什么Sora很了不起?

自人工智能領(lǐng)域問世以來,創(chuàng)建能夠建模、理解和模擬現(xiàn)實(shí)世界內(nèi)在復(fù)雜性的人工智能一直是一項(xiàng)非常困難的挑戰(zhàn)。與靜態(tài)圖像不同,視頻本質(zhì)上涉及呈現(xiàn)一段時(shí)間內(nèi)的變化、3D空間、物理交互和對(duì)象連續(xù)性等等。過去的視頻生成模型很難處理不同的視頻持續(xù)時(shí)間、分辨率和相機(jī)角度。更重要的是,這些系統(tǒng)對(duì)物理、因果關(guān)系和物體持久性缺乏內(nèi)在的“理解”,而這種理解是進(jìn)行高保真的現(xiàn)實(shí)模擬所必需的。

OpenAI發(fā)布的視頻展示了一個(gè)比我們?cè)谶@些領(lǐng)域見過的任何模型都更好的模型。坦白地說,這些視頻看起來很真實(shí)。比如說,一個(gè)人的頭會(huì)擋住標(biāo)牌,然后越過標(biāo)牌,而標(biāo)牌上的文字會(huì)保持不變。動(dòng)物即使在“空閑”時(shí)也會(huì)逼真地?cái)[動(dòng)翅膀。風(fēng)中的花瓣將隨風(fēng)搖擺。大多數(shù)視頻模型面對(duì)這種挑戰(zhàn)無能為力,結(jié)果往往是一些閃爍、抖動(dòng)的畫面,觀眾很難厘清頭緒,但Sora不存在這個(gè)問題。它是如何做到的?

關(guān)于模型架構(gòu)和訓(xùn)練的技術(shù)細(xì)節(jié)

在研究模型和現(xiàn)有的帖子時(shí),我的第一個(gè)主要的感悟是,這項(xiàng)研究工作建立在OpenAI的GPT等語(yǔ)言模型之前的工作基礎(chǔ)上。

  • 視頻表征

研究人員介紹的一個(gè)關(guān)鍵創(chuàng)新是Sora如何在訓(xùn)練過程中表示視頻。每一幀都被分成了許多小片塊(Patch),類似在GPT-4等大語(yǔ)言模型中將單詞分解成Token的方式。這種基于片塊的方法可以讓Sora使用長(zhǎng)度、分辨率、方向和寬高比各異的視頻加以訓(xùn)練。無論源視頻的原始形狀如何,從幀中提取的片塊都以一模一樣的方式加以處理。

圖1. OpenAI的研究文章稱:“大致來說,我們先將視頻壓縮到一個(gè)較低維度的潛在空間,然后將視頻表征分解為時(shí)空片塊,從而將視頻變成片塊。”

  • 模型架構(gòu)

Sora使用與其GPT模型密切相關(guān)的變換器(Transformer)架構(gòu)來處理這些視頻塊Token的長(zhǎng)序列。變換器含有時(shí)空自關(guān)注層,這些層在對(duì)文本、音頻和視頻等序列中的遠(yuǎn)程依賴關(guān)系建模方面的顯示大有好處。

在訓(xùn)練過程中,Sora的變換器模型將擴(kuò)散過程早期的視頻塊Token序列作為輸入,預(yù)測(cè)原始的“去噪”Token。通過使用數(shù)百萬(wàn)個(gè)不同的視頻進(jìn)行訓(xùn)練,Sora慢慢學(xué)會(huì)了自然視頻幀的模式和語(yǔ)義。

圖2. 來自O(shè)penAI研究文章的去噪過程圖圖2. 來自O(shè)penAI研究文章的去噪過程圖

  • 文本調(diào)整

Sora也是有條件的,這意味著它可以根據(jù)文本提示可控地生成視頻。文本提示被嵌入,并作為附加上下文提供給模型,與當(dāng)前視頻幀對(duì)應(yīng)的片塊一起提供。

為了更好地將文本描述與實(shí)際的視頻內(nèi)容聯(lián)系起來,研究人員為每個(gè)訓(xùn)練視頻使用了高度描述性的字幕,這些字幕是從一個(gè)單獨(dú)的字幕模型生成的。這項(xiàng)技術(shù)幫助Sora更緊密地遵循文本提示。

  • 推理過程

在推理過程中,Sora從純?cè)肼暺瑝K開始,并在50多個(gè)擴(kuò)散步驟中反復(fù)去噪,直到出現(xiàn)連貫流暢的視頻。通過提供不同的文本提示,Sora就能生成與字幕適當(dāng)匹配的不同視頻。

基于片塊的視頻表征允許Sora在測(cè)試時(shí)處理任何分辨率、持續(xù)時(shí)間和方向,只需在開始擴(kuò)散過程之前將片塊排列成所需的形狀就行。

功能和限制

通過將訓(xùn)練數(shù)據(jù)擴(kuò)展到數(shù)百萬(wàn)個(gè)視頻片段的規(guī)模,并使用大量的計(jì)算資源,OpenAI團(tuán)隊(duì)發(fā)現(xiàn)了一些非常有意思的突現(xiàn)行為:

  • Sora不僅僅是文本生成視頻,還可以從輸入圖像或其他視頻生成視頻。
  • Sora似乎對(duì)場(chǎng)景有一種強(qiáng)烈的3D“理解”,人物和對(duì)象以一種連續(xù)的方式逼真地移動(dòng)。這純粹源自數(shù)據(jù)規(guī)模,無需任何顯式的3D建模或圖形代碼。
  • 模型顯示對(duì)象持久性,常常跟蹤實(shí)體和對(duì)象,即使它們暫時(shí)離開幀或被遮擋時(shí)也跟蹤。
  • Sora展示了模擬一些基本的現(xiàn)實(shí)交互的能力——比如說,一個(gè)數(shù)字畫家在畫布上留下的筆觸在一段時(shí)間后精確地流傳下來。
  • 它還可以令人信服地生成復(fù)雜的虛擬世界和游戲,比如《我的世界》。Sora可以在渲染場(chǎng)景的同時(shí)控制在這個(gè)生成的環(huán)境中移動(dòng)的代理。
  • 隨著額外的算力和數(shù)據(jù)的增加,視頻質(zhì)量、連貫性和提示遵守大大提高,這表明了它進(jìn)一步得益于規(guī)模。

然而,Sora依然顯示出明顯的缺陷和局限性:

  • 它常常難以為比較復(fù)雜的現(xiàn)實(shí)世界物理交互、動(dòng)態(tài)和因果關(guān)系準(zhǔn)確地建模。簡(jiǎn)單的物理和對(duì)象屬性仍然具有挑戰(zhàn)性。比如說,一個(gè)玻璃杯被打翻并溢出液體,顯示玻璃杯融化到桌子上,液體從玻璃杯的側(cè)面流淌下來,卻沒有任何打碎的效果。
  • 模型往往自發(fā)地生成意想不到的對(duì)象或?qū)嶓w,在擁擠或混亂的場(chǎng)景中尤其如此。
  • Sora很容易混淆左右,或者當(dāng)許多行動(dòng)發(fā)生時(shí),一段時(shí)間內(nèi)事件或活動(dòng)的精確順序很容易打亂。
  • 依然很難逼真地模擬多個(gè)角色之間的自然互動(dòng)和環(huán)境。比如說,它會(huì)生成一個(gè)人在跑步機(jī)上走錯(cuò)方向的視頻。

未來發(fā)展方向

盡管一直存在這些缺陷,但Sora預(yù)示了未來的潛力,因?yàn)檠芯咳藛T繼續(xù)擴(kuò)大視頻生成模型的規(guī)模。有了足夠的數(shù)據(jù)和算力,視頻變換器可能會(huì)開始對(duì)現(xiàn)實(shí)世界的物理、因果關(guān)系和物體持久性有更深刻的理解。結(jié)合語(yǔ)言理解能力,這有望通過基于視頻的現(xiàn)實(shí)世界模擬為訓(xùn)練AI系統(tǒng)開辟新思路。

Sora朝著這個(gè)目標(biāo)邁出了頭幾步。雖然需要做更多的工作來克服它的許多弱點(diǎn),但它所演示的新興功能彰顯了這一研究方向的前景。使用大量不同的視頻數(shù)據(jù)集訓(xùn)練的巨型變換器最終可能會(huì)生成AI系統(tǒng),能夠與我們的物理環(huán)境的內(nèi)在復(fù)雜性、豐富度和深度進(jìn)行智能交互和理解。

結(jié)論

因此,與毫無根據(jù)的說法相反,Sora不是通過游戲引擎或“數(shù)據(jù)驅(qū)動(dòng)的物理引擎”來運(yùn)行,而是通過一種變換器架構(gòu)來運(yùn)行,這種架構(gòu)憑借視頻“片塊”來運(yùn)行,尤如GPT-4憑借文本Token來運(yùn)行。它擅長(zhǎng)創(chuàng)建表明理解深度、對(duì)象持久性和自然動(dòng)態(tài)的視頻。

該模型的關(guān)鍵創(chuàng)新在于將視頻幀作為片塊序列來處理,類似語(yǔ)言模型中的單詞Token,使它能夠有效地管理不同的視頻方面。這種方法結(jié)合文本條件生成,使Sora能夠根據(jù)文本提示生成與上下文相關(guān)、視覺上連貫的視頻。

盡管擁有突破性的功能,Sora仍然有局限性,比如為復(fù)雜的交互建模和動(dòng)態(tài)場(chǎng)景保持連貫性。這些局限性恰恰表明了需要進(jìn)一步研究,但無損于其在推進(jìn)視頻生成技術(shù)方面取得的重大成就。

我希望Sora能盡快發(fā)布給人們?cè)囉茫驗(yàn)槲乙呀?jīng)想到了關(guān)于這種技術(shù)的眾多新穎的應(yīng)用,不妨讓我們拭目以待。

原文標(biāo)題:How Sora (actually) works,作者:Mike Young

分享到:
標(biāo)簽:Sora
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定