日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

明敏 豐色 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

就說(shuō)Sora有多火吧。

生成的視頻上線一個(gè)、瘋傳一個(gè)。

作者小哥新上傳的效果,點(diǎn)贊很快破萬(wàn)。

失敗案例都讓人看得上癮。

將近10萬(wàn)人點(diǎn)贊。

學(xué)術(shù)圈更炸開(kāi)鍋了,各路大佬紛紛開(kāi)麥。

紐約大學(xué)助理教授謝賽寧(ResNeXt的一作)直言,Sora將改寫整個(gè)視頻生成領(lǐng)域。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan高呼,這就是視頻生成的GPT-3時(shí)刻啊!

尤其在技術(shù)報(bào)告發(fā)布后,討論變得更加有趣。因?yàn)槠渲兄T多細(xì)節(jié)不是十分明確,所以大佬們也只能猜測(cè)。

包括“Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎”、“Sora建立在DiT模型之上、參數(shù)可能僅30億”等等。

所以,Sora為啥能如此驚艷?它對(duì)視頻生成領(lǐng)域的意義是?這不,很快就有了一些可能的答案。

視頻生成的GPT-3時(shí)刻

總的來(lái)說(shuō),Sora是一個(gè)在不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),也就是一種“擴(kuò)散型Transformer”。

關(guān)于技術(shù)細(xì)節(jié),官方報(bào)告簡(jiǎn)單提了以下6點(diǎn)

一是視覺(jué)數(shù)據(jù)的“創(chuàng)新轉(zhuǎn)化”。

與大語(yǔ)言模型中的token不同,Sora采用的是“Patches(補(bǔ)片)”來(lái)統(tǒng)一不同的視覺(jué)數(shù)據(jù)表現(xiàn)形式。

如下圖所示,在具體操作中,模型先將視頻壓縮到低維潛空間中,然后將它們表示分解為時(shí)空補(bǔ)片,從而將視頻轉(zhuǎn)換為補(bǔ)片。(啊這,說(shuō)了又仿佛什么都沒(méi)說(shuō))

二是訓(xùn)練了一個(gè)視頻壓縮網(wǎng)絡(luò)

它可以降低視覺(jué)數(shù)據(jù)維度,輸入視頻,輸出時(shí)空上壓縮的潛表示。

Sora就在這上面完成訓(xùn)練。相應(yīng)地,OpenAI也訓(xùn)練了一個(gè)專門的解碼器。

三是時(shí)空補(bǔ)片技術(shù)(Spacetime latent patches)。

給定一個(gè)壓縮的輸入視頻,模型提取一系列時(shí)空補(bǔ)片,充當(dāng)Transformer的token。正是這個(gè)基于補(bǔ)片的表示讓Sora能夠?qū)Σ煌直媛省⒊掷m(xù)時(shí)間和長(zhǎng)寬比的視頻和圖像進(jìn)行訓(xùn)練。

在推理時(shí),模型則通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的補(bǔ)片來(lái)控制生成視頻的大小。

四是擴(kuò)展Transformer也適用于視頻生成的發(fā)現(xiàn)。

OpenAI在這項(xiàng)研究中發(fā)現(xiàn),擴(kuò)散型Transformer同樣能在視頻模型領(lǐng)域中完成高效擴(kuò)展。

下圖展示出隨著訓(xùn)練資源的增加,樣本質(zhì)量明顯提升(固定種子和輸入條件)。

五是視頻多樣化上的一些揭秘。

和其他模型相比,Sora能夠hold住各種尺寸的視頻,包括不同分辨率、時(shí)長(zhǎng)、寬高比等等。

也在構(gòu)圖和布局上優(yōu)化了更多,如下圖所‍示,很多業(yè)內(nèi)同類型模型都會(huì)盲目裁剪輸出視頻為正方形,造成主題元素只能部分展示,但Sora可以捕捉完整的場(chǎng)景:

報(bào)告指出,這都要?dú)w功于OpenAI直接在視頻數(shù)據(jù)的原始尺寸上進(jìn)行了訓(xùn)練。

最后,是語(yǔ)言理解方面上的功夫。

在此,OpenAI采用了DALL·E 3中引入的一種重新標(biāo)注技術(shù),將其應(yīng)用于視頻。

除了使用描述性強(qiáng)的視頻說(shuō)明進(jìn)行訓(xùn)練,OpenAI也用GPT來(lái)將用戶簡(jiǎn)短的提示轉(zhuǎn)換為更長(zhǎng)的詳細(xì)說(shuō)明,然后發(fā)送給Sora。

這一系列使得Sora的文字理解能力也相當(dāng)給力。

關(guān)于技術(shù)的介紹報(bào)告只提了這么多,剩下的大篇幅都是圍繞Sora的一系列效果展示,包括文轉(zhuǎn)視頻、視頻轉(zhuǎn)視頻,以及圖片生成。

可以看到,諸如其中的“patch”到底是怎么設(shè)計(jì)的等核心問(wèn)題,文中并沒(méi)有詳細(xì)講解。

有網(wǎng)友吐槽,OpenAI果然還是這么地“Close”(狗頭)。

正是如此,各路大佬和網(wǎng)友們的猜測(cè)也是五花八門。

謝賽寧分析

1、Sora應(yīng)該是建立在DiT這個(gè)擴(kuò)散Transformer之上的。

簡(jiǎn)而言之,DiT是一個(gè)帶有Transformer主干的擴(kuò)散模型,它= [VAE 編碼器 + ViT + DDPM + VAE 解碼器]。

謝賽寧猜測(cè),在這上面,Sora應(yīng)該沒(méi)有整太多花哨的額外東西。

2、關(guān)于視頻壓縮網(wǎng)絡(luò),Sora可能采用的就是VAE架構(gòu),區(qū)別就是經(jīng)過(guò)原始視頻數(shù)據(jù)訓(xùn)練。

而由于VAE是一個(gè)Con.NET,所以DiT從技術(shù)上來(lái)說(shuō)是一個(gè)混合模型。

3、Sora可能有大約30億個(gè)參數(shù)。

謝賽寧認(rèn)為這個(gè)推測(cè)不算不合理,因Sora可能還真并不需要人們想象中的那么多GPU來(lái)訓(xùn)練,如果真是如此,Sora的后期迭代也將會(huì)非???。

英偉達(dá)AI科學(xué)家Jim Fan則認(rèn)為

Sora應(yīng)該是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。

Sora是對(duì)現(xiàn)實(shí)或幻想世界的模擬,它通過(guò)一些去噪、梯度下降去學(xué)習(xí)復(fù)雜渲染、“直覺(jué)”物理、長(zhǎng)鏡頭推理和語(yǔ)義基礎(chǔ)等。

比如這個(gè)效果中,提示詞是兩艘海盜船在一杯咖啡里航行廝殺的逼真特寫視頻。

Jim Fan分析,Sora首先要提供兩個(gè)3D資產(chǎn):不同裝飾的海盜船;必須在潛在空間中解決text-to-3D的隱式問(wèn)題;并且要兩艘船避開(kāi)彼此的路線,兼顧咖啡液體的流體力學(xué)、保持真實(shí)感、帶來(lái)仿佛光追般的效果。

有一些觀點(diǎn)認(rèn)為,Sora只是在2D層面上控制像素。Jim Fan明確反對(duì)這種說(shuō)法。他覺(jué)得這就像說(shuō)GPT-4不懂編碼,只是對(duì)字符串進(jìn)行采樣。

不過(guò)他也表示,Sora還無(wú)法取代游戲引擎開(kāi)發(fā)者,因?yàn)樗鼘?duì)于物理的理解還遠(yuǎn)遠(yuǎn)不夠,仍然存在非常嚴(yán)重的“幻覺(jué)”。

所以他提出Sora是視頻生成的GPT-3時(shí)刻。

回到2020年,GPT-3不是一個(gè)很完美的模型,但是它有力證明了上下文學(xué)習(xí)的重要性。所以不要糾結(jié)于GPT-3的缺陷,多想想后面的GPT-4。

除此之外,還有膽大的網(wǎng)友甚至懷疑Sora用上了虛幻引擎5來(lái)創(chuàng)建部分訓(xùn)練數(shù)據(jù)。

他甚至挨個(gè)舉例分析了好幾個(gè)視頻中的效果以此佐證猜想:

不過(guò)反駁他的人也不少,理由包括“人走路的鏡頭明顯還是奇怪,不可能是引擎的效果”、“YouTube上有數(shù)十億小時(shí)的各種視頻,ue5的用處不大吧”……

如此種種,暫且不論。

最后,有網(wǎng)友表示,盡管不對(duì)OpenAI放出更多細(xì)節(jié)抱有期待,但還是很想知道Sora在視頻編碼、解碼,時(shí)間插值的額外模塊等方面是不是有創(chuàng)新。

OpenAI估值達(dá)800億美元

在Sora引發(fā)全球關(guān)注的同時(shí),OpenAI的估值也再次拉高,成為全球第三高估值的科技初創(chuàng)公司。

隨著最新一要約收購(gòu)?fù)瓿?,OpenAI的估值正式達(dá)到800億美元,僅次于字節(jié)跳動(dòng)和SpaceX。

這筆交易由風(fēng)投公司Thrive Capital牽頭,外部投資者可以從一些員工手中購(gòu)買股份,去年年初時(shí)OpenAI就完成過(guò)類似交易,使其當(dāng)時(shí)的估值達(dá)到290億美元。

而在Sora發(fā)布后,GPT-4 Turbo也大幅降低速率限制,提高TPM(每分鐘最大token數(shù)量),較上一次實(shí)現(xiàn)2倍提升。

總裁Brockman還親自帶貨宣傳。

但與此同時(shí),OpenAI申請(qǐng)注冊(cè)“GPT”商標(biāo)失敗了

理由是“GPT”太通用。

One More Thing

值得一提的是,有眼尖的網(wǎng)友發(fā)現(xiàn),昨天Stability AI也發(fā)布了SVD 1.1。

但似乎在Sora發(fā)布不久后火速刪博。

有人銳評(píng),這不是翻版汪峰么?不應(yīng)該刪,應(yīng)該返蹭個(gè)熱度。

這還玩?zhèn)€p啊。

還有人感慨,Sora一來(lái),立馬就明白張楠為啥要聚焦剪映了。

以及賣課大軍也聞風(fēng)而動(dòng),把商機(jī)拿捏死死的。

參考鏈接:

[1]https://openai.com/research/video-generation-models-as-world-simulators

[2]https://Twitter.com/DrJimFan/status/1758210245799920123

[3]https://x.com/sainingxie/status/1758433676105310543?s=20

[4]https://twitter.com/charliebholtz/status/1758200919181967679

[5]https://www.reuters.com/technology/openai-valued-80-billion-after-deal-nyt-reports-2024-02-16/

— 

分享到:
標(biāo)簽:Sora
用戶無(wú)頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫(kù),初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定