日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請(qǐng)做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

聲明:本文來自于微信公眾號(hào) 新智元(ID:AI_era),作者:新智元,授權(quán)轉(zhuǎn)載發(fā)布。

【新智元導(dǎo)讀】2023年,也是AI視頻元年。過去一年究竟有哪些爆款應(yīng)用誕生,未來視頻生成領(lǐng)域面臨的難題還有哪些?

過去一年,AI視頻領(lǐng)域我們見證了,Gen-2、Pika等爆款產(chǎn)品的誕生。

來自a16z的Justine Moore,詳細(xì)盤點(diǎn)了人工智能視頻生成領(lǐng)域的現(xiàn)狀、不同模型比較,以及還未解決的技術(shù)挑戰(zhàn)。

圖片

接下來,一起看看這篇文章都講了什么?

圖片

AI視頻生成大爆發(fā)

2023年是AI視頻取得突破的一年。不過,今年過去了一個(gè)月,暫未有公開的文本到視頻的模型。

短短12個(gè)月,數(shù)十種視頻生成產(chǎn)品受到了全球數(shù)以萬計(jì)的用戶的青睞。

不過,這些AI視頻生成工具仍相對(duì)有限,多數(shù)只能生成3-4秒的視頻,同時(shí)質(zhì)量往往參差不齊,角色一致性等問題尚未解決。

也就是說,我們還遠(yuǎn)不能制作出一個(gè)只有文字提示,甚至多個(gè)提示的皮克斯級(jí)別的短片。

然而,我們?cè)谶^去一年中在視頻生成方面取得的進(jìn)步表明,世界正處于一場(chǎng)大規(guī)模變革的早期階段——與我們?cè)趫D像生成方面看到的情況類似。

我們看到,文本到視頻的模型在不斷改進(jìn),圖像到視頻,以及視頻到視頻等分支也在蓬勃發(fā)展。

為了幫助了解這一創(chuàng)新的爆炸式增長,a16z追蹤了到目前為止最需要關(guān)注的公司,以及該領(lǐng)域仍然存在的潛在問題。

圖片

今天,你可以在哪里生成AI視頻?

21個(gè)視頻生成產(chǎn)品

今年到目前為止,a16z已經(jīng)跟蹤了21種公開產(chǎn)品。

雖然你可能聽說過Runway、Pika、Genmo和Stable Video Diffusion,但還有許多其他的東西需要探索。

圖片

這些產(chǎn)品大多來自初創(chuàng)公司,其中許多都是從Discord bots,有以下幾個(gè)優(yōu)勢(shì):

- 不需要構(gòu)建自己面向消費(fèi)者的界面,只需專注于模型質(zhì)量

- 可以利用Discord每月1.5億活躍用戶的基礎(chǔ)進(jìn)行分發(fā)

- 公共渠道為新用戶提供了一種簡便的方式,讓他們獲得創(chuàng)作靈感(通過查看他人的創(chuàng)作)

然而,隨著技術(shù)成熟,我們開始看到越來越多的AI視頻產(chǎn)品建立自己的網(wǎng)站,甚至是App。

隨著Discord提供了一個(gè)很好的平臺(tái),但在純生成之上添加的工作流而言,卻是有限的,并且團(tuán)隊(duì)對(duì)消費(fèi)者體驗(yàn)的控制很少。

值得注意的是,還有很大一部分人不使用Discord,因其覺得界面混亂讓人困惑。

研究和技術(shù)

谷歌、Meta和其他公司在哪里?

在公開的產(chǎn)品列表中,他們顯然沒有出現(xiàn)--盡管你可能已經(jīng)看到了他們發(fā)布的關(guān)于Emu Video、VideoPoet 和 Lumiere等模型的帖子。

到目前為止,大型科技公司基本上都不選擇公開自家的AI視頻產(chǎn)品。

取而代之的是,他們發(fā)表了各種相關(guān)的視頻生成的論文,而沒有選擇視頻演示。

比如,谷歌文本生成視頻的模型Lumiere

圖片

圖片

這些公司有著巨大的分銷優(yōu)勢(shì),其產(chǎn)品擁有數(shù)十億用戶。

那么,他們?yōu)槭裁床环艞壈l(fā)布視頻模型,而在這一新興類別市場(chǎng)中奪取巨大份額。

最主要的原因還是,法律、安全和版權(quán)方面的擔(dān)憂,往往使這些大公司很難將研究轉(zhuǎn)化為產(chǎn)品,并推遲推出。如此一來,讓新來者有機(jī)會(huì)獲得先發(fā)優(yōu)勢(shì)。

AI視頻的下一步是什么?

如果你曾使用過這些產(chǎn)品,便知道在AI視頻進(jìn)入主流產(chǎn)品之前,仍然有很大的改進(jìn)空間。

有時(shí)會(huì)發(fā)現(xiàn),AI視頻工具可以將提示內(nèi)容生成視頻的「神奇時(shí)刻」,但這種情況相對(duì)較少見。更常見的情況是,你需要點(diǎn)擊幾次重新生成,然后裁剪或編輯輸出,才能獲得專業(yè)級(jí)別的片段。

這一領(lǐng)域的大多數(shù)公司都專注于解決一些核心的問題:

- 控制性:你能否同時(shí)控制場(chǎng)景中發(fā)生的事情,(比如,提示「有人向前走」,動(dòng)作是否如描述的那樣?)關(guān)于后一點(diǎn),許多產(chǎn)品都增加了一些功能,允許你對(duì)鏡頭zoom或pan,甚至添加特效

- 「動(dòng)作是否如描述的那樣」一直較難解決:這涉及到底層模型的質(zhì)量問題(模型是否理解提示的含義并能按要求生成),盡管一些公司正在努力在生成前提供更多的用戶控制。

比如,Runway的motion brush就是一個(gè)很好的例子,它允許用戶高粱圖像的特定區(qū)域并確定其運(yùn)動(dòng)方式。

圖片

時(shí)間一致性:如何讓角色、對(duì)象和背景在幀之間保持一致,而不會(huì)變形為其他東西或扭曲?

在所有公開提供的模型中,這是一個(gè)非常常見的問題。

如果你今天看到一段時(shí)間連貫的視頻,時(shí)長超過幾秒,很可能是視頻到視頻,通過拍攝一段視頻,然后用AnimateDiff prompt travel之類的工具來改變風(fēng)格。

圖片

- 長度——制作長時(shí)間的短片與時(shí)間連貫性高度相關(guān)。

許多公司會(huì)限制生成視頻的長度,因?yàn)樗麄儾荒艽_保幾分鐘后依然視頻保持一致性。

如果當(dāng)你看到一個(gè)超長的AI視頻,要知道它們是由一堆短片段組成的。

尚未解決的問題

視頻的ChatGPT時(shí)刻什么時(shí)候到來?

其實(shí)我們還有很長的路要走,需要回答以下幾個(gè)問題:

1當(dāng)前的擴(kuò)散架構(gòu)是否適用于視頻?

今天的視頻模型是基于擴(kuò)散模型搭建的:它們基本原理是生成幀,并試圖在它們之間創(chuàng)建時(shí)間一致的動(dòng)畫(有多種策略可以做到這一點(diǎn))。

他們對(duì)3D空間和對(duì)象應(yīng)該如何交互沒有內(nèi)在的理解,這解釋了warping / morphing。

2優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)從何而來?

與其他模態(tài)模型相比,訓(xùn)練視頻模型更難,這主要是因?yàn)橐曨l模型沒有那么多高質(zhì)量的訓(xùn)練數(shù)據(jù)可供學(xué)習(xí)。語言模型通常在公共數(shù)據(jù)集(如Common Crawl)上進(jìn)行訓(xùn)練,而圖像模型則在LAION和ImageNet等標(biāo)記數(shù)據(jù)集(文本-圖像對(duì))上進(jìn)行訓(xùn)練。

視頻數(shù)據(jù)更難獲得。雖然在YouTube和TikTok等平臺(tái)上不乏公開可訪問的視頻,但這些視頻沒有標(biāo)簽,也不夠多樣化。

3這些用例將如何在平臺(tái)/模型之間進(jìn)行細(xì)分?

我們?cè)趲缀趺恳环N內(nèi)容模態(tài)中看到的是,一種模型并不是對(duì)所有用例都「取勝」的。例如,MidTrik、Idegraph和Dall-E都有不同的風(fēng)格,并擅長生成不同類型的圖像。

如果你測(cè)試一下今天的文本到視頻和圖像到視頻模式,就會(huì)發(fā)現(xiàn)它們擅長不同的風(fēng)格、運(yùn)動(dòng)類型和場(chǎng)景構(gòu)成。

提示:Snow falling on a city street, photorealistic

圖片

Genmo

圖片

Runway

圖片

Stable Video Diffusion

圖片

Pika Labs

誰將主導(dǎo)視頻制作的工作流程?

而在許多產(chǎn)品之間,來回是沒有意義的。

除了純粹的視頻生成,制作好的剪輯或電影通常需要編輯,特別是在當(dāng)前的范例中,許多創(chuàng)作者正在使用視頻模型來制作在另一個(gè)平臺(tái)上創(chuàng)建的照片的動(dòng)畫。

從Midjourney的圖像開始,在Runway或Pika上制作動(dòng)畫,然后在Topz上進(jìn)行升級(jí)的視頻并不少見。

然后,創(chuàng)作者將視頻帶到CapCut或Kapwing等編輯平臺(tái),并添加配樂和畫外音,通常是在Suno和ElevenLabs等其他產(chǎn)品上生成的。

參考資料:

https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/

分享到:
標(biāo)簽:AI視頻 AI視頻生成
用戶無頭像

網(wǎng)友整理

注冊(cè)時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊(cè)賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績?cè)u(píng)定