提到國外的生成式AI大模型,文本生成領域有ChatGPT,圖像生成領域有Midjourney和Stable Diffusion,那么視頻生成領域有什么?
很多人第一個會想到Runway公司的Gen-1。
Gen-1是Runway在今年2月推出的一款(也是該公司的第一款)由文本生成視頻的AI大模型。不過就在幾天前,它的迭代版本Gen-2也正式發布了。
在此之前,Gen-2從3月下旬開始已經進行了一段時間的小范圍測試。
雖然當時Runway的發言人Kelsey Rond.NET說過Gen-2會在未來幾周對所有人開放,不過直到6月,這個承諾才算真的兌現了。
所以千呼萬喚始出來的Gen-2,到底進化到哪一步了?
真正的從零開始生成視頻
在發布Gen-1的時候,Runway專門開辟了一個網頁來給大家講解Gen-1能怎么用,大致來講主要包括了下面5個功能:
-輸入一張圖片提示,來讓原視頻變成你想要的風格;-上傳視頻+一段提示詞,生成你想要的視頻(比如讓一只拉布拉多變成斑點狗);
-輸入圖片或提示詞,來讓一段只做了3D建模的視頻草稿變完整;
-上傳一段隨意拍攝的視頻,自動生成一段有故事感的片段(比如隨意擺放的書最后成了一片高樓大廈);
-在原視頻的基礎上,更自由地定制你想要的視頻風格(哪怕變出一只現實里并不存在的奇行種)。
發現沒有,使用Gen-1的前提是必須先有一個現成的視頻。說白了,Gen-1的作用其實就相當于給原視頻加了一個更高級的濾鏡。
而到了Gen-2,可以說才真正實現了從零開始生成視頻的夢想。
從介紹來看,Gen-2比Gen-1多了3個厲害的功能:
-文本到視頻:只用輸入一段提示詞,就能生成一段視頻;-文本和圖片到視頻:輸入一張圖片+一段提示詞,就能讓圖片動起來;
-圖片到視頻:只用輸入一張圖片,就能自動生成一段視頻(比如讓圖片里的云飄起來,水流起來,人走動起來)。
此圖為輸入“The late afternoon sun peeking through the window of a New York City loft”的提示詞生成
如果說Gen-1充其量只能當做一個修改視頻的工具,那么Gen-2幾乎已經能作為一個視頻生產工具了——試想一句話生成的一個個視頻片段,最后拼到一起就能講一個完整的故事了……
總之就是只能拿來玩和能拿來用的區別。
雖然目前Gen-2生成的視頻依然存在細節模糊不清、形態扭曲等等品質問題,且生成的視頻長度最多只有4秒,但它可能是現在視頻生成領域最厲害的AI大模型工具了。
當然,從Gen-2開始,也標志著Runway公司正式進入了收費時代:不同于Gen-1的完全免費,Gen-2免費版的視頻生成功能有限(試用額度只有105秒,約等于26個4秒視頻,且分辨率低、有水?。脩粜枰吭赂?5美元(或144美元包年)才能用到它的完整功能。
Runway有啥來頭?
Gen-2背后的Runway是一家成立于2018年的年輕公司,一直在研究怎么用AI來提升視頻制作效率。
除了TikTok和YouTube上的普通用戶,Runway的客戶還包括了不少主流影視工作室,比如扣扣熊主持的《深夜秀》就用到過Runway的工具來輔助編輯圖像。
它最著名的一次應用應該是去年在中國觀眾中間非常出圈的電影《瞬息全宇宙》,據報道里面讓人印象深刻的面條手,還有石頭對話等超現實場景都用到了Runway的技術。
不過很多人可能會忽略的是,早些天被爆出大丑聞的Stable Diffusion也和Runway關系密切。
準確來說是一直被外界視作Stable Diffusion(時下圖像生成領域最熱門的大模型之一)背后公司的Stability AI爆雷了,媒體列出Stability AI的罪狀之一就是,它把Stable Diffusion的10億代碼成果“據為己有”,而它充其量只是給Stable Diffusion提供了算力(出了錢)。
實際上真正為Stable Diffusion出力的是慕尼黑大學、海德堡大學,以及Runway。
Stable Diffusion最早發表在CVPR 2022年中的一篇論文
也就是說,Runway是Stable Diffusion的研發者之一。
Runway在去年還因為官宣發布了Stable Diffusion v1.5版本一度被Stability AI抓著不放,但那次的輿論最終還是站在了Runway這邊。
這也是Runway在“成名”以前為數不多的“八卦”。
后來就像大多數的大模型開發公司一樣,不再參與Stable Diffusion項目的Runway在發布Gen-1之后,發展速度就像坐上了火箭,并且在本月初拿到了谷歌的投資,距離D輪1億美元的融資剛過去一個月,累計融資至少已有2億美元,成為大模型領域的明星公司。
說個更直觀的數字,2021年12月對沖基金Coatue花3500萬美元投資Runway時,其估值為2億美元,一年后估值變成5億美元,再過了半年,它的估值就又翻了3倍(保守說有15億美元)。
網友:好萊塢is dead
Gen-2的正式發布讓不少網友感到興奮。
在Runway官宣發布Gen-2的推文下,出現了一些普通用戶“求教程”的聲音:
不過已經有行動力強的用戶開始試著用Gen-2生成自己的視頻了,不少用戶都在Runway推文的評論區交上了自己的4秒鐘“作業”。
盡管Runway只是在網站列出了Gen-2的主要功能,并沒有教給大家更多Gen-2的玩法,但聰明的網友已經自己學著用Gen-2生成的視頻剪輯出了一個有反轉的短故事。
比如這個叫“Monster of the sea(海怪)”的48秒故事:天氣晴朗、風平浪靜的一天,一搜帆船開始還很悠然地行駛在海上,船上的游客愜意地碰著杯喝著酒,可突然狂風大作,船員拿起望遠鏡往遠處望,發現一只巨大的海怪出現在海面,船隨著海浪開始顛簸,甚至燃燒了起來,船上的人紛紛跳水棄船逃生。
來自推特網友@MHU
甚至有直接用ChatGPT寫了劇本、再用Gen-2生成的視頻拼成一個故事的。
還有用戶拿Gen-2生成的素材剪了一個1分鐘的電影預告片,甚至在最后幽默地加了一個戛納電影節的標志,如果生成的視頻質量再高一點,怕不是真能以假亂真。
來自推特網友@Toni Seldr
不過視頻質量差、生成的視頻時長太短等也確實成了用戶吐槽Gen-2的點。
并且在為Android/ target=_blank class=infotextkey>安卓用戶提供App服務的問題上,Gen-2和Gen-1一樣也還是沒有長進。
當然,更多用戶還是對Runway表現出了寬容。有網友評價說,“雖然它有太多的不完美,但有一點可以肯定,整個視聽工業都將迎來革命性的改變。”
還有網友更激進地說,“好萊塢已死,任何人都可能做出一部世界級的電影。”
真能取代好萊塢嗎?
可以理解為什么廣大網友對Gen-2的推出如此興奮。Gen-2對普通用戶的好處是明擺著的——假以時日,文本生成視頻技術一旦成熟,將意味著拍電影不再只是大制片廠的專屬,任何一個普通人都可以做一部自己的電影。
Runway并沒有明確說過Gen-2面向的人群到底是誰。不過我們可以從它推出App以及之前和影視工作室有過的合作等等動作來看,大致猜到有哪些人會用到Gen-2:專業的制片公司,個人工作室性質的獨立生產者,以及我們這樣的普通用戶。
雖然Gen-2看起來對普通用戶很友好,但制片公司們會用Gen-2這樣的工具也是肯定的。
畢竟大模型不同于過去任何一個熱過之后就銷聲匿跡的概念,它將成為未來又一次深刻改變人類的產業革命,幾乎已經是各行各業的共識。
事實上在國內,已經有影視項目開始借助大模型來完成一些工作。比如在劇本籌備階段,會把分鏡頭故事板的產出工作交給Midjourney(據說能省下幾十萬元的成本)。
那假設,有一天Gen-N成熟到也能生成能直接拿去用的完美鏡頭呢?
或者可以拿大模型在游戲行業的應用做個類比,Midjourney等工具的使用顯然已經對游戲公司產生了非常現實的影響:先是出于節省成本的需要砍掉美術外包團隊,接著就是在自己人身上動刀,甚至有從業者提到最多有8成的原畫師會下崗。
考慮到如今大模型的迭代速度,它的影響真正顯現在影視行業也會是遲早的事。
不過我反而覺得,Gen-2大模型可能會淘汰那些影視行業流水線上的“工人”,但卻淘汰不了真正的藝術家。
之前聽到過一個說法,AI大模型生成的內容里,可能有80%都會是對人類過去經驗無聊的重復,但也可能有20%閃光的東西。就比如在中式美學和賽博朋克如何進行融合的問題上,普通創作者可能需要極長時間進行思考,AI卻可能生成一個讓人意想不到的結果,給人帶來驚喜。
這20%是AI存在的意義,剩下的就需要真正有創造力的人去補足。
還有從業者提到過一個觀點,AI大模型運用到影視行業的生產,不意味著非專業人士也能輕松上手——如果想借助AI的力量創作劇本,還需要針對劇本公式和故事結構等相關知識進行充電。不具備基礎知識的小白即便有了AI這個超級助理也無濟于事。
所以回到AI是不是能取代好萊塢的問題,事實上好萊塢可能是最早對新技術的“入侵”有所感知的,就像在今年5月初,數以千計的好萊塢編劇工會(WGA)成員曾進行罷工示威,訴求之一便是抵制在劇本寫作中廣泛使用AI的現象。
如果有一天Gen-N真的來了,好萊塢導演們可能第一個不答應。