2月16日凌晨,AI target=_blank class=infotextkey>OpenAI發布了首個文生視頻模型Sora,可以用文字指令生成長達1分鐘的高清視頻。
當前大模型在各個領域的應用,主要集中在文生文、文生圖之上,而在文生視頻領域卻進步緩慢。此次文生視頻模型Sora的發布,無疑令人振奮。不少業內分析指出,這將對于廣告業、電影預告片、短視頻行業帶來巨大的顛覆。但也有從業者保持冷靜:短期內的顛覆速度不一定那么快,更多地是借助新技術,激發更多人的創作力。
▍短期內較難帶來顛覆性影響
在官網上已經更新了48個視頻實例中,Sora能夠準確呈現視頻細節,還能深刻理解物體在現實世界中的存在狀態,并生成具有豐富情感的角色。
例如,某個Prompt(大語言模型的提示詞)的描述是美麗、白雪皚皚的東京城市熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位上購物。絢麗的櫻花花瓣和雪花一起在風中飛舞。
在Sora生成的視頻里,鏡頭從俯視白雪覆蓋的東京,慢慢推進到兩個行人在街道上手牽手行走,街旁的櫻花樹和攤位的畫面均細致呈現。
不少業內人士認為,這個進展的意義難以想象,將對電影、小說、動漫、教育、游戲、自媒體行業全部具有深遠的影響。
但也有視頻剪輯從業人員破冷水:“大規模應用后能否催生更多好作品不清楚,但制造視頻垃圾的速度一定會指數級增長。”
前百度產品委員會主席宋健表示:Sora確實很牛,但如果認為三年后就沒人拍視頻了,抖音TikTok會被很快顛覆,那還是為時過早。
“從平臺的角度,抖快視頻號本質上還是以視頻為載體的社交平臺,特效甚至視頻化本身只是個形式。做產品的肯定知道從零建一個社交平臺到底有多難,需要天時地利人和,技術只是其中的變量之一。此外,生成式視頻的信息量不如真實拍攝大。比如一個30歲的男人和一個20歲的女人對話,表達、語氣、表情的背后都是他們積累了50年的數據總和。這些是生成式AI當前無法替代的。而且用戶對這些細節很敏感。”
宋健認為,如若希望借助Sora這種視頻生成式技術,把視頻行業變成一個“人純粹消費機器工業化內容”的局面,這恐怕沒戲。但如果說,通過借助新技術,讓人和人之間產生新的連接,激活新的創作產能,這是有戲的。但也得尊重行業規律,日拱一卒地通過“技術”迭代“生態”,而不是直接把技術強懟給用戶。
▍有望縮短實現通用人工智能的時間
360集團創始人周鴻祎也表示,今天Sora可能給廣告業、電影預告片、短視頻行業帶來巨大的顛覆,但速度不一定那么快。
“AI不一定那么快顛覆所有行業,但它能激發更多人的創作力。很多人談到Sora對影視工業的打擊,我倒不覺得是這樣,因為機器能生產一個好視頻,但視頻的主題、腳本和分鏡頭策劃、臺詞的配合,都需要人的創意至少需要人給提示詞。一個視頻或者電影是由無數個60秒組成的。今天Sora可能給廣告業、電影預告片、短視頻行業帶來巨大的顛覆,但它不一定那么快擊敗TikTok,更可能成為TikTok的創作工具。”
周鴻祎認為,大語言模型的厲害之處在于,能完整地理解這個世界的知識。而此前所有的文生圖、文生視頻都是在2D平面上對圖形元素進行操作,并沒有適用物理定律。
“這次很多人從技術上、從產品體驗上分析Sora,強調它能輸出60秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規律,實際這些都比較表象。最重要的是Sora的技術思路完全不一樣。Sora產生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現汽車撞毀坦克這樣的情況。”
周鴻祎認為,這也代表未來的方向。有強勁的大模型做底子,基于對人類語言的理解,對人類知識和世界模型的了解,再疊加很多其他的技術,就可以創造各個領域的超級工具。
“比如生物醫學蛋白質和基因研究,包括物理、化學、數學的學科研究上,大模型都會發揮作用。這次Sora對物理世界的模擬,至少將會對機器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基于對這個世界的理解。比如對方的速度怎么樣,能否發生碰撞,碰撞嚴重性如何,如果沒有對世界的理解就很難做出一個真正的無人駕駛。”
周鴻祎預測,Sora的出現,或意味著AGI(通用人工智能)實現將從10年縮短到1年。
“OpenAI訓練這個模型應該會閱讀大量視頻。一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube上和TikTok的視頻都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,而視頻傳遞的信息量又遠遠超過一幅圖,這就離AGI真的就不遠了,不是10年20年的問題,可能一兩年很快就可以實現。
▍多模態大模型將成為生成式AI的重點發展方向
隨著文生圖、圖片對話技術的成熟,文生視頻已成為多模態大模型下一步發展的重點。展望2024年,機構人士認為,大模型領域的競爭將進一步白熱化,多模態大模型將成為生成式AI的重點發展方向,并有望推動本輪AI行情進一步擴散。
在國盛證券看來,AI文生視頻是多模態應用的下一站。文生視頻即根據給定的文字提示直接生成視頻。隨著文生視頻技術的日趨成熟和廣泛應用,或將為當下熱門的短劇市場帶來變數。該技術有望極大降低短劇制作的綜合成本,為解決“重制作而輕創作”的共性問題提供解決方案,短劇制作的重心有望回歸高質量劇本創作。
中信證券表示,多模態大模型算法的突破將帶來自動駕駛、機器人等技術的革命性進步,持續看好本輪生成式AI浪潮對科技產業的長周期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。
東吳證券判斷,多模態是AI商業宏圖的起點,有望真正為企業降本增效,且企業可將節省下來的成本用于提高產品、服務質量或者技術創新,推動生產力進一步提升;同時,也可能出現新的、空間更大的用戶生成內容平臺。
來源:財聯社