2月16日,AI target=_blank class=infotextkey>OpenAI公司公布了其首個文生視頻大模型Sora,同時展示了多個由Sora生成的最長時間達一分鐘的視頻,引起科技圈震動。
鋼鐵俠馬斯克對其發出“人類愿賭服輸”的感嘆,360董事長周鴻祎也作出“Sora意味著AGI實現將從10年縮短到1年”的預判,Sora為什么能引起科技圈大佬的關注,其攻克了哪些AI技術的難點?
繼ChatGPT引發多個行業的就業焦慮后,OpenAI這次公布的Sora又將給哪些行業帶來沖擊?這些行業又該如何面對這些挑戰?
在ChatGPT帶來的關于AI的諸多爭議還未完全平靜下來的情況下,OpenAI又將AI的“觸手”升維,這將帶來哪些新的市場機遇又會制造哪些風險?
本期《鈦度熱評》特邀資深媒體人一起就話題:“Sora驚艷出世,AI能否給人類帶來新的‘視界’?”進行了討論,下面是部分觀點集錦。
關于Sora為什么能引起科技圈大佬的關注,其攻克了哪些AI技術的難點。
BT財經聯合創始人&CEO張津京表示, 某種意義上,它根本不是一個模型,而是一系列實現用提示詞生成視頻的工具集合。 OpenAI研究了關文生視頻目前能查到最新的三四十篇論文,他們最牛的地方就是從中找到了一條看起來可行,并通過一年多時間逐漸推動落實的技術路線。所以你才發現這一篇報道的最后,OpenAI的研究團隊列舉了超過32篇被引用的論文。而整個過程他們分成5個部分,分別采用了不同的工具和原理。其中有創新思維的,是他們將視頻作為了提示詞可以理解的一個部分。
為了做到這一點,他們首先將視頻的內容降維,然后變成提示詞可以容納的內容提交給搭建的小模型去分析,輸出的東西再通過提壓的工具,把它變成多維的格式,最終形成視頻。
當然在這個過程中為了保證不失真,他們增加了很多的算法,最終通過跟行業內的交流,找到了一條可行的路徑。
Sora并不是一個現在可用的模型或者工具集。因為在這篇文章的任何地方都沒有向外界提供可以進行測試的鏈接,或者能重復進行研究人員制作視頻的任何過程的頁面。
所以,這根本不是一個成熟的產品,甚至連毛坯房都算不上,只能算是技術前瞻。
也正因為OpenAI知道目前實現不了相關的研究成果,除了展示沒有其他任何的方式,所以他們并沒有將這篇文章做成論文,在各大專業的平臺或者媒體刊發。
畢竟論文驗證最核心的一點,就是結果可以重復。
這就是說,凡是發布的論文帶動的學科研究結果,通過其公布的實驗過程,其他科學家可以復現,才能證明這個實驗和結論的有效。這是在科學界的常識。
比如之前炒的沸沸揚揚的,韓國團隊發現常溫超導的事件,國際各大團隊紛紛做了相關的試驗,沒有幾個成功就對它的結果存疑。
而也因為當下Sora還不是一個完整的模型產品,其生成的所有視頻,為了保密不可能公開相關的內容和操作過程以及細節。這也就讓這件事在科技界的權威性要標上一個問號。
畢竟沒有可重復的過程,所有提供的視頻究竟是不是由動態模型自主生成,還是一個人工輔助或者參與的結果,沒法證實或者證偽。
市值觀察主編盧詩洋表示,Sora簡單來說就是一個文字生成視頻的大模型。這似乎沒有什么大不了的,早在Open AI推出之前,相關大模型產品一個接一個,應有盡有。比如,PIKA、Runway、SVD、Genmo、Moonvalley。
但Sora足以降維吊打同行競品。
首先,它將視頻時長從目前主流的幾秒鐘提升至1分鐘,切入到了短視頻創作的時長范圍。其次,單視頻多角度鏡頭,且具備一致性。再者,可生成具備多個角色、包含特定運動的復雜場景,能夠一定程度上理解物理世界。
它能取得如此震撼的效果,源于站在巨人的肩膀上,應用市面上較為成熟的兩種技術(Transformer+擴散模型)。且嵌入自家GPT模型范式,即用戶輸入的提示詞先通過GPT進行詳盡擴寫,再將擴寫后的內容交給Sora,逐幀生成更精準的視頻。這使其具備了獨一無二的優勢特點。
Sora競爭對手因沒有GPT底層擴寫處理模型,卡在文生文,文生圖上,與Sora有著無法逾越的鴻溝。
Sora橫空出世,標志著一個里程碑式的進步。未來將深刻改變短視頻、游戲、娛樂影視、動漫、廣告營銷、新聞社交等內容制作領域。
諸如在電視或網絡上看到的品牌商一則短短幾分鐘的視頻,傳統廣告公司報價在百萬元級別。后者也需要投入不菲的成本和時間才得以實現。未來,利用Sora或將大大壓降其品牌商支出。對于廣告商而言,或許意味著商業模式的重新洗牌。
因此,外界對于Sora有著極高的贊譽。
即便如此,令人震撼的Sora也有不小缺陷。雖然Sora對于現實世界理解有相當程度的提升,但本質依舊是基于海量數據的訓練與計算,而不是其本身就對世界有理解,更遠沒有達到人類大腦的想象力。
因此,Sora生成的視頻還有很多局限性,甚至包括一些事實性的錯誤,更無法理解需要想象力的因果律。諸如,人咬了一口餅干沒有咬痕;人在跑步機跑步的方向錯亂;玻璃杯摔在地上只是一方變形。
最近幾天,有擁簇者驚呼,Sora吊打Runway、Pika,已經成為“通用世界模型”。很顯然,這過于神話Sora了,它離AGI(通用人工智能)、世界模型還有很遠很遠的路要走。
所謂“現實世界不存在了”,也絕不是現在。人工智能的浩瀚前景,誰也沒法否認,但當下需要保持頭腦清醒。
關于Sora將給哪些行業帶來沖擊?這些行業又該如何面對這些挑戰。
科技金融說創始人邵萍表示,Sora大模型的出現,從技術領域來看確實是一大亮點, 它標志著人工智能發展再度邁上一大臺階。對于各行各業,特別是金融、教育、醫療、自動駕駛等領域來說,無疑將帶來巨大的影響,但追捧的同時仍要理性看待。
作為一款人工智能視頻模型,Sora在于能夠通過簡單的文本命令創建出高度逼真、包含復雜背景和多角度鏡頭的視頻。不可否認,這是繼文本、圖像之后, AI技術拓展到視頻領域的又一次重大突破。未來也有可能引領一場更具看點的科技革新,最為直觀的體現就是或對短視頻制作、影視行業以及視覺交互界面應用產生較為顯著的影響。但是若說Sora的出現,“一些行業將不復存在、現實世界將不存在”確實夸大其談了。此外,目前Sora還處于初期探索階段,后期對于安全性以及垃圾內容的把控性等方面仍待考察。
盤古智庫高級研究員江瀚表示,隨著科技的飛速發展,人工智能(AI)已經成為了當今世界最為熱門的話題之一。其中,OpenAI的ChatGPT和Sora等模型的出現,更是顛覆了人們的認知。
首先,Sora的出現無疑是另一大里程碑。ChatGPT作為OpenAI研發的里程碑式語言模型,其強大的自然語言處理能力和對上下文理解的深度,在推出后迅速引發了全球范圍內的廣泛關注和熱議。ChatGPT不僅能夠流暢對話、解答問題,還能生成具有邏輯性和創造性的文本內容,這一突破性進展讓人們看到了人工智能在認知智能領域取得的重大飛躍。
緊隨ChatGPT之后,OpenAI又推出了視頻生成模型Sora,該模型更是將AI技術推到了一個全新的視覺維度。Sora憑借其創新的文本到視頻轉換能力,使得AI從理解和生成文本躍升至創作高清視頻內容的新高度。通過理解用戶輸入的文字描述,Sora可以自動生成包括復雜場景、多角色動態交互在內的長達一分鐘的流暢高清視頻,這標志著OpenAI在跨模態學習與生成方面取得了重大突破。
其次,Sora的最大突破還是在于理解人類語言并且通感成為視頻。Sora模型的核心優勢體現在它能夠理解人類語言輸入,并基于這種理解進行視頻內容的創造性生成。通過深度學習和跨模態技術,Sora能夠將文本描述中的抽象概念、情境、甚至是情感色彩映射到視覺表達上,生成與描述相匹配且具有一定連貫性的視頻片段。
盡管目前生成的視頻可能在細節處理、物理真實感或者復雜交互場景等方面還存在不完善之處,但其突破性在于首次實現了從文本到高質量視頻內容的有效轉化,這為內容創作者提供了一種全新的工具,大大提升了創意表達的效率和可能性。此外,Sora的應用價值也體現在教育、娛樂、廣告設計等眾多領域中,它有可能重塑這些行業的生產方式,并為未來更加智能化的內容創作打下堅實基礎。
第三,視頻的變革可能遠超過文字的變革,而且速度會更快。在當前的互聯網時代,視頻已經成為人們獲取信息、娛樂休閑的主要方式之一。每天都有大量的視頻內容被上傳到網絡上,涵蓋了新聞、教育、娛樂、廣告等各個領域。這些豐富的視頻資源為大模型的學習提供了寶貴的素材。
通過對這些視頻進行深度學習和分析,大模型可以不斷地提取和總結視頻中的視覺元素、場景轉換、敘事結構等規律,從而提高自身的生成能力。同時,大模型還可以利用這些視頻資源進行自我迭代和優化,不斷提升自身的性能和效率。
唐辰同學主理人唐辰表示,Sora值得更多的贊譽,但過度神話大可不必。販賣焦慮的不是Sora,喊出“現實不存在”,就兩類人,一類是AI門徒,一類是正在賣課割韭菜。應該向前者致敬,而后者典型如李一舟,正賣付費課程從你口袋掏錢。
對于普通人,人工智能是一套輔助工具。想靠著買課聽來的信息賺錢,只會是竹籃打水一場空。真正帶來壓迫感的,或許是Sora不可思議的進化速度。例如,Gen-2是2023年6月發布的產品,距離Sora的發布不過8個月。支撐OpenAI以如此速度迭代的是“瘋狂燒錢”,也是“大力出奇跡”的驅動力。
首席商業評論創始人衛明表示,Sora的目標不僅是搞視頻,更是為了向AGI方向突破。
Sora生成的視頻為何可以那么逼真?因為Sora不僅理解了語言指令,而且理解了語言中事物在真實世界中的物理規則。
譬如,出現的人,建筑,在不同角度觀看會呈現視線中應該出現的部分。譬如,物體在真實世界中的重力,速度。還有比較關鍵的,不同物體在真實世界中的關系,如何互相影響。譬如一個騎車的人穿越樹林,光線穿透的不同情況等等。
這些原來在電腦動畫中能實現是依靠人類提供的算法,并且需要用人來調配,也不能簡單復制。
而如今,Sora似乎已經學會并理解了這些關系。當ChatGPT,DALL-E,Sora等拼圖組合在一起,可以理解語言,理解世界的物理規律,并通過語言描述,能生成任何事物,如果再配上攝像頭不斷觀察世界,獲取真實世界的素材,是不是就已經能生成一個全新的物種了?
如果再提升邏輯推理能力,那基本上就是AGI了。
AGI最終關乎的是權力分配。根據這次上海二中女教師事件的社媒傳播來看,AI實際上已經在極大影響著事實和真相了。
這就會決定最終解釋權,也會決定其他權力的分配。
目前的AI還沒到AGI的程度,如果未來有了AGI,它就可以像人一樣,但能力比人強,隨意生成一段虛構的故事,效果和真人一樣,那么大家該相信誰?
所以,未來的AGI,或者超級AGI,可能會影響人類的組織關系和權力分配,這是一件有風險的事情。
藍媒匯聯創兼運營總監岳輕表示,實際上Sora的振奮人心,是從某種角度上,讓人認知到AI的商業化/普適化落地的現實。
從區塊鏈到VRMR,實際上這兩年互聯網并不缺乏新技術,但是所有的新技術都給人一種原本應該存在于PPT上,但是用目前的硬件科技水平愣造出來的感覺——它的原理、應用案例等都讓吃瓜群眾覺得不明覺厲,但實際上并沒有卵用。
實際上AI原本也應該是這樣,但OpenAI走了一條不同尋常的“邪路”,它把傳統認知中AI需要的“情感理解模塊”,轉用大數據和算法實現了一定標準上的完美替代,使得它在大幅度降低研發標準的同時,更貼近人們的日常生活。
從搜索引擎、圖文替代創作等,走到當下互聯網內容向最大的板塊“視頻”,OpenAI的每一步突破,都是基于吃瓜群眾切身體會和應用上的。這也使得吃瓜群眾更能理解OpenAI的原理、機制、成果以及它所能帶來的顛覆式的未來。
可以說人工智能這個概念應該感謝OpenAI,研究它的公司和機構有很多,但只有OpenAI一家找到了一條最適合它的發展路徑。
IT知識局主理人焦云鵬表示,當“文心一言”們還在考慮如何迭代升級時,OpenAI再次引領了大模型的潮流。Sora的出現,無疑讓人們看到了更多的可能性,但它肯定不是終點,但卻可以稱得上是一個里程碑。借用周鴻祎的話來說,Sora加速了AGI的實現。
Sora剛發布時,大家都覺得這對于廣告及影視制作行業是極大的沖擊。但實際真的是這樣嗎?其實不然。從ChatGPT發布到國內眾多大模型推出,似乎沒有多大的改變,因為這些應用場景,更多的還是在消費級領域,通過大模型輸出的成果也經不起商業推敲。如果說真的有影響,那可能真的是提高了一部分廣告創意從業者的效率,但依然沒有達到取而代之的程度。
另一方面,除了廣告創意類的內容外,比如新聞領域、時政民生領域等,諸如Sora這樣的工具要發揮作用似乎還要經過漫長的過程,比如法律法規的建立、不同國家制度的適配等等。最后要說的一點是,大模型的潛力不應該只存在于消費級,諸如在工業級、企業級場景中,還有更為廣闊的空間。
ICT觀察負責人葉丹丹表示,Sora的出現在AI領域可以說是劃時代的標志,將視頻制作方式注入了新的可能,但開放之路還有很遠。
Sora將文本和圖像生成工具的特點結合在一起,形成“diffusion transformer model”,通過從隨機噪點開始,迭代到符合輸入關鍵詞的圖像,再將這樣的圖像組成視頻,而關鍵點就是視頻每幀的連貫性和一致性,通過Open AI 發布的樣片,Sora做到了。
如果在資源充足的情況下,Sora得以開放且以合適的價格進行行業應用,那就可以更便捷地將人類想法可視化。
但參考ChatGpt的發展路徑,無論是從本身所需數據、算力和算法還是潛在的社會及倫理風險,Sora的行業應用之路還有很遠。訓練數據的稀缺、算力供給不足以及算法不完善都將成為Sora迭代的關鍵問題;而社會接受度、版權風險、及生成視頻的合規性也將影響Sora的應用進度。
Sora讓大眾看到了技術的新可能,新可能就會有新沖擊、新挑戰,但技術發展一直在路上。
零態LT主筆吳狄表示,GPT3的問世,讓人們將AGI的實現將從80年縮短到50年。2022年GPT4發布后,這個時間被進一步縮短到8年。如今,甚至有人堅信2025年將會是AGI元年。一位在1994年以神經網絡作為碩士論文的研究人員表示,面對AI指數級進化的速度,他只能勉強做到頭腦清醒。進化來的太快,絕大部分人還沒來得及去消化它,包括OpenAI自己。
相比傳統技術,AI擠占創業公司空間的威脅尤其明顯,典型的例子就是Jasper,一款GPT3套殼寫作AI產品,最終死于ChatGPT之手。以至于OpenAI開發者大會后,一個段子激發了很多人的共鳴:“奧特曼毀了我300萬美元的初創公司,卻只給了我300點ChatGPT積分”。
沖擊來得太快,結論卻來得太早。但不管怎么說,在Sora沒有實裝之前,所有的猜測最終都有可能是錯誤的,就像大家預測AGI實現的時間一樣。圖靈獎獲得者Yan LeCun就表示,Sora的模式注定了它終將無法實現自己的野心。那么,Sora是否真的能夠成功?如果是,成功后的Sora將會是什么樣子?它又能帶來什么樣的新啟發、殺死多少“Jasper”?
大力財經創始人魏力認為, Sora的降臨無疑是一場革命。Sora 作為首個文生視頻大模型,可能攻克了自然語言處理、計算機視覺和深度學習等難點,使視頻生成更真實、自然。科技圈大佬對其關注,因為它可能縮短 AGI 實現時間,對未來科技發展有深遠影響,并將在影視制作,動漫游戲和紀錄片,以及廣告營銷等行業帶來變革。未來的這些行業人才,將要大規模淘汰和流失,會進入到其他行業。這些行業需提升創意和技術水平,也可探索人機結合與 AI 合作。
Sora 帶來新機遇如智能視頻制作,但也引發風險如虛假內容傳播,法律和版權問題。
關于OpenAI將AI的“觸手”升維,這將帶來哪些新的市場機遇又會制造哪些風險。
壹DU財經主編劉亦可表示,Sora是OpenAI發布的首個AI視頻生成模型,在視覺領域實現了與大語言模型類似的突破。
在技術上,Sora突破了5至15秒的限制,將這一時長提升到60秒,并且場景切換、特寫等均滿足文本需求。還支持視頻到視頻的編輯,拼接完全不同的視頻使之合二為一、前后連貫。
另外,Sora突破AI視頻單鏡頭限制,可以生成多個鏡頭,且各個鏡頭具有角色和視覺風格的一致性。Sora是擴散+Transformer的視覺大模型,并且產生了涌現現象。它通過收集、清洗數據對現實世界有更深刻的理解、互動和模擬能力,生成的視頻更加逼真。
此外,Sora的運行速度比之前的模型快30%,準確率高達95%,并采用了全新的算法,實現了AI與人類的無縫對接。
從目前Sora展現的能力來看,它對內容創作、廣告娛樂和影視制作行業的沖擊是首當其沖的。它讓非專業人員,都有可能成為短視頻創作者,這勢必會產生新業態。但對于帶有劇情的長篇故事視頻,除了多鏡頭、連貫性等要求,還需要創新場景、準確和具有節奏的敘事、鏡頭語言等等。
短時間來看Sora不可能徹底替代人或者說讓專業人員失業,反倒有可能讓影視人創造出更多元豐富的作品。Sora的出現,更多是扮演輔助工具的角色,幫助人類提高效率,提高生產力。
目前來看,Sora等AI文生視頻產品有望在電影、短視頻、游戲等領域較大改變創作者的工作方式,降低創作成本,提升生產效率。另一個角度來看,Sora爆火與使用也會引發對內容真實性的驗證、版權問題、以及倫理等問題。各行各業紛紛涌入,其中的不規范行為與炒作也是值得注意的。
盤古智庫高級研究員江瀚表示,隨著Sora等大模型的快速普及和應用,可以預見一場行業變革正在醞釀之中。對于內容創作者來說,大模型將極大地提高他們的創作效率和質量,降低創作成本。他們只需輸入簡短的文字描述或創意想法,就可以快速生成符合要求的視頻內容,大大節省了時間和精力。
對于廣告公司、影視制作公司等企業來說,大模型將為他們帶來更多的商業機會和創新空間。他們可以利用大模型快速生成廣告宣傳片、宣傳片等視頻內容,提高品牌曝光度和用戶黏性。同時,大模型還可以幫助他們實現個性化定制服務,滿足客戶的個性化需求。
第四,隨著人工智能技術的不斷發展和普及,嚴防死守來防止其應用已經變得不再現實。從長遠來看,更好的策略是積極地去理解和利用人工智能,而不是試圖阻止它的發展。
一方面,人工智能在很多領域已經展現出了巨大的潛力和價值。例如,在醫療領域,人工智能可以幫助醫生進行疾病診斷和治療方案制定;在交通領域,人工智能可以提高交通流量和安全性;在金融領域,人工智能可以幫助進行風險評估和投資決策等。因此,通過積極利用人工智能,人類可以創造更多的價值,提高生活質量。
另一方面,理解和利用人工智能也需要人類不斷地進行探索和創新。隨著人工智能技術的不斷發展,新的應用場景和商業模式也將不斷涌現。通過不斷學習和實踐,人類可以更好地掌握人工智能的技術和應用,推動其與社會、經濟、文化等各個領域的深度融合。
因此,與其盲目地抗拒人工智能,不如積極地去理解和利用它。通過不斷學習和創新,人類可以更好地掌握人工智能的技術和應用,推動其與社會各個領域的深度融合,這樣才是人工智能時代真正的生存之道。
《鯨平臺》智庫專家郭施亮表示,從ChatGPT到Sora,再到未來可能出現的AGI,科技發展速度太快了,你不進步努力,別人繼續進步努力,稍有休息,卻與強者進一步拉開距離。Sora的成功意味著人類距離AGI的時間大大縮短,Sora不僅僅是生成視頻的工具,而且是對AI、大模型等方方面面的綜合應用,一旦得到場景化應用以及商用,未來的發展前景也是非常可觀的,但目前來看,全面實現商用的難度依然不小,還是需要用時間觀察。但是,AI大熱,最直接的體現是以英偉達為代表的巨頭股價持續上漲,未來的競爭還是要比拼人才儲備、比拼技術積累以及比拼研發投入,只有牢牢掌握核心技術、核心人才,才可以走得更高、更遠。
比特財經主編鄒震表示,和Sora生成的視頻內容相比,此前的文生視頻顯得很幼稚低級。此前文生圖就經常被用戶詬病結果不符合常識,而從目前Sora的表現來看,它顯然已經解決了這個難題。Sora的問世,顯示出生成式AI進化的速度太快了,大大超乎了人們的想象。OpenAI方面表示,Sora將成為實現AGI的重要里程碑。
按照Sora的發展速度,通過語言就能指揮AI創作電影級、廣告級視頻,這對很多行業確實會帶來巨大的顛覆。不少人都被Sora生成的內容驚艷,認為它將顛覆影視業,廣告行業也要完。短期內看,技術的進步將帶來行業的變革是毋庸置疑的。在Sora時代,視頻制作方面將會崛起更多的個人IP。但AI至少在相當長的時間里,還只是一種輔助工具。涉及影視、廣告行業的創意還需要由人來完成。因此適應這種轉變,才能活得更好,這同時也可能會讓一些中小型創業公司獲得發展機會。
產業家作者斗斗表示,在技術層面,Sora的誕生無疑令人矚目,甚至可能讓國內部分人士感受到技術差距的“滾雪球”效應。這一現象與其未來可能引發的一系列變革息息相關。隨著文生視頻應用的實施,Sora有望改變影視制作、廣告設計等領域的創作方式,催生全新的藝術表現形式。此外,在教育、游戲、社交等眾多領域,Sora也將帶來前所未有的變革。
尤為值得關注的是,Sora的誕生從側面印證了AI發展的步伐,其速度和規模遠超人們的想象。這意味著隨著算力和數據的持續積累,未來或許將涌現出更多可能性。
然而,從另一個角度來看,Sora目前并未帶來生產力的實質性變革,未來也可能難以實現。換句話說,它尚未在提高生產效率和降低成本方面取得顯著成果。在美國等以服務業為主導的國家,技術應用主要集中在服務業。
這與我國的情況截然不同。作為制造業大國,我國工業制造始終占據主導地位,從而擁有豐富的應用場景。而這些正是許多海外發達國家所欠缺的。基于這些應用場景,發展大模型技術落地,將有助于我國在技術領域實現趕超。
總體而言,歐美國家和我國各有優勢。面對市場變化和技術飛速發展,做好眼前的事、當下的事,才是應對技術焦慮的正確之道。因此,當前階段,著力推動大模型場景落地,成為我國趕超的關鍵。
大力財經創始人魏力表示,Sora 可能使影視、游戲、教育、娛樂、廣告、新聞、社交媒體、醫療、旅游和科技等行業發生變革,如提供更真實生動的視覺體驗、降低成本、提高效率等。但發展中要考慮人類利益和社會可持續發展,和真實度的問題,實現 AI 與人類和諧共生。
《鈦度熱評》是由鈦媒體推出的熱點事件觀察欄目,主要邀請對不同行業發展、不同商業模式有著獨到見解、深度觀察的媒體人和行業從業者,通過多角度解讀全面展示事件的影響和意義。