2023 年開年以來,ChatGPT猶如心間振翅的蝴蝶,一刻不停地撩動著全體科技從業者,其強大的產品力和想象力在全球范圍內快速形成高度共識。
有人將其稱為人工智能領域的 iPhone 時刻,有人認為,這是 AGI(通用人工智能)發展的里程碑。
時間回到 5 年前,2018 年烏鎮世界互聯網大會,一覽科技創始人&CEO 羅江春預言,未來5年內,機器生產視頻內容RGC(Robotics Generated Content)就會實現,視頻內容會更豐富,制作更簡單,業態也會更靈活,優秀的視頻生產商將會有更多機會。
回到當下,這個預言的準確性趨近于100%,羅江春口中的 RGC 與當下熱議的 AIGC并無區別。
ChatGPT 出圈,智能對話式語言模型完成技術飛躍,大幅解放內容創作的效率生產力。除了文字以外,圖片、音樂、甚至視頻,多模態AIGC同樣熱鬧非凡。
機器生產視頻內容(RGC/AIGC)的春天真的到了嗎?還有哪些關鍵挑戰?3D 方向有哪些關鍵進展值得關注?
日前,一覽科技創始人&CEO 羅江春受邀參加《聊聊 ChatGPT 火爆背后,大模型的底層邏輯和未來應用》主題對話,結合二十多年視頻行業經驗,就人工智能生產視頻內容(RGC/AIGC)相關話題進行分享,并認為“過去 30 年唯有 WWW/HTTP 可與ChatGPT相比。”
羅江春
一覽科技創始人 & CEO、風行在線創始人 & 董事
清華大學機械工程和企業管理雙學士、美國萊斯大學計算機科學碩士。2005 年創辦「風行在線」,開創中國互聯網高清視頻產業機會。創新研發全球首款「邊下邊看」視頻軟件以及 FSP 點播平臺,推動風行成為全球領先的網絡視頻平臺。2017 年創辦一覽科技,專注視頻商用服務領域,并在人工智能應用方面投入海量研究和落地實踐。2018 年曾在烏鎮世界互聯網大會上預測,AIGC 機器生成視頻內容 5 年內會實現并成為主流。
以下為羅江春分享全文:
大家好,我是羅江春,很高興能和大家見面,剛才我也一直在聽各位的討論,收獲頗多。那么一覽科技實際上做的是VaaS,什么叫VaaS呢?就是video as a service。
過去這些年,中國的視頻產業主要是娛樂化的視頻,但其實這個產業結構已經到天花板了,視頻產業必然要向上探索ToB商用。一個商用視頻的時代即將開啟,未來視頻會像水和電一樣,變成一種基礎設施,任何一個人、任何一個企業、組織都會需要基礎的視頻能力。所以,從2017、2018年開始,一覽公司所有的力量都在集中做VaaS,video as a service。
做視頻離不開內容,那么內容創作的主體逐漸從PGC慢慢轉變到UGC ,隨著人工智能的發展,又衍生出了新的趨勢。在2018年烏鎮世界互聯網大會上,我預測未來5年內,機器生產視頻內容RGC(Robotics Generated Content)就會實現,到時候視頻內容會更豐富,制作更簡單,業態也會更靈活,優秀的視頻生產商將會有更多機會。
當時講的RGC,其實和現在的AIGC是一個意思。AIGC現在確實已經到來了,所以在整個視頻的應用上,我們是希望用人工智能技術在內容生產上做更多賦能。
1997年到2000年,我在美國萊斯大學就讀人工智能AI專業。人工智能這個領域我一直在看,我們團隊也一直在看。包括一覽這個公司名字,取自一覽無余,我們就是希望通過AI把視頻里面每個元素、每個元數據、每個標簽,每個內容都看清楚。那么其實我從GPT1.0 就開始關注,2.0 之后就不開源了,現在大家看到的ChatGPT確實是一個非常震撼的東西,對我們整個視頻內容的生產有根本性的改變。當然,我們今天不要去貿然地預測,它會不會直接一步就能做到,輸入一段文字就能把視頻做出來,現在肯定是做不到的,還需要跟各種圖片生成視頻模型、視頻生成視頻模型、以及音頻混音的工具去結合。
先不談電影電視這種更復雜的視頻產品,如果我們把一個三五分鐘的短視頻解構開,至少有這么幾類基本的元素:第一,腳本相關,從故事大綱到腳本等;第二,素材,包括圖片、鏡頭等;第三,我們會把音軌單獨拎出來,音軌包含了配音,配樂,特效等聲音相關的一系列東西。當然,最后你還需要剪輯拼接在一起。這是一個視頻制作的基本原理,那么AIGC生成視頻都要從這幾方面去下手,無論從腳本的智能化的生成,到是否有海量的、可應用的、高質量的素材庫,以及音頻也是一樣。最后還涉及到拼接剪輯。這些方面涉及的難點在AI 研究領域大家其實都比較明確。比如從靜態到動態的模擬,情緒的匹配,以及3D建模。
據說OpenAI將要發布基于視頻的大模型的應用,我們也很期待,為什么期待呢?這里有一個很核心的原因。智能手機的普及,使得能在抖音、快手、tiktok這樣的視頻APP上做內容的人越來越多,實際上降低了內容生產的門檻。如果AIGC在 video這個領域能夠成為現實,那門檻又進一步降低。不管是用prompt 還是其他提示語言,更多的人能更方便地做出更好的視頻的話,視頻產業未來會跟游戲一樣非常吸引人,會產生豐富多樣的video,而且生產成本極低。
當然,就視頻應用這個領域,我認為不應該再去做這種底層的通用大模型。不管我們國內有幾個團隊去做這件事,但肯定不是在垂直領域做,而是應該在大模型的基礎上去提升我們的效能,在垂直的AIGC這個領域上真正地做出有效的應用,有效的內容。
關于創業公司是否要投身大模型,我一直有個觀點,包括這幾天跟很多大基金的老大溝通的時候也在反復說,這種基礎能力的大模型,一般創業公司可能做不了。我們先不說情懷,先不說理想主義,我們先說本身的能力,就是往里面投入的資金和人才密度的要求是很高的。而且關鍵是這些做基礎設施的人,咱們回顧過去二十年、三十年,真正在互聯網上做基礎設施的人往往是不賺錢的,都是一群非常理想主義的人在支撐做這個事兒,真正賺到錢的人是在基礎設施之上做應用的人。
那么在這波大的浪潮下,創業公司現在需要做什么?
我覺得應該馬上調整, 在GPT這樣的大模型上面All in去創造應用,創造內容。順便說一句我們目前在做的事。去年一覽推出了一個給MCN 機構和視頻創作者做內容創作賦能的工具,叫一覽運營寶。還沒有啟動大規模的推廣,但是已經有上千家專業的創作機構入駐使用,我們陸續在添加很多基于GPT的AIGC能力應用,比如說用 AI幫他們寫腳本、做圖片素材等等。隨著整個工具的不斷進化,就能把AIGC 完全賦能給創作者,做出更好的內容,更好的視頻。
現在其實是一個新時代的開啟,有點類似94年、95年的時候, 是一個荒蕪的時代,同樣一片混沌。這個時候我們應該抓緊在上面建新浪,建雅虎,建 Google,建 eBay等等,不管你想做客服系統,還是想做教育,這個時候都應該全力以赴在GPT或者其他大模型的基礎上做內容、做應用。上周我見了一堆教育的公司,都準備重新再沖進去,把以前標注的素材重新再生成基于AI的教培。包括視頻行業,像原來我們說PGC、UGC,現在是AIGC,這都是我說的應用和內容。
有很多人說ChatGPT像iPhone,像搜索引擎,我覺得都不太對,搜索引擎、iPhone其實只是半個時代。對我來說,在我從業二十多年的時間里,只看見過一個東西可以跟它相比,就是真正開啟整個互聯網時代的HTTP和WWW。
為什么可以這樣相比呢?
因為HTTP和WWW改變了人們獲取信息的方式。你可以通過一臺電腦,不管通過瀏覽器Netscape還是IE,你可以得到信息,得到支持,得到商品信息可以購買等等。但是ChatGPT出來以后,跟你對話的不再是一個機器,你獲取信息的方式不再是單向的。你是在跟一個人,跟一個專家,甚至跟一個God對話。我不認為他只是大學生的水平,剛才我也聽了大家在這個問題上的討論,我覺得這取決于你怎么和他溝通,如果溝通得對,他表現出來的能力還是非常強大的。
至于GPT這樣的大模型,未來的商業以及背后的技術會如何演進。拋開自身業務,拋開內容,拋開AIGC,拋開視頻來說。剛才我反復提到prompt engineer的這個職業,這個職業就像念咒語一樣,你不斷地去調各種詞,用不同的模型,得到不同的結果,就像一個念咒師。所以,如果讓我選一個video 之外的方向,我覺得辦一個prompt engineer的學校或者培訓機構會很有意思,真的去培養出來數以千萬計的prompt engineer去改變世界,會是一件很有意義的事情。
最后一個問題,對于硅基生命和碳基生命,未來的走向會是怎么樣的。 剛才評論區有人引用了馬斯克的一個觀點,“某種程度而言,人類作為碳基生命就是一種生物引導程序,或者說是一段非常小的代碼,其使命是為了引出一種超級數字生物,硅基生命。”
我有一些不同的觀點,我認為碳基生命更聰明,當然這個更聰明不一定是全部人,可能只是少數人,少數頂尖的工程師和科學家,他們是長在硅基生命之上的。所以硅基生命是否能超越碳基生命,要取決于真正能控制這些硅基生命的科學家和工程師,他能通過硅基生命學到什么。OpenAI 近期也發布了針對安全性、管理、規則、應用的一系列文件,雖然單個人類可能比不上 OpenAI的GPT大模型,但實際上這個東西還是人造出來的。那么不管是我們還是那些頂尖的科學家和工程師,還是要去學習它會有什么樣的能力,那么碳基生命的能力就始終可以建立在硅基的基礎之上。
當然,我第一次見到GPT的感覺其實是“This is God”,他無所不知。雖然他在一本正經地胡說八道,但是當時我真的覺得他無所不知。那也許我們碳基生命又生活在另外一個God的管控之下,猶未可知。這可能是一個哲學的問題,留給大家去探討思考。