作者 | 劉燕
審校 | 蔡芳芳
本文是 “2022 InfoQ 年度技術盤點與展望” 系列文章之一,由 InfoQ 編輯部制作呈現,重點聚焦 AIGC 領域在 2022 年的重要進展、動態,希望能幫助你準確把握 2022 年 AIGC 領域的核心發展脈絡,在行業內始終保持足夠的技術敏銳度。
“InfoQ 年度技術盤點與展望”是 InfoQ 全年最重要的內容選題之一,將涵蓋 操作系統、數據庫、AI、大數據、云原生、架構、大前端、編程語言、開源安全、數字化 十大方向,后續將聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
特此感謝 百度 ERNIE-ViLG 團隊、黃民烈、李笛、林詠華、趙德麗對本文的貢獻,他們的真知灼見,是本文能與大家見面的關鍵。
2022,浪潮兇猛的 AIGC 元年。
風口上的 AIGC
今年的 AI 領域,可能沒什么比 AIGC 更熱了。
AIGC 的全稱是 Artificial Intelligence Generated Content,人工智能生成內容。不過,AIGC 目前還沒有一個規范、統一的定義。
根據中國信通院與京東探索研究院發布的《人工智能生成內容(AIGC)白皮書》中給出的定義,AIGC 既是從內容生產者視角進行分類的一類內容,又是一種內容生產方式,還是用于內容自動化生成的一類技術集合。
有預測數據顯示,到 2030 年,AIGC 的市場規模或將超過萬億人民幣。
2022 年,尤其是下半年,AIGC 概念突然升溫。有這么幾個標志性的事件把 AIGC 推到了風口浪尖之上,其一是文生圖模型 Stable Diffusion 的開源,其二是 ChatGPT 的爆火出圈。
AI 繪畫神器 Stable Diffusion橫空出世
有人將 Stable Diffusion 形容為 AI 界的“神筆馬良”,這可能并不夸張。
Stable Diffusion 是一個文本至圖像的模型,于今年 8 月 22 日公開發布,它能讓數十億人在幾秒鐘內創建出令人贊嘆的藝術品。用戶隨意輸入自己想要的文字描述,就能得到相應的圖像結果。
兩個月后,伴隨著 Stable Diffusion 的開源,它所具備的潛力瞬間得到了極大釋放。開源讓 Stable Diffusion 將無過濾圖像生成的門檻下放到歷史最低,任何具備一點點技術知識的電腦用戶都能輕松上手,可以說是一項老少咸宜的 AI 圖像生成工具。
盡管此前,藝術創作 AI 已經歷了一段時間的發展,但 Stable Diffusion 的出現才真正讓這項技術得到了騰飛式的發展。因為它可以免費使用、上手快捷,大大減少了用戶生成內容的障礙。
Stable Diffusion 掀起了文生圖模型的熱潮。今年 10 月,百度發布了首個知識增強的 AI 作畫大模型 ERNIE-ViLG 2.0;11 月初,阿里達摩院在魔搭社區 ModelScope 上開放了通義文生圖大模型;11 月底,智源研究院大模型研究團隊開源最新雙語 AltDiffusion 模型,中文世界有了專業級 AI 文圖創作工具,其在視效上媲美 Stable Diffusion。
ChatGPT 火爆出圈
最近幾周,OpenAI 最新的聊天機器人 ChatGPT 火出天際,成為現象級應用。
問答、寫小說、寫代碼、寫論文、寫區塊鏈智能合約....ChatGPT 的應用也頻頻出圈。ChatGPT 就像是一個無所不知的虛擬體,它能回答各種問題,而且總能給到讓人滿意,甚至超過預期的答案,因此引起了極高的關注度。
ChatGPT 展示出的強大的能力和無限可能,讓人們看到,通過 ChatGPT 這樣的技術方案解決很多任務的潛力。大家感到驚奇的是,在一個模型里面就可以完成各種任務,而且是很難的任務。在過去一些看似比較困難的任務(比如問倫理道德方面),ChatGPT 也能解決得很好。
清華大學教授黃民烈認為,ChatGPT 的技術創新性主要在于兩個方面:
強大的底座模型:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶、數據和模型之間的飛輪。顯然,開源模型的能力已遠遠落后平臺公司所提供的 API 能力,因為開源模型沒有持續的用戶數據對模型進行改進。
利用強化學習從人類反饋中學習:在真實調用數據上的精調模型,確保數據的質量和多樣性,從人類反饋中學習。從“兩兩比較的數據”中學習,對強化學習而言意義很大。如果對單個生成結果進行打分,標注者主觀性帶來的偏差很大,無法給出精確的獎勵值。在強化學習里,獎勵值差一點,最后訓練的策略就差很遠。而對于多個結果進行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務的評價上也被廣泛采用。
黃民烈認為,ChatGPT 出現對 AI 界來說,有著十分重要的意義:“它宣示著無縫人機交互時代的來臨。過去我們講 conversation as a service (caas)還停留在紙面,但實際上今天,無論是開放域聊天,還是通用任務助理(ChatGPT)都在強烈地表明這一點”。
從信息檢索的角度看,ChatGPT 也取得了很大突破。達摩院基礎視覺負責人趙德麗在接受 InfoQ 采訪時表示,以前谷歌等搜索引擎做搜索和檢索,只是找已經存在的信息,ChatGPT 的應用,實現了從信息的搜索到信息的創造這樣一個范式的轉變,從算法能力上看,它取得了一個質的飛躍。短期來看,ChatGPT 有望成為或者輔助像谷歌這種傳統信息檢索的強有力的工具;長期來看,它有望發展成為 AI 系統級的服務。
但至于它最終會不會取代搜索引擎。黃民烈認為,ChatGPT 取代谷歌搜索還比較遙遠,原因主要有,受限于訓練數據,ChatGPT 的信息實效性較弱,缺乏很多新的信息;在信息的可信度上,搜索引擎只“搬”東西,不創造內容。ChatGPT 雖然會創造內容,但創造的東西多大程度上“有用、可信、無害”,還沒有統一的定論;再就是成本問題,現在大模型的生成成本還是太高了,需要持續下降。
現階段的 ChatGPT 并不完美。通俗地說,它還存在“一本正經地胡說八道”的問題,這本質上是對信息可信性的度量和評估。解決這一問題,技術上需要有信息驗證的手段;從應用上來說,需要深入結合應用的場景和特點,針對性優化和解決。
但整體而言,ChatGPT 還是讓人非常驚喜。黃民烈非??春?ChatGPT 接下來的發展方向。他認為這是一個正確的方向,現在還比較粗糙,但假以時日,一定會催生很多應用。
趙德麗同樣對 ChatGPT 抱有大期待。雖然還有各種瑕疵,但 ChatGPT 短時間內出現了各式各樣的不同方向上解決問題的能力,展現了 AI 算法的巨大潛力。從技術發展和解決方案的角度看,它將來可能會成長為一個超級 App,就像是一個無所不知的虛擬體。“ChatGPT 這種應用的出現,從長遠來看的影響力,其實不亞于阿爾法狗曾經在人工智能界帶來的影響力,它將會是一個影響非常深遠的技術和應用”。
AIGC 為什么突然火了?
AIGC 并不是一個新概念。AIGC,通常還有另一種叫法 — AI Creation(人工智能創造),大致從 2016 年—2017 年開始,其應用不斷增加,尤其是在自然語言領域,廣泛應用在生成文本、作詩句、寫對聯等方向,近幾年,逐漸延伸到作畫、作曲等領域。
憑何而火?
今年,AIGC 突然在全球躥紅,成為人人口中的流行詞。究其原因,主要由多項技術上的關鍵突破推動,總結來說:
一,算法上:從今年 4 月開始,在文生圖視覺方向上,視覺效果生成的效果取得了突破性的進展,文生圖的質量得到了很大改善。OpenAI 的文本生成圖像模型 DALL·E 2 算法發布后,在算法效果上取得了和以往相比實質性的突破,成為一個現象級的算法,其在文本生成圖像生成的效果、真實度表現上,讓大家看到了大規模商用的前景。AI 作畫任務十分直觀,給人的視覺沖擊強烈,使得 AIGC 逐漸破圈,快速傳播。
二,預訓練大模型是 AIGC 的底座,沒有大模型學到的豐富知識,就無法實現如此豐富的 AI 內容生成能力。AIGC 最重要的是一種融會貫通的能力,要做領域的泛化,需要學習海量的數據,大模型的規模直接決定了 AIGC 創作力的廣度。多模態大模型的應用,使得 AIGC 的質量得到了較為明顯的進步。
三,擴散模型的發展。擴散生成的算法取得了突破,這個算法能夠對圖像做像素級別的建模,學習效率更高。Stable Diffusion 是文本生成圖像模型完全開源的第一個算法,它跑起來的效率相當高,其開源也帶動了相關生態快速的發展,讓人們看到,基于這種生成式基礎模型,能夠帶來無限的創造和想象空間。特別是在一些國外社區里,基于 Stable Diffusion 做的各種創新式的應用發展快速,展現了商業化潛力。
四,算力降低。深度學習計算能力的快速發展。在大算力的基礎上,AI 作畫能夠實現在海量數據上進行大參數模型的訓練。相比之前的 AIGC 算法,算力上有了很大降低。要訓練一個基礎的預訓練模型,需要很多算力。一些專注于基礎的大模型的機構,將模型訓練好后,可以供很多小企業使用,只需用消費級的網卡就可以做微調,也可以直接基于 API 調用。預訓練大模型加上微調可以很好地進行文生圖生成風格的改變,派生出了大量的二次開發者,屢屢破圈。
從 GAN 到 Diffusion
GAN,是生成式 AI 的核心技術之一。2014 年以來,以生成式對抗網絡 (Generative Adversarial.NETwork,GAN) 為代表的深度學習算法的提出和迭代更新,讓 AIGC 進入了快速發展階段,帶動了 AIGC 的一波熱潮。
趙德麗表示,在 Stable Diffusion 這種擴散算法出現之前,從生成的效果上看,在計算機領域,GAN 是效果最好的。發展到現階段,GAN 生成的人臉圖像已經到了真假難辨的程度。以 StyleGAN 為例,其生成的圖片可以做到栩栩如生,光線和紋理都清晰可見,非專業人士幾乎無法分辨出是由 AI 生成的虛假圖。即便是現在的 Diffusion model 目前也做不到現在 GAN 在人臉生成上的結果。
但 GAN 有一個最大的缺點,它對于多類別、語義非常復雜的、一般場景下的圖片生成的建模能力較弱。如果只是人臉,只是貓或者只是狗這類場景的數據,GAN 的效果很好。但它在某種復雜數據的規模能力方面,在性能上受限較大,如果把狗、貓、花朵、桌子、椅子、電話等不同種類的數據放在一起,目前的情況下,GAN 得不到一個較好的結果。
而 Diffusion model 在這方面取得了突破性的進展。Diffusion model 解決了 GAN 不能解決的問題,因此大家立刻意識到了它的巨大潛力。今年是 Diffusion model 取得快速發展的第一年。而且,它的發展速度超過當年的 GAN,當年的 GAN 已經足夠火熱了,但可以感受到, Diffusion model 現在的受關注程度超過當年的 GAN 。
Diffusion 擴散化模型帶動新一波 AIGC 的熱潮
今年這波 AIGC 的熱潮,被認為是由生成擴散模型帶動起來的。例如,OpenAI 發布了文本生成圖像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初創公司 Stability.AI 發布了 Stable Diffusion...
百度 ERNIE-ViLG 團隊向 InfoQ 介紹,擴散模型是受非平衡熱力學的啟發的一系列概率生成模型,通過逐漸增加噪聲的方式對原始數據進行擾動,通過學習反向的恢復原始數據去噪過程得到用于生成數據的模型,典型的擴散模型如 DDPM 等。而擴散模型在生成過程中加入文本條件產生了諸如 DALLE2、Imagen、ERNIE-ViLG 2.0 等基于擴散的文本生成圖像模型。傳統生成對抗網絡 GAN 存在訓練不穩定和生成結果多樣性差等缺點,而擴散模型顯著提升了圖像生成的效果和多樣性,受到業界廣泛關注。
生成擴散模型在多模態生成領域展現出很好的可擴展性。在訓練數據時,把不同模態的訓練數據混到一起,把文本、靜態圖片、視頻、聲音等各種各樣不同類型的訓練數據在一個語義空間里關聯在一起。但因為訓練數據規模大,大模型的參數特別多,用這種方式,它仍然只能得到一張分辨率很低的圖片。然后不停地通過擴散模型算法,把很小的分辨率和圖片不停地做超分辨率,不停地把一張很模糊的圖片變得尺寸更大、更清晰,在這個過程里還會補上很多細節,最后得到一張相對較清晰的圖。
現在很多人應用 Diffusion model 來生成視頻,生成音樂,目前為止它最為可行的還是生成靜態的視覺畫面。
AIGC 相關技術逐步發展成熟
AIGC 包括多種內容形式,按照黃民烈的分類方法,分為感知智能和認知智能。
感知類:文生圖、語音生成、音樂生成等
認知類:續寫、改錯、小說故事創作、對話生成等
從技術上看,寫作相關和圖像生成這兩個方向表現比較成熟,對話最難。
其中在文本生成方面,例如在金融文本摘要生成領域,其技術早已成熟到可以落地的程度。ChatGPT 在內容的創作能力、問答流暢度上表現不錯,但要深究其真實性、正確性和時效性,還存在不少問題。如何保證內容的真實性、正確性和時效性,是現在 AIGC 尤其是文字類的生成需要重點考慮的問題。
圖像生成方面,AI 繪畫格外火熱。百度 ERNIE-ViLG 團隊認為,今年以來,AI 作畫發展迅速,很大程度來自于技術的突破,使得效果有了質的飛躍,甚至有些 AI 圖像作品十分驚艷。
不過,雖然 AI 繪畫已經進入實用階段,但依然有很大的優化空間。在技術角度,需要提高的主要是兩個方面,包括生成的可控性和細節描述能力。
AI 繪畫的可控性有待提升,對于數量、邏輯、關系、多圖關聯等問題暫無有效的解決方案。比如說要求生成 2 個蘋果,左邊是紅色,右邊是綠色。雖然這里邊的關系并不復雜,但模型很多時候,并不能穩定地生成正確的結果。
細節描述能力有待提升,對于更加復雜的、有規律性的細節的描述能力有待提升。比如對于一棟居民樓的圖片,窗戶應該是有多種不同描繪,有開的、有關的、有晾衣服的,同時很多窗戶應該對齊且規格統一。
小冰公司 CEO 李笛認為,整體來看,AI 作畫在生成質量上有了大幅提高,但仍然需要解決一些單點的問題,例如模型本身的迭代,一個人類設計師在和雇主的工作過程中,可以根據雇主的喜好,對設計初稿的某一局部做精細調整。但 AI 無法做到這一點,AI 畫作一旦生成,如果想讓它修改,往往是用重畫的方式來進行。而現有的技術 — 多模態大模型,注定有這類問題。它只能在一定程度上,提高作品與需求的相關性,但無法從根本上提高良品率。
AI 生成視頻,是 AI 生成圖像的一種延伸。從技術本質上看,視頻可以認為是多張“圖片”,即視頻幀構成的序列,且序列上各幀之間有畫面、邏輯等層面的關聯。因此,從生成質量上來說,AI 生成視頻相對更難。
當前文生圖技術可以通過簡單的技術組合,例如分步驟擴散生成等方式,將生成圖像擴展到生成視頻,但效果還不能令人滿意。此外,受限于數據規模和質量,AI 生成視頻的生成效果和現在的文本生成圖像的效果相比,有較大差距。
不過,相對圖像,視頻內容具有其獨特屬性。例如,在互聯網視頻內容消費場景中,經常會以“隨便截一張圖都是壁紙”作為對視頻質量的極高贊譽。由此可見,相對于圖片,視頻對單個幀的質量要求相對較低,更強調傳遞信息等功能。因此,AI 生成視頻可以采用其他技術方案完成,在降低技術難度的同時,更符合特定應用場景的要求,例如基于圖文輸入生成視頻、基于數據生成視頻等。
總結來說,AI 按照生成圖像的方式生成視頻,仍處于前沿探索階段。
商業想象力幾何?
趙德麗認為,現階段,AIGC 的生成效果已經非常驚艷了,它已經達到了廣泛應用的基礎性能,雖然在使用上還有較大門檻,但通過大模型的開源開放等,有助于將門檻降下來。
商業模式在探索中
而且可喜的是,現在,AIGC 已經有不少可行的商業模式發生了。
例如在設計、藝術創作、電商、娛樂、金融等領域。具體在文本生成上,在一些商業非嚴肅性文書的輔助編寫上已產生了不錯的模式;在文生圖方向,已經看到,面向設計師,面向教育行業的 AI 輔助畫作生成等正在探索商業用途的路上。
最近幾年,“數字人 +AIGC”成為不少企業的探索方向。小冰從幾年前就開始探索 AIGC。李笛表示,AIGC 對于 AI Being 來說的作用在于,在和人交互的過程中,它不光要能從數字世界中獲取知識內容和服務提供給人,它自己也應該相應地隨機應變地去創造相應的內容提供給人。
在互聯網應用之外,AIGC 在實體經濟領域,也蘊含著不少機會。
實體經濟對內容生產的需求很大。“我們以前認為實體經濟的瓶頸在于生產、產能,其實不是,實體經濟的很多瓶頸在于設計,在于內容。” 李笛說。以小冰為例,小冰的 AIGC 內容很早就應用在紡織設計領域。小冰與中國紡織信息中心、國家紡織產品開發中心推出的 AI 圖案設計平臺,可按需定制 100% 原創的圖案紋樣,目前已有超過 400 家企業注冊,并在生產中使用。
北京智源人工智能研究院總工程師林詠華向 InfoQ 談到,工業生產、制造、倉儲、物流等實體行業,近幾年一直在探索如何用計算機視覺來進行智能化升級,但實際落地并不容易。原因在于,現有的模型質量還未能滿足產業落地的質量要求。其中一個重要原因是,訓練模型時所用的訓練數據十分局限。因此,可以考慮通過 AIGC 的方式來產生這些場景里的訓練數據。例如在倉儲、物流或更多的工業場景,用 AI 來輔助產生一些少見的場景數據,作為訓練數據的補充,提升整個模型的質量。但這需要更精準的圖片生成的控制能力,比較起現有的 AIGC 模型能力,其可控性需要大大提升。
AIGC 在自動駕駛場景下也有著不錯的應用潛力。現在自動駕駛場景存在訓練數據不足的問題,例如針對惡劣天氣、事故等突發狀況,視覺模型在真實場景中很難捕捉,也難以進行模擬,因此,目前業內在嘗試用數字孿生和仿真的方式來模擬。也可以嘗試用大模型的方式,通過給出描述,生成相應的精確場景,緩解某些場景下自動駕駛數據難獲得的問題。
“整體來看,AIGC 現在已經開始在探索向實體經濟的應用發展,但目前還在一個比較早期的階段” 林詠華判斷。
向 B 端收費還是 C 端?
然而,AIGC 的商業化落地,不得不面臨的一個尷尬的問題是 —— 如何避免走向 “廉價”。
AI 具有高并發性,注定了它的“廉價”。李笛認為,如果只對 AI 畫作收費,它很可能會進入到廉價的成本經銷模式。因為,人是有創造力的,從人類設計師那得到的畫作,人可能愿意愿意付一百塊,從 AI 那得到的畫作,且不論質量,人可能連一塊都不愿意付,因為覺得它是廉價的。AI 畫的畫可能很有價值,但人們認為它不值錢。因此如果賣的是內容,無論是賣給 B 端還是賣給 C 端它都不值錢。而如果賣調用服務給 C 端,也很難持續。API 調用的模式是一種比較粗放的從技術源頭開始的商業化包裝方式。
內容產業有一個重要特點是,它是高附加值且有區分度的,不同內容的創作者定價不同,不完全取決于本身的作品質量。但用 AI 創作不同的繪畫,定價是相同的,這樣容易把一個高附加值的市場“打”成一個低附加值的市場。
對于 AIGC 可行的賺錢路徑,李笛認為,如果 to C ,是走內容平臺模式,打造一個內容平臺,通過廣告收費。如果 to B,是用 AI Being 和企業之間進行協同。一個 AI Being 創作者,能一定程度對標人類創作者,他有“唯一性”。通過與雇主的長期磨合,雙方的審美、風格會越來越趨同。對雇主來說,他的作品質量會越來越穩定。“某種意義上講,我們認為靠 AIGC 本身賺不到錢。我們不是在做‘畫筆’,而是在做一個‘手拿畫筆的人’,我們不是在做能畫畫的 AI,而是在做能畫畫的 AI Being。我們側重把創作的能力,把生成的能力賦予 AI Being,讓 AI Being 本身具有價值”。
爆發前夜
“AIGC 技術走到了一個轉折點,到了一個新階段的起點”。趙德麗認為,此前,雖然 AIGC 技術在不斷發展,但生成效果并沒有得到廣泛認可,還沒達到大規模商業化的條件。但現在,不一樣了。
今年,AIGC 生成的效果,包括基于 AIGC 技術推出來的應用,大家看到,這項目技術已經具備了大規模應用和商業化的潛力和性能,具備了從只能在窄領域到更普遍場景下應用的可能性。AIGC 技術到了大規模商業化應用的轉折點。今年是一個起點,但還遠遠沒有到成熟的程度。
AIGC 具體在哪些領域能用好,發揮出商業化的價值,還需要不斷打磨產品和技術。例如對于文本生成圖,現在對 problem 的提示語要求很高,現在算法還做不到隨便給個描述,就能生成栩栩如生的圖片。什么樣的 problem 合適,如何設計出合適的 problem 等,都有一定門檻。
此外,像 ChatGPT 雖然展示了強大的能力,但在很多場景下還是有瑕疵,出現問題和答案不匹配的情況還非常多。如果對其進行商業化應用,需要再針對具體的場景,不斷打磨和優化。盡管它達到了大規模應用的基礎,但并不是非常成熟,還達不到讓大家自由應用的程度。
現階段,AIGC 已經有了一些稱得上規模的應用,但在實際應用中,還存在一些問題。例如因為人設計的作品相對較貴,但人工智能的設計作品相對便宜,所以會有人利用這個漏洞,將人工智能系統里的大量作品改頭換面,將它搬遷到或囤積到那些原本是人類設計者的定價體系的平臺上去傾銷,最終會造成人類創作作品的銷量市場受到損害。AIGC 應該避免形成這樣的規?;?/p>
熱度、爭議與未來
1、如何提高良品率
當前,AI 寫作、AI 作畫等 AIGC 內容在質量上還存在良莠不齊的問題,提高良品率尤為重要。
不過在大模型的生產模式下,提高良品率的方法并不多,某種意義上來講,良品率目前主要依靠翻動過程,它能夠在一定程度上降低瑕疵,但想要消除,不太可能,它不太可能是基于對大模型的修改而得到。接下來期待一個新的稱之為臺階式的技術理念出來。
提高數據的質量是基礎方法之一。林詠華表示,AIGC 是針對訓練數據的融會貫通和變換,所以數據的廣泛性,數據的分布和數據的質量都很重要。在 AI 領域的研究人員越來越意識到,尤其在需要大量數據訓練模型的大模型領域,數據起到的作用可能會比算法還大。如果希望生成的畫作精良,那需要訓練的圖片的質量是精美的,但如果給的是小孩的畫,那生成的畫作可能還粗略停留在小孩階段。
此外就是從算法側改進算法,但改進算法本身如果針對通用場景,它可能在某些場景總是出現瑕疵或者出現瑕疵的概率比較高。很多團隊在開發 AIGC 應用時,目標不是通用場景,比如針對的是生成二次元圖像的產品,那需要對算法或模型進行二次開發。在這種情況下,完全有可能在二次開發的基礎上把瑕疵去掉,提高良品率。一般通過二次開發,且在一些具體場景下的數據做模型二次微調,可以大大提高 AIGC 的良品率。
2、“人工智能宣布放棄版權”
AI 作畫的一個很大的爭議點在于版權。例如,DALL-E 和 Stable Diffusion 等圖形生成類 AI 工具就被質疑在互聯網上隨意抓取數據,且完全沒有考慮過任何許可或所有權限制。正是由于這種版權歸屬爭議的存在,Shutterstock 和 Getty Images 等公司禁止在其平臺上使用 AI 生成圖像。
談到版權問題,李笛表示,小冰很早就提出,“人工智能宣布放棄版權”。
通常來說,版權界定需要幾步:第一判定是不是侵權。人類作品判定侵權有明確的界定要求,比如一個作品多少比重的內容一致,就可以判定侵權。人工智能作為系統,它天生就有判定機制,當它輸出作品的過程中,它自動就可以像知網一樣進行查重。它生成的原始圖像里,很可能存在著很多圖像跟現有的作品,存在相似性,如果相似性較高,侵權了,只要不把作品輸出就行。如果讓人工智能確保它給到用戶的每一個作品都是不侵權的,這件事很容易做。
第二步要有判定訓練的過程,是基于什么樣的訓練數據訓練的。但要注意的是,無論是人類作品還是 AI 生成作品,侵權的責任認定在于,這張作品是不是跟另一個作品產生了相似性,而并非在學習作畫的過程中學習了別人的作品及作品思想等。如果這樣,無論是人還是 AI 只要在畫畫,便會判定為侵權。從這個角度看,人工智能本身在訓練過程不存在版權責任,尤其是大模型,因為人工智能在訓練的時候,它使用的是公開的數據來進行訓練。
另一個放棄版權的原因在于,人工智能保留知識產權沒有意義。人工智能保留知識產權的一個先決條件是必須要經過確權的步驟。目前全球對于知識產權的確權方法主要是通過著作權登記,每登記一個作品,需要一筆著作權登記費用。而 AI 生成的內容規模十分龐大,這一規則對 AIGC 來說顯然不現實。
3、無法辨別真偽信息的世界
很多人擔憂,隨著 AIGC 的不斷普及,未來大家將生活在一個無法辨別真偽信息的世界里。
AIGC 生成的內容越來越多,信息的真假會成為很大的負擔。但這恐怕已經是無法避免的趨勢,因為現在 AI 生成的圖片早已經是海量規模,而且,這些 AI 生成的數據將會越來越多的出現在公共的資訊平臺上,這樣的時代正在快速到來。
對于用戶來說,未來將面臨判定真偽信息的挑戰。目前還少有比較好的解決這一問題的方法。趙德麗提出了一種標記的方法。從算法角度來說,可以做一些隱性標記,標記出哪些圖片是生成的,哪些是真實的圖片。
完全的 AIGC 可能不會出現
不可否認的是,AIGC 對內容創作的確產生了重大影響。一種觀點認為,內容生成的四個階段依次為“PGC、UGC、AI 輔助生成和完全的 AIGC”。按照這一走向,未來,AI 的終級趨向會是取代人,最后內容產業將走向完全的 AIGC。
李笛對此持有相反的觀點,他認為,AI 的終極應該是與人協同,應該先實現“規?;?AIGC”再到達“AI 輔助生成”階段,當 AIGC 集大成以后,再輔助人類生成內容。
此外,完全的 AIGC 可能不會實現。比如人看某個電影,是因為情節、演員、導演等多種因素。人類對作品的喜好,從來不僅僅是因為內容質量,即便未來完全的 AIGC 化了,可能也并不是人類想要的東西。李笛發出思考:“所以不存在 AIGC 顛覆人的可能性,顛覆的是人,實際上是驅逐了人”。
趙德麗表示,AIGC 本身是基于生成模型產生的能力,生成模型訓練需要數據,這些數據都是人類活動產生,生成的提示詞需要人來輸入,人需要做場景的設計、提示詞的設計、元素的設計等等。只不過在一些具體的場景上,對于一些固定的設計模式,比如設計成具體的圖形如紅包界面、商品素材等,可以實現完全的 AIGC 的方式。但整體而言,人還是 AIGC 中重要的因素。
再回到那個 AI 能不能讓藝術家丟掉飯碗的老生常談的話題 ——“讓 AI 負責生成,讓藝術家或設計師來負責審美,這兩個并不矛盾,是一個相輔相成的關系。也不存在誰取代誰,有了 AI 繪畫的輔助,藝術家會發揮出更大的能力,甚至說一些不是非常專業的藝術家,一些平民老百姓,借助 AIGC,也有可能創造出非常驚艷的藝術品” 李笛表示。
采訪嘉賓:(按拼音首字母排序)
百度 ERNIE-ViLG 團隊
黃民烈,清華大學計算機科學與技術系長聘副教授、博導,聆心智能創始人。
李笛,小冰公司 CEO
林詠華,北京智源人工智能研究院總工程師
趙德麗,阿里達摩院基礎視覺負責人