一篇文章帶你讀懂生成式人工智能
Éric Moulines
巴黎綜合理工大學統計機器學習教授
Hatim Bourfoune
法國國家科學研究中心(CNRS)密集型科學計算開發與資源研究所(IDRIS)人工智能研究工程師
Pierre Co.NETte
法國國家科學研究中心(CNRS)密集型科學計算開發與資源研究所(IDRIS)人工智能支持工程師
人工智能的發展日新月異,生成型AI是其中的一種,它能夠根據輸入的指示,創造出各種文字、圖像或聲音的內容。這種技術有什么原理?它有哪些應用和局限?它又會帶來哪些挑戰和風險?本文將為您介紹生成型AI的基本概念、最新進展和未來趨勢,讓您了解這個正在改變我們社會的創新領域。
- 生成式AI,指能夠學習數據庫中的信息,并以此為基礎,根據用戶輸入的提示生成文字、圖像或音頻的人工智能。
- 生成式AI仍處于蹣跚學步的階段,有許多需要改進的地方,比如答案不夠可靠或帶有偏見。
- ChatGPT、Bloom都屬于生成式AI的應用模型。潛在的應用還有千千萬萬待探索。
- 任何技術有利必有弊。生成式AI耗能極高,而且存在被濫用的風險。
ChatGPT已經成為了當今社會的熱議話題,新一輪AI技術革命已初露端倪。生成式AI有看似無窮的潛在應用場景,也毫不意外地引發了無休止的爭論。不過,大眾對于生成式AI 原理的理解似乎還有待加深。
生成式AI,指能夠學習數據庫中的信息,并以此為基礎,根據用戶輸入的提示生成文字、圖像或音頻的人工智能。巴黎綜合理工大學的統計機器學習教授Eric Moulines解釋說:“AI在學習的過程中,會從數據中概括規律,并基于此生成具有原創性的內容。”
目前兩種主流的人工智能模型分別是GPT(生成式預訓練轉換器)和擴散模型。法國國家科學研究中心(CNRS)密集型科學計算開發與資源研究所(IDRIS)的人工智能研究工程師Hatim Bourfone補充說:“人工智能會通過一種‘注意力機制’理解輸入文本的上下文含義。其輸出的內容由其之前在訓練階段學習的詞匯構成,AI會根據每個詞出現的概率,判斷接下來該使用哪個詞”。用不同的數據庫訓練算法,便能得到適用于不同情景的AI。
Bourfoune的團隊參與開發了一款名為Bloom的AI,這是一款供研究人員使用的學術論文翻譯器。IDRIS 研究員Pierre Cornette 說“Bloom模式的主要任務就是學習多門外語。我們給它輸入了大量的文本,然后讓它根據前文內容去判斷下文該出現哪個詞。如果出錯了,我們會糾正。”
01
蹣跚學步的新技術
Moulines解釋道:“第一代生成式AI模型的歷史還不到十年。生成式AI技術的首次突破發生于2017年:轉換器技術問世,完善了注意力機制。到2021年,商用生成式AI就上市了,速度之快令人乍舌,比其他深度學習模型都要快得多。”盡管如此,我們必須認識到ChatGPT等AI仍處于蹣跚學步的階段,有許多需要改進的地方。
Moulines承認,GPT給出的答案的可信度不夠高,仍然是個問題:“ChatGPT不知道什么是‘可信度’,不懂得評估自己給出的答案的準確性。”這就是為什么有時候ChatGPT會“一本正經地胡說八道”。“由于ChatGPT純粹根據概率推理來生成單詞序列,所以會生成看似可信,實則虛假的內容。”
除了會“瞎編”,生成式AI還有一些其他的缺陷需要引起我們的注意。AI在深度學習過程中,會大量吸收現有文本,也會內化其中的偏見。Moulines說:“如果你問ChatGPT地緣政治問題,得到的答案都是西方國家的立場。這樣的答案中國用戶肯定不會認同!”
02
無窮無盡的潛在應用
生成式AI的魅力在于,通過使用多樣化的學習數據庫,能夠開發出無窮無盡、功能各異的模型。Cornette 說:“生成式AI就如同一臺高功率的發動機,可以搭載在拖拉機上,讓其發揮最大牽引力,也能安裝在賽車中,讓其飛馳而過。”若把ChatGPT比作一輛賽車,GPT-4就是它的發動機。“發動機是核心技術。開車的人不須要知道發動機的原理,也能在賽場上風馳電掣。”
Bloom也能反映生成式AI模型的廣泛應用潛力。Bourfoune說:“一年前,Bloom是唯一一個對學界完全開放的模型。”任何人都可以下載Bloom并用于自己的研究。經過多語種科學論文數據庫的訓練,Bloom現在能幫學者輕松理解外語論文。Cornette補充道:“Bloom的開發團隊還發起了一個叫Bigcode的項目,用于計算機代碼自動生成。只要簡單地描述代碼的功能,Bigcode就可以用用戶指定的編程語言寫出具體的代碼。”
ChatGPT現在大受歡迎,表明一般用戶已經意識到它的實用價值。為了與谷歌競爭,必應已經將GPT的聊天功能整合到其搜索引擎中,這種做法一定程度上能克服生成式AI“胡說八道”的缺點:必應聊天給出的答案中會標注信息來源,便于用戶理解并驗證內容的可靠性。最近,Adobe將生成式AI模型集成到Photoshop、Illustrator等軟件中,展示了另一種新穎應用。
03
激動人心的未來
從當前的應用來看,生成式AI必將迎來令人振奮的未來,然而也有人擔心這一技術可能被濫用。Bourfoune承認:“任何技術有利必有弊。這就為什么OpenAI設置了多重安全屏障。” OpenAI的內容政策也帶著這些安全因素的考量,因此在涉及ChatGPT運作的許多問題上,OpenAI都選擇保持沉默。
對于仍處于起步階段的生成式AI技術,Moulines表示:“我們在研究中清楚地知道技術還在起跑線上。生成式AI已經能實際使用,這一點我們都覺得驚訝。”不過,技術仍有許多法律監管等各方面的空白有待填補。由于生成式AI以現有內容數據庫為基礎生成內容,可能會“剽竊”他人的作品,而不提及原作者的姓名。“以既有內容創作新作品,必須聲明原作來源。AI的行為涉嫌侵權。”
盡管生成式AI有各種局限性,但潛力依舊巨大。Moulines 說:“想到未來這一領域可能發生的突破,我心情十分激動。生成式AI的發展勢不可擋,衍生應用將如雨后春筍般出現。現在大家都在爭相開發新技術,進展很快。” Bloom就屬于一種衍生應用,既能促進科學家之間的跨語種交流,又能將論文翻譯成稀有小語種,促進科研結果的傳播,還有望用于保存瀕臨滅亡的語言。
不過,在激動之余,不能忽視生成式AI的碳足跡。Moulines解釋:“這些模型須要存儲大量數據,故需要大量內存。根據我們的估算,OpenAI消耗的能量相當于比利時整個國家電網的耗能。”未來,能耗可能會是生成式AI發展道路上最大的阻礙。
作者
Pablo Andres
編輯
Meister Xia