美國《大西洋月刊》5月19日文章,原題:ChatGPT已經過時了 人工智能正在經歷一場無聲革命,這項技術不僅超越書面語言,融合多種媒體,更在朝著更崇高的目標努力,即更全面透徹地理解世界。ChatGPT才6個月大,就已經變得有些過時了。
這款程序及其“近親”,被稱為大型語言模型,通過統計學手段,預測、組成語句并予以表達。研究人員用更多文本訓練這些程序,前提是認為在不同配置下對機器進行強制語料投喂可以提升預測能力和程序的智能水平。這種文本最大化的AI開發方法一直是過去幾年來的主流。
然而,類似初代ChatGPT的純語言模型正在退場,取而代之的是可以處理圖像、音頻甚至感官數據的機器。這種新模式可能反映了人類對智能更人性化的理解,是模擬兒童通過觀察世界進行學習的初步嘗試。企業也可以借此開發能力更全面的AI,進而將其整合到更多產品中。除了GPT-4和Bard,許多程序也有各自開發的拓展功能。這些程序被稱為多模態模型——文本和圖像都是其中的模態——許多研究人員希望可以借其將AI提升到新高度。
理論上說,多模態方法可以解決純語言模型的核心難點——即使能流暢地串聯單詞,卻無法將其同概念、觀點、事物或活動聯系起來。學習更多類型的數據,能夠幫助AI模型對外部環境進行想象和交互,進行接近現實的輸出,甚至為了解決問題而捏造真相。如果模型了解世界,自行捏造事物的可能性就會減少。多模態模型的構建并非是新鮮事物,但近幾年來,AI研究的幾項關鍵成果使得跨領域方法愈發可行。
這種變化也有其現實原因,因為不論互聯網看起來多大,AI可以用于訓練的文本數量都是有限的,其程序的規模和靈敏度,以及可應用的計算能力,都要受到現實制約。相比于ChatGPT,多模態AI在理解世界和語言流暢層面的提升仍有待討論。許多程序都被證實存在一定程度的不足,但研究仍處于早期階段,未來幾年仍將不斷提升。
要想真正讓AI模擬人類的思維,我們還有很長的路要走。增加投喂的文本數據無法解決AI模型的偏差和虛假問題,拓展投喂數據的類型也不一定會解決此類問題。如果程序吸納了有偏差的文本和圖像,其輸出仍然是有害的,而且傳播形式會更廣。相比只能處理語言的模型,多模態AI對某些特定操作可能更加敏感,例如對圖像關鍵像素的篡改。除了智能層面,多模態AI也是很好的商業命題。