記者/李京亞 姜菁玲
編輯/宋佳楠
在美劇《硅谷》中,曾有這樣一幕有趣的劇情:程序員Gilfoyle用AI聊天軟件“安東之子”捉弄他的好友Dinesh。該軟件能模擬獨屬于Gilfoyle的悶騷幽默,讓Dinesh誤以為是在與Gilfoyle本人聊天。發(fā)現(xiàn)真相后,同為程序員的Dinesh也做了一個AI機器人用來報復(fù)Gilfoyle。結(jié)果,兩個AI機器人熱聊了起來,還把網(wǎng)絡(luò)給聊崩了……
這樣的場景已經(jīng)走入現(xiàn)實。美國人工智能實驗室OpenAI推出的語言模型系統(tǒng)GPT-3就曾構(gòu)建出兩個人工智能之間的對話,談?wù)撊绾纬蔀槿祟悾羁纯痛蠛艏贡嘲l(fā)涼。
但OpenAI并未止步于此,而是將GPT-3進化為最近風(fēng)靡全網(wǎng)的ChatGPT,后者不僅在大量網(wǎng)友的“瘋狂”測試中表現(xiàn)出各種驚人的能力,如流暢對答、寫代碼、寫劇本、辯證分析問題、糾錯等等,甚至讓記者編輯、程序員等從業(yè)者都感受到了威脅,更不乏其將取代谷歌搜索引擎之說。
作為OpenAI的幕后老板,尚在主導(dǎo)推特變革的馬斯克也公開表達了對ChatGPT的力挺,認(rèn)為“我們離強大到危險的AI不遠了。”
全球用戶爭相曬出自己極具創(chuàng)意的與ChatGPT交流的成果。一位網(wǎng)友要求ChatGPT用《坎特伯雷故事集》風(fēng)格改寫90年代熱門歌曲《Baby Got Back》;有網(wǎng)友曬出ChatGPT參加美國高考SAT考試之后的得分:1020(總分1600分);亦有網(wǎng)友收獲了ChatGPT用《老友記》幾大主角口吻創(chuàng)作的劇本對白。

據(jù)OpenAI的CEO,硅谷著名投資人山姆·奧特曼(Sam Altman)透露,自11月30日至12月5日,ChatGPT的用戶數(shù)量已突破100萬。由于太過火爆,OpenAI不得不暫時關(guān)閉了用戶的測試入駐窗口。
可以說,繼AlphaGo擊敗李世石、AI繪畫大火之后,ChatGPT開啟了人工智能對人類社會產(chǎn)生深遠影響的又一扇窗。不禁讓人好奇,它究竟是怎么做到的?
為何是ChatGPT?
如果用一句話來說明ChatGPT是什么,可以將它理解為由AI驅(qū)動的聊天機器人。
外界往往認(rèn)為語言學(xué)領(lǐng)域是人工智能派上用場的絕佳地帶,而事實并非如此。截至目前,人工智能還沒有找到征服語言領(lǐng)域的暗門,即使是谷歌、蘋果這樣的頂級科技公司,都面臨著相關(guān)AI研究成果派不上用場的苦惱。
尚處在免費試用階段的ChatGPT,關(guān)注度短短幾天擴大到燎原之勢,正是因為人們從中看到了人工智能和語言本體之間的真正接口。
那么,ChatGPT采取了什么方式達到了如此驚艷的效果呢?為何蘋果的Siri至今無法生成一篇學(xué)術(shù)論文,亞馬遜的Alexa無法吟出一首莎士比亞十四行詩呢?
過去十年間,谷歌、 Facebook、亞馬遜、蘋果和微軟等硅谷科技巨頭紛紛開啟AI軍備競賽,先后成立專門的AI實驗室,而最終業(yè)界公認(rèn)的做純AI研究的頂級實驗室只有三家:背靠谷歌的DeepMind、背靠微軟的OpenAI和背靠Facebook的FAIR。其中,被谷歌收購的DeepMind因擁有AlphaGo最為家喻戶曉。
OpenAI在2015年底創(chuàng)立于舊金山,其聯(lián)合創(chuàng)始人是馬斯克以及硅谷知名孵化器Y Combinator的前掌門人奧特曼。不過,近年馬斯克多以O(shè)penAI的出資人角色出現(xiàn),奧特曼才是這家公司的主導(dǎo)者和現(xiàn)任CEO。
不到五年時間,OpenAI就依靠GPT3躍升為全球AI領(lǐng)域頂級公司,與DeepMind并稱AI圈的“雙子星”。事實上,Meta的Fair實驗室也一直在自然語言處理和對話型AI領(lǐng)域深耕,但其成果以發(fā)表論文為主,顯得較為低調(diào)。今年6月,大舉向元宇宙轉(zhuǎn)型的Meta決定AI部門不再“集中化研究”,而是分布式下放,以便與實際業(yè)務(wù)結(jié)合,導(dǎo)致Fair的前途并不明朗。
OpenAI足以與AlphaGo一戰(zhàn)的“武器”正是GPT3,這個2020年推出的巨型語言處理模型怪獸,可以完成諸如答題、寫論文、文本摘要、語言翻譯和生成代碼等壯舉,其誕生被視作人工智能競賽的里程碑事件。
ChatGPT的前世今生
如果梳理OpenAI的GPT(Generative Pre-trained Transformer)系列技術(shù)路線,可以探尋出OpenAI的布局思路。
OpenAI最初提出的GPT1,采取的是生成式預(yù)訓(xùn)練Transform模型(一種采用自注意力機制的深度學(xué)習(xí)模型),此后整個GPT系列都貫徹了這一谷歌2017年提出,經(jīng)由OpenAI改造的偉大創(chuàng)新范式。
簡要來說,GPT1的方法包含預(yù)訓(xùn)練和微調(diào)兩個階段,預(yù)訓(xùn)練遵循的是語言模型的目標(biāo),微調(diào)過程遵循的是文本生成任務(wù)的目的。
2019年,OpenAI繼續(xù)提出GPT-2,所適用的任務(wù)開始鎖定在語言模型。GPT2擁有和GPT1一樣的模型結(jié)構(gòu),但得益于更高的數(shù)據(jù)質(zhì)量和更大的數(shù)據(jù)規(guī)模,GPT-2有了驚人的生成能力。不過,其在接受音樂和講故事等專業(yè)領(lǐng)域任務(wù)時表現(xiàn)很不好。
2020年的GPT3將GPT模型提升到全新的高度,其訓(xùn)練參數(shù)是GPT-2的10倍以上,技術(shù)路線上則去掉了初代GPT的微調(diào)步驟,直接輸入自然語言當(dāng)作指示,給GPT訓(xùn)練讀過文字和句子后可接續(xù)問題的能力,同時包含了更為廣泛的主題。
現(xiàn)在的ChatGPT則是由效果比GPT3更強大的GPT-3.5系列模型提供支持,這些模型使用微軟Azure AI超級計算基礎(chǔ)設(shè)施上的文本和代碼數(shù)據(jù)進行訓(xùn)練。
具體來說,ChatGPT在一個開源數(shù)據(jù)集上進行訓(xùn)練,訓(xùn)練參數(shù)也是前代GPT3的10倍以上,還多引入了兩項功能:人工標(biāo)注數(shù)據(jù)和強化學(xué)習(xí),相當(dāng)于拿回了被GPT3去掉的微調(diào)步驟,實現(xiàn)了在與人類互動時從反饋中強化學(xué)習(xí)。
也因此,我們得以看到一個強大的ChatGPT:能理解人類不同指令的含義,會甄別高水準(zhǔn)答案,能處理多元化的主題任務(wù),既可以回答用戶后續(xù)問題,也可以質(zhì)疑錯誤問題和拒絕不適當(dāng)?shù)恼埱蟆?/p>
當(dāng)初,GPT-3只能預(yù)測給定單詞串后面的文字,而ChatGPT可以用更接近人類的思考方式參與用戶的查詢過程,可以根據(jù)上下文和語境,提供恰當(dāng)?shù)幕卮穑⒛M多種人類情緒和語氣,還改掉了GPT-3的回答中看似通順,但脫離實際的毛病。
不僅如此,ChatGPT能參與到更海量的話題中來,更好的進行連續(xù)對話,有上佳的模仿能力,具備一定程度的邏輯和常識,在學(xué)術(shù)圈和科技圈人士看來時常顯得博學(xué)而專業(yè),而這些都是GPT-3所無法達到的。
盡管目前ChatGPT還存在很多語言模型中常見的局限性和不準(zhǔn)確問題,但毋庸置疑的是,其在語言識別、判斷和交互層面存在巨大優(yōu)勢。同屬于生成式AI范疇,ChatGPT在速度上已經(jīng)比DeepMind研究人員提出的聊天機器人Sparrow(麻雀)模型領(lǐng)先一步。
有分析指出,OpenAI一直堅定不移的只用自然文本的上文來訓(xùn)練模型推動了GPT3到ChatGPT的成果,其順應(yīng)了人類思考的邏輯,最終由量變推動了質(zhì)變。
商業(yè)模式的通路與障礙
不少人已經(jīng)注意到,ChatGPT的能力已經(jīng)涉及到AI模型之間的合作:一位網(wǎng)友要求ChatGPT寫一個描述女孩的文案,然后用ChatGPT生成的文案畫出了女孩的圖像。
除了GPT系列之外,OpenAI其實另有一條多模態(tài)領(lǐng)域研究支線聞名于世,即今年發(fā)布的明星產(chǎn)品——人工智能圖像生成器DALL-E2。以DaLL E2為代表的Diffusion Model(擴散模型)幾乎完成了此前爆火的AIGC(人工智能生成內(nèi)容)領(lǐng)域的“大一統(tǒng)”,為AI繪畫樹立了全新標(biāo)桿。
頂級技術(shù)能力之外,OpenAI能搶在谷歌和Meta之前重新書寫AIGC版圖,與其精細化的布局相關(guān)。
OpenAI月內(nèi)的兩筆收購都切中AIGC的增長點交叉地帶,一樁投給了音頻轉(zhuǎn)錄編輯器Descript ,一樁落子在AI筆記應(yīng)用Mem。前者的處理場景剛好是文本、圖片、音頻以及視頻,后者的技術(shù)底座是Transfomer模型,與ChatGPT同源。也就是說,OpenAI在打造自身處理下游任務(wù)的能力的同時,也在尋覓能承載下游任務(wù)的容器。
OpenAI的研究領(lǐng)域包括機器學(xué)習(xí)、自然語言處理和強化學(xué)習(xí),其能在短短幾年間迅速崛起,與創(chuàng)始人奧特曼對AI的創(chuàng)意性理解力密切相關(guān):“十年前的傳統(tǒng)觀點認(rèn)為,人工智能首先會影響體力勞動,然后是認(rèn)知勞動,再然后,也許有一天可以做創(chuàng)造性的工作。現(xiàn)在看起來,它會以相反的順序進行。”
在YC,奧特曼以激進大膽的投資風(fēng)格著稱,因其秉承直擊腹地的簡潔思維,備受創(chuàng)業(yè)者青睞。YC曾有創(chuàng)始人稱奧特曼為“創(chuàng)業(yè)公司的尤達大師”(《星球大戰(zhàn)》中的絕地武士導(dǎo)師)。
這位CEO還有著實事求是的性情,當(dāng)外界對GPT-3的能力發(fā)出鋪天蓋地的贊美時,他反而說“GPT-3被吹捧得太過了”。此后GPT-3在一系列問答中鬧出笑話、表現(xiàn)不佳,也印證了他的說法。
但奧特曼的冷靜擋不住幕后金主馬斯克對ChatGPT抱持的極大熱情,他十分關(guān)注ChatGPT的商業(yè)化前景,并在推特上向奧特曼提問,“ChatGPT每回答一個問題的成本是多少?”奧特曼則如實地答道:“每次對話的平均費用可能只有幾美分,我們正試圖找出更精確的測量方法并壓縮費用。”
實際上,谷歌和Meta等巨頭目前都尚未將生成式AI領(lǐng)域的研究能力轉(zhuǎn)化為商業(yè)化部署,作為創(chuàng)業(yè)公司的OpenAI卻做了不少嘗試。
這家公司曾希望通過API(應(yīng)用編程接口)方式來推動GPT-3的技術(shù)商業(yè)化,在2020年6月就開放了GPT-3的API接口,并曾與十余家公司展開過初步的商用測試,但由于GPT-3的功能并不完善未見成效。曾有傳言稱OpenAI為GPT3投入了至少1000萬美元,為了擺脫入不敷出的窘境,才將GPT3作為一項付費服務(wù)來推廣。
據(jù)虎嗅報道,F(xiàn)acebook改名為Meta之后,Meta AI實驗室在5月宣布開放自己的語言大模型OPT(預(yù)訓(xùn)練變換模型),而OPT一直對標(biāo)OpenAI的GPT3。與之類似,硅谷大廠內(nèi)部都有對標(biāo)GPT3的產(chǎn)品,只是因為大廠都是關(guān)起門來做私密研究,因而不為外界所知。
某種程度上,ChatGPT采取免費試用是OpenAI準(zhǔn)備繼續(xù)打磨這款產(chǎn)品的信號,用戶給予的反饋會幫助該模型吸取足夠的信息量,從而作出更恰當(dāng)?shù)姆磻?yīng)。
從GPT-3開始,ChatGPT及尚未出爐的GPT-4都面臨訓(xùn)練成本過大的問題。有分析指出,是否收費是個兩難決策:如果繼續(xù)免費,OpenAI會無法承受,但收費又會極大減少用戶基數(shù)。倘若訓(xùn)練成本能大幅下降,則兩難自解。
此外,GPT-3歷經(jīng)兩年商業(yè)化嘗試,并未“如愿”取代記者編輯或碼農(nóng)的職業(yè)生涯,OpenAI也從中發(fā)現(xiàn),將GPT系列作為輔助生產(chǎn)力工具對商業(yè)化更為合適。此前業(yè)內(nèi)傳言微軟對這家公司的新一輪注資即將落地,屆時其估值預(yù)計超過200億美元,商業(yè)化也必將提上日程。到那時,OpenAI可以倚仗的大概率是ChatGPT,或者是通過了圖靈測試的GPT4。
一片叫好聲中,也不乏有人潑來冷水——程序員首選問答社區(qū)Stack Overflow日前便宣布,禁止用戶復(fù)制ChatGPT的答案來回答其它用戶的問題,理由是ChatGPT的答案正確比率太低,日后待社區(qū)討論后再作出解禁決定。
此舉立刻引發(fā)了業(yè)界普遍關(guān)注,仿佛是對ChatGPT編程價值的徹底否定。與此同時,人工智能界的專家們也在激辯這些大型語言模型可能帶來的負面效應(yīng),比如Meta的首席人工智能科學(xué)家Yann LeCun認(rèn)為,雖然它們會有錯誤信息和不良輸出,但并不會使文本的實際分享變得容易,而后者才是造成危害的真正原因。但也有人反駁稱,這些語言系統(tǒng)的廉價文本生成能力必然會增加其后被分享的風(fēng)險。
而在OpenAI內(nèi)部,一年半前曾遭遇核心員工集體出走,創(chuàng)辦了一家名為Anthropic的新公司,致力于提高AI安全和可解釋性,目前籌資已超過7億美元,業(yè)內(nèi)亦有聲音認(rèn)為,這支“AI叛逆者聯(lián)盟”說不定會是另一個OpenAI。