整理 | 蘇宓
出品 | CSDN(ID:CSDNnews)
2019 年,微軟用 10 億美元砸進(jìn) OpenAI,兩者展開為期數(shù)年的合作。
當(dāng)時(shí)兩家對(duì)外公開的合作內(nèi)容包括,微軟和 OpenAI 將聯(lián)合開發(fā)新的 Azure AI 超級(jí)計(jì)算技術(shù),而 OpenAI 也將把它的服務(wù)轉(zhuǎn)移到 Azure 上運(yùn)行,最終目標(biāo)是向通用人工智能(Artificial General Intelligence,AGI)技術(shù)發(fā)起進(jìn)攻。
簡(jiǎn)單總結(jié),微軟與 OpenAI 聯(lián)手,也被外界解讀為,明為 AGI 研究,暗爭(zhēng) google 市場(chǎng)。
幾年之后,當(dāng) OpenAI 帶著 ChatGPT、GPT-4 王者歸來(lái),微軟率先利用這些技術(shù)加碼新 Bing、office 全家桶、Azure 等業(yè)務(wù)、產(chǎn)品之時(shí),毋庸置疑,其進(jìn)度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。
那么在明面上,AGI 的進(jìn)度到底走到了哪里?
近日,微軟研究團(tuán)隊(duì)用 154 頁(yè)的論文報(bào)告內(nèi)容給出了解答—— GPT-4 語(yǔ)言模型可以被視為 AGI 的早期版本!
一石激起千層浪,業(yè)界對(duì)于這篇論文的反應(yīng),不亞于去年聽到「Google 工程師稱 AI 已有自我意識(shí)」初覺(jué)有些荒誕,只是現(xiàn)如今再想會(huì)認(rèn)為有什么不可能,深讀后又覺(jué)得有些許的真實(shí)。
所謂 AGI,僅通過(guò)維基百科的解釋——「AGI 是具備與人類同等智能、或超越人類的人工智能,能表現(xiàn)正常人類所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步,「最高等的智慧生物」稱號(hào)是不是要易主了?
GPT-4 被合理地視為 AGI 的早期(但仍不完整)的版本
在論文中,微軟研究人員表示,「由 OpenAI 開發(fā)的最新模型 GPT-4,是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來(lái)的。在論文中,我們報(bào)告了我們對(duì) GPT-4 早期版本的調(diào)查,當(dāng)時(shí)它還在 OpenAI 的積極開發(fā)中。我們認(rèn)為,(這個(gè)早期版本的)GPT-4 是新一批 LLM(例如,與 ChatGPT 和谷歌的 PaLM 一起)的一部分,它比以前的 AI 模型表現(xiàn)出更多的通用智能。」
與此同時(shí),研究人員在論文摘要中寫道,“我們證明,除了對(duì)語(yǔ)言的掌握,GPT-4 還能解決跨越數(shù)學(xué)、編碼、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外, 在所有這些任務(wù)中,GPT-4 的表現(xiàn)都驚人地接近人類水平,而且往往大大超過(guò)了 ChatGPT 等先前的模型 。鑒于 GPT-4 能力的廣度和深度,我們認(rèn)為可以合理地將其視為人工通用智能(AGI)系統(tǒng)的早期(但仍不完整)版本。”
之所以得出這樣的結(jié)論,這篇論文背后的作者包括微軟研究院機(jī)器學(xué)習(xí)基礎(chǔ)組的高級(jí)首席研究經(jīng)理 Sébastien Bubeck、博士后研究員 Varun Chandrasekaran、數(shù)學(xué)家 Ronen Eldan 等人,用許多示例對(duì) GPT-4 的能力進(jìn)行了驗(yàn)證。
GPT-4 的多能力
在第一個(gè)案例中,研究人員要求 GPT-4 「寫出 有無(wú)限多個(gè)素?cái)?shù)的證明,且證明的表述要每行都押韻」,另外 GPT-4 要在繪圖程序 TiKZ 中畫出一只獨(dú)角獸」。其中,TiKZ(一種在 LATEX 中創(chuàng)建圖形的語(yǔ)言),用 Python/ target=_blank class=infotextkey>Python 創(chuàng)建一個(gè)復(fù)雜的動(dòng)畫,并解決一個(gè)高中水平的數(shù)學(xué)問(wèn)題。
GPT-4 在所有這些任務(wù)中都很容易取得成功,并且產(chǎn)生的輸出結(jié)果基本上與人類所能產(chǎn)生的結(jié)果沒(méi)有區(qū)別(甚至更好)。
同時(shí),隨著時(shí)間的推移,GPT-4 也在以難以想象的速度不斷擴(kuò)充自己的能力。如下圖所示是一個(gè)月期間,研究人員用相同的提示詞讓 GPT-4 生成的繪圖。
研究人員發(fā)現(xiàn),GPT-4 似乎能夠理解和連接任何主題,并且能夠執(zhí)行任務(wù),這超出了狹義人工智能系統(tǒng)的典型范圍。為了驗(yàn)證 GPT-4 在 AGI 上所具備的能力,研究人員提出了一種不同的方法來(lái)研究 GPT-4,它更接近于傳統(tǒng)的心理學(xué)而不是機(jī)器學(xué)習(xí),利用人類的創(chuàng)造力和好奇心。
因此,以上圖為例,當(dāng)研究人員把獨(dú)角獸角部分的代碼認(rèn)為刪除之后,用自然語(yǔ)言讓 GPT-4 生成時(shí),它也能做到“看”(此時(shí)測(cè)試的 GPT-4 版本不是多模態(tài)的)的能力:自動(dòng)在合適位置加上角。這表明 GPT-4 它可以根據(jù)自然語(yǔ)言描述來(lái)理解和操作代碼,以及推斷和生成視覺(jué)特征。
另外,微軟研究團(tuán)隊(duì)基于人類的創(chuàng)造力和好奇心來(lái)產(chǎn)生新穎和困難的問(wèn)題,并探測(cè) GPT-4 的反應(yīng)和行為,也選擇從 1994 年國(guó)際共識(shí)智力定義中的所給出不同能力進(jìn)行驗(yàn)證,包括推理、計(jì)劃、解決問(wèn)題、抽象思考、理解復(fù)雜的想法、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。
翻譯
GPT-4 的主要優(yōu)勢(shì)是它對(duì)自然語(yǔ)言無(wú)與倫比地掌握。它不僅可以生成生成流暢和連貫的文本,而且還能以各種方式理解和處理它,如總結(jié)、翻譯或回答極其復(fù)雜的問(wèn)題。此外,這里提到的翻譯我們所說(shuō)的翻譯不僅是指不同自然語(yǔ)言之間的翻譯,還包括語(yǔ)氣和風(fēng)格的翻譯,以及跨領(lǐng)的翻譯,如醫(yī)學(xué)、法律、會(huì)計(jì)、計(jì)算機(jī)編程、音樂(lè)等等。如假設(shè)是柏拉圖批判自回歸語(yǔ)言模型:
編碼和數(shù)據(jù)
編碼和數(shù)學(xué)是抽象推理和思維能力的象征。GPT-4 在這一點(diǎn)上的能力,其實(shí)自上線測(cè)試那一天,便有目共睹。
在論文中,研究人員在 HumanEval 上對(duì) GPT-4 進(jìn)行基準(zhǔn)測(cè)試,該數(shù)據(jù)集由 164 個(gè)編碼問(wèn)題組成,測(cè)試了編程邏輯和熟練程度的各個(gè)方面。
最終結(jié)果顯示,GPT-4 優(yōu)于其他 LLM,包括 text-davinci-003(ChatGPT 的基礎(chǔ)模型)和其他專門針對(duì)代碼訓(xùn)練的模型。
當(dāng)然為了避免 GPT-4 在預(yù)訓(xùn)練時(shí)已經(jīng)記住了 HumanEval 數(shù)據(jù)集的一些內(nèi)容,研究團(tuán)隊(duì)還用 LeetCode 上最新發(fā)布的 100 個(gè)編程問(wèn)題進(jìn)行了測(cè)試,如要求 GPT-4 編寫一個(gè) Python 函數(shù),并使用 LeetCode 的官方在線評(píng)判來(lái)檢查正確性。
毫無(wú)疑問(wèn),GPT-4 的能力是所有模型中最高的。
它可以在 html 中用 JAVA 編寫一個(gè) 3D 游戲。
也能掌握數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識(shí),以及憑借對(duì) PyTorch、TensorFlow、Keras 等框架和庫(kù)的熟悉度,編寫深度學(xué)習(xí)的代碼。
還能逆向工程:
常識(shí)性問(wèn)題
針對(duì)一些常識(shí)性問(wèn)題,如“我們有一本書,9 個(gè)雞蛋,一臺(tái)筆記本電腦,一個(gè)瓶子和一個(gè)釘子。請(qǐng)告訴我如何以穩(wěn)定的方式將它們疊在一起”,GPT-4 給出的解答是,“將 9 個(gè)雞蛋擺成 3 乘 3 的正方形,放在書的上面,在它們之間留出一些空間”,而 ChatGPT 提出「將雞蛋放在釘子上面,確保它們是平衡的,不會(huì)向一邊傾斜」,靠譜和離譜還是一眼就能辨清楚的。
多模態(tài)能力
為了測(cè)試該模型結(jié)合藝術(shù)和編程能力的能力,研究人員要求 GPT-4 "生成 Java 代碼,以畫家康定斯基的風(fēng)格生成隨機(jī)圖像",結(jié)果是這樣的:
在測(cè)試時(shí),因?yàn)檠芯咳藛T拿到 GPT-4 模型比較早,當(dāng)時(shí)并不具備多模態(tài)能力,即使是現(xiàn)在的 GPT-4 也不具備生成圖像等能力。
不過(guò)倒是可以使用 SVG(可擴(kuò)展矢量圖形)生成一些圖像:
還能結(jié)合字母和物體:
GPT-4 可以從提示中生成代碼,這些代碼可以被呈現(xiàn)為圖像,再與現(xiàn)有的圖像合成模型相結(jié)合,就有可能為應(yīng)用開發(fā)的草圖帶來(lái)無(wú)限的可能:
值得注意的是,GPT-4 模型的數(shù)據(jù)也包含了以ABC符號(hào)編碼的音樂(lè)信息,所以它也能生成圖譜:
與世界交互的能力
整體而言,研究小組發(fā)現(xiàn),GPT-4 在其上一代產(chǎn)品所缺乏的一系列類別中達(dá)到了接近人類水平的性能。根據(jù)該論文,GPT-4 在幾次考試中也表現(xiàn)得非常好,在律師考試、LSAT 和注冊(cè)侍酒師理論測(cè)試中的得分分別為 90 分、88 分和 86 分。
GPT-4 距離理想中的 AGI 還有多遠(yuǎn)?
那么,在 GPT-4 實(shí)現(xiàn)種種能力的基礎(chǔ)上,是否就意味著 AGI 時(shí)代的到來(lái)。其實(shí)不然, 研究人員目前尚未就 AGI 或智能的定義達(dá)成一致。然而,一般來(lái)說(shuō),大家都會(huì)同意,當(dāng)一個(gè)人工智能系統(tǒng)有意識(shí)并像人類一樣思考時(shí),就已經(jīng)達(dá)到了 AGI。雖然 GPT-4 在一些任務(wù)中的表現(xiàn)優(yōu)于人類,但值得注意的是,人工智能并沒(méi)有像人類那樣克服這些障礙。
這也正如研究人員在論文中寫道,“ 我們聲稱 GPT-4 代表了 AGI 的進(jìn)步,但這并不意味著它在做什么方面是完美的,或者它接近于能夠做人類能做的任何事情(這是 AGI 的通常定義之一),或者它有內(nèi)在的動(dòng)機(jī)和目標(biāo)。”
研究人員指出,雖然 GPT-4 "在許多任務(wù)上達(dá)到或超過(guò)了人類水平",但它的整體 "智能模式明顯不像人類",其希望這一次的探索提供了一個(gè) 欣賞 GPT-4 的非凡能力和挑戰(zhàn)的第一步,也希望 GPT-4 為開發(fā)更正式和全面的方法來(lái)測(cè)試和分析具有如此廣泛智能的未來(lái)人工智能系統(tǒng)開辟了新的機(jī)會(huì)。
「我們工作的核心主張是,GPT-4 達(dá)到了一種通用智能的形式,確實(shí)擦出了 AGI 的火花。這表現(xiàn)在它的核心心智能力(如推理、創(chuàng)造力和推理),它獲得專業(yè)知識(shí)的主題范圍(如文學(xué)、醫(yī)學(xué)和編碼),以及它能夠完成的各種任務(wù)(如玩游戲、使用工具、解釋自己,......)」研究人員說(shuō)道,不過(guò),要?jiǎng)?chuàng)建一個(gè)可以被稱為完整的 AGI 的系統(tǒng),還有很多事情要做。
最后,這篇論文對(duì)于GPT-4 各種基準(zhǔn)測(cè)試還是值得一看,從中也能挖掘出 GPT-4 更多的潛力。
完整論文內(nèi)容可查看:
https://arxiv.org/pdf/2303.12712.pdf