日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

圖片

 

ChatGPT 能夠自動生成類似于人類寫作的文本,這一點(diǎn)非常引人注目,也令人意外。但它是如何實現(xiàn)的?為什么它能夠如此出色地生成我們認(rèn)為有意義的文本?我的目的是在這里概述ChatGPT內(nèi)部的運(yùn)行情況,并探討它能夠如此出色地產(chǎn)生有意義文本的原因。

首先需要解釋的是,ChatGPT的基本目標(biāo)是嘗試產(chǎn)生一個“合理的延續(xù)”,無論它當(dāng)前所擁有的文本是什么。這里的“合理”是指“在瀏覽了數(shù)十億網(wǎng)頁等人類書寫的內(nèi)容后,人們可能會寫什么”。

那么假設(shè)我們有文本“AI的牛逼之處在于它能夠...”,我們可以想象一下掃描數(shù)十億頁人類寫作的文本(比如在網(wǎng)上和數(shù)字化的書籍中),找到所有這個文本的實例,然后看下一個單詞出現(xiàn)的頻率是多少。ChatGPT實際上是在類似地尋找在某種意義上“匹配”的內(nèi)容,以生成一個排名列表,列出可能的后續(xù)單詞和相應(yīng)的“概率”。

 

圖片

 

ChatGPT寫作時的一個顯著特點(diǎn)是,它實際上只是一遍又一遍地問自己:“在當(dāng)前文本的情況下,下一個詞應(yīng)該是什么?”然后每次添加一個單詞。更準(zhǔn)確地說,它添加的是一個“標(biāo)記”,可能只是一個單詞的一部分,這就是它有時可以“創(chuàng)造新詞”的原因。

好的,在每一步中,ChatGPT都會得到一個帶有概率的單詞列表。但是它應(yīng)該選擇哪個單詞來添加到正在撰寫的文章(或其他文本)中呢?也許人們認(rèn)為應(yīng)該選擇“排名最高”的單詞(即被分配最高“概率”的單詞)。但是這就是玄學(xué)開始的地方。因為某種原因(也許有一天我們會對此有科學(xué)式的理解),如果我們總是選擇排名最高的單詞,我們通常會得到一個非常“平淡”的文章,似乎從未“展現(xiàn)出任何創(chuàng)意”(有時甚至是逐字重復(fù))。但是,如果有時(隨機(jī)地)選擇排名較低的單詞,我們就會得到一個“更有趣”的文章。

這里有隨機(jī)性,這意味著如果我們多次使用相同的問題提問,每次都可能得到不同的回答。同時,存在一個特定的所謂“temperature”參數(shù),它決定了低排名單詞被使用的頻率。對于文章生成來說,實踐中發(fā)現(xiàn)使用“temperature”為0.8最佳。(需要強(qiáng)調(diào)的是,這里沒有運(yùn)用任何“理論”;這只是經(jīng)驗上被發(fā)現(xiàn)的有效方法。)

在繼續(xù)之前,我需要說明的是,出于闡述的目的,我通常不會使用ChatGPT中的完整系統(tǒng),而是使用更簡單的GPT-2系統(tǒng)。該系統(tǒng)有一個很好的特點(diǎn),即其大小足夠小,可以在標(biāo)準(zhǔn)臺式計算機(jī)上運(yùn)行。

例如,以下是獲取上述概率表格的步驟。首先,我們需要檢索底層的“語言模型”神經(jīng)網(wǎng)絡(luò):

 

圖片

 

稍后,我們將會深入探討這個神經(jīng)網(wǎng)絡(luò),并講解它是如何工作的。但現(xiàn)在,我們可以把這個“網(wǎng)絡(luò)模型”視為黑匣子,應(yīng)用到我們目前的文本中,并請求該模型認(rèn)為應(yīng)該跟隨的前五個概率最高的單詞:

 

圖片

 

這個步驟將結(jié)果轉(zhuǎn)換為一個格式明確的“數(shù)據(jù)集”:

 

圖片

 

如果反復(fù)“應(yīng)用模型”,每一步都添加具有最高概率的單詞(在此代碼中指定為模型的“決策”),則會發(fā)生以下情況:

 

圖片

 

如果繼續(xù)下去會發(fā)生什么?在這種零“temperature”的情況下,輸出很快就會變得混亂而重復(fù)。

 

圖片

 

如果不總是選擇“頂部”單詞,而是有時隨機(jī)選擇“非頂部”單詞(其中“隨機(jī)性”對應(yīng)于 temperature=0.8),會發(fā)生什么呢?我們再次可以構(gòu)建出文本:

 

圖片

 

每次執(zhí)行時,會做出不同的隨機(jī)選擇,因此文本也會不同。以下是5個示例:

 

圖片

 

那么,如何計算下一個單詞的概率?

好的,ChatGPT總是根據(jù)概率選擇下一個單詞。但是這些概率從哪里來呢?讓我們從一個更簡單的問題開始,考慮逐個字母(而不是單詞)生成英語文本。如何確定每個字母的概率呢?

我們可以采取的最簡單的方法就是從英文文本中隨機(jī)取樣,并計算不同字母的出現(xiàn)頻率。例如,以下是在“貓”(Cat)維基百科文章中計算字母出現(xiàn)次數(shù)的結(jié)果:

 

圖片

 

這是狗(dog)維基百科文章中不同字母的出現(xiàn)次數(shù):

 

圖片

 

結(jié)果是相似的,但并非完全相同(因為“o”在“dogs”文章中更常見,畢竟它出現(xiàn)在單詞“dog”中)。不過,如果我們?nèi)拥挠⒄Z文本足夠大,最終我們可以期望得到相當(dāng)一致的結(jié)果:

 

圖片

 

這是我們只是根據(jù)這些概率生成字母序列時得到的樣本:

 

圖片

 

我們可以通過將空格模擬為字母添加進(jìn)可選項中,從而將這些序列分為多個“單詞”組成的序列:

 

圖片

 

我們可以通過讓“單詞長度”的分布與英語中的分布一致來更好地模擬“單詞”的生成過程:

 

圖片

 

這里我們沒有得到任何“實際單詞”,但結(jié)果看起來稍微好了一點(diǎn)。但是,要進(jìn)一步往下,我們需要做的不僅僅是隨機(jī)選擇每個字母。

例如,我們知道如果有一個“q”,下一個字母基本上必須是“u”。

這是字母本身的出現(xiàn)概率圖示:

 

圖片

 

下面這張圖展示了英語文本中一對字母(“2-grams”)的概率分布。圖表的橫軸為可能的第一個字母,縱軸為可能的第二個字母:

 

圖片

 

我們可以看到,例如,“q”列除了“u”行之外為空(概率為零)。好的,現(xiàn)在,我們不再一個字母一個字母地生成我們的“單詞”,而是使用這些“2-gram”概率,一次生成兩個字母來生成它們。以下是結(jié)果的一個樣本 - 其中恰好包括一些真實存在的單詞:

 

圖片

 

通過足夠多的英文文本,我們不僅可以對單個字母或字母對(2-grams)的概率進(jìn)行相當(dāng)準(zhǔn)確的估計,還可以對更長的字母序列進(jìn)行估計。如果我們使用逐漸更長的n-gram概率生成“隨機(jī)單詞”,我們會發(fā)現(xiàn)它們逐漸變得“更真實”。

 

圖片

 

讓我們現(xiàn)在假設(shè) - 就像 ChatGPT 一樣 - 我們處理的是整個單詞,而不是單個字母。英語中大約有40,000個常用單詞。通過查看大量的英語文本(例如幾百萬本書,總共幾千億個單詞),我們可以估計每個單詞的使用頻率。利用這個估計,我們可以開始生成“句子”,其中每個單詞都是獨(dú)立隨機(jī)選擇的,其出現(xiàn)概率與在文本語料庫中的出現(xiàn)概率相同。以下是我們得到的一個樣本:

 

圖片

 

我們可以預(yù)料到,這樣生成的句子毫無意義。那么我們應(yīng)該如何改進(jìn)呢?就像處理字母時一樣,我們可以考慮不僅單個單詞的概率,而是成對或更長的n-gram單詞的概率。對于成對的情況,以下是5個例子,它們都以單詞“cat”為起點(diǎn):

 

圖片

 

這看起來稍微有點(diǎn)合理。如果我們使用足夠長的n-gram,就有可能得到一個能夠生成具有“正確整體文章概率”的單詞序列,從而“得到一個ChatGPT”。但是問題在于,目前可用的英語文本量遠(yuǎn)遠(yuǎn)不足以推斷出這些概率。在網(wǎng)絡(luò)爬取的數(shù)百億單詞和數(shù)字化書籍中的數(shù)百億單詞中,對于40,000個常用單詞,可能的2-grams數(shù)量就高達(dá)16億,而3-grams的數(shù)量則達(dá)到60萬億。

因此,我們無法從現(xiàn)有的文本中估算出所有這些概率。即使是20個單詞的“文章片段”,其可能性數(shù)量也已經(jīng)超過了宇宙中的粒子數(shù)量,從某種意義上講,這些可能性永遠(yuǎn)都不能全部寫下來。

那么我們該怎么辦呢?重要的想法是創(chuàng)建一個模型,使我們能夠估計序列應(yīng)該發(fā)生的概率,即使我們在我們查看的文本語料庫中從未明確看到這些序列。而ChatGPT的核心正是一個被稱為“大型語言模型”(LLM)的模型,它已經(jīng)被構(gòu)建成能夠很好地估計這些概率的模型。

什么是模型

假設(shè)你想知道(就像加利略在16世紀(jì)晚期那樣)從比薩斜塔的每層落下的炮彈需要多長時間才能落到地面。那么,你可以在每種情況下進(jìn)行測量并制作結(jié)果表。或者你可以做理論科學(xué)的本質(zhì):建立一個模型,給出一些計算答案的過程,而不是僅僅測量和記憶每種情況。

讓我們想象我們有(有些理想化的)數(shù)據(jù),了解炮彈從不同樓層掉落需要多長時間:

 

圖片

 

我們?nèi)绾斡嬎愠鰪奈覀儧]有明確數(shù)據(jù)的樓層掉落所需的時間?在這種特定情況下,我們可以使用已知的物理定律來計算。但是假設(shè)我們只有數(shù)據(jù),而不知道其背后的規(guī)律是什么。那么我們可以做出一個數(shù)學(xué)猜測,例如,也許我們應(yīng)該使用一條直線作為模型:

 

圖片

 

我們可以選擇不同的直線,但這條直線平均來看最接近我們所給的數(shù)據(jù)。從這條直線中,我們可以估計任何一層的落地時間。

我們?nèi)绾沃涝谶@里嘗試使用一條直線呢?在某種程度上,我們并不確定。這只是數(shù)學(xué)上的一些簡單東西,而且我們已經(jīng)習(xí)慣了我們所測量的很多數(shù)據(jù)能夠被數(shù)學(xué)上的簡單事物很好地擬合。當(dāng)然,我們也可以嘗試使用數(shù)學(xué)上更復(fù)雜的東西,例如a + bx + cx^2,在這種情況下,我們可以得到更好的擬合效果:

 

圖片

 

事情有時會變得非常糟糕。就像在這里,我們嘗試使用 a + b/x + c sin(x) 可以得到的最好結(jié)果:

 

圖片

 

永遠(yuǎn)不存在“model-less model”。您使用的任何模型都具有某些特定的基本結(jié)構(gòu),然后有一定數(shù)量的“旋鈕可供調(diào)節(jié)”(即可以設(shè)置的參數(shù))來擬合您的數(shù)據(jù)。在ChatGPT的情況下,使用了許多這樣的“旋鈕”——實際上有1750億個。

值得注意的是,相比于3-grams的60萬億的組合可能性,ChatGPT 的這1750億個參數(shù),卻已足夠生成讓我們驚訝的文本。

如何制作能完成人類任務(wù)的模型

我們上面給出的例子涉及到制作數(shù)值數(shù)據(jù)模型,這些數(shù)據(jù)基本上來自于簡單的物理,是幾個世紀(jì)以來我們已經(jīng)知道的“簡單數(shù)學(xué)”。但是對于ChatGPT,我們必須制作一種人類大腦產(chǎn)生的語言文本模型。對于這樣的任務(wù),我們還沒有類似于“簡單的數(shù)學(xué)”工具。那么,這個模型可能是什么樣子的呢?

在討論語言之前,我們先來談?wù)劻硪粋€類似于人類任務(wù):圖像識別。作為一個簡單的例子,我們考慮數(shù)字圖像識別(這是一個經(jīng)典的機(jī)器學(xué)習(xí)例子)。

 

圖片

 

首先,我們給每個數(shù)字收集一堆樣本圖像:

 

圖片

 

然后,為了找出我們輸入的圖像是否對應(yīng)于特定的數(shù)字,我們可以使用樣本圖像進(jìn)行像素逐個比較。但是作為人類,我們顯然比像素逐個比較樣本更擅長數(shù)字識別,因為即使數(shù)字是手寫的,或者存在各種修改和扭曲,我們?nèi)阅軌蜃R別它們。

 

圖片

 

當(dāng)我們上面為數(shù)值數(shù)據(jù)建立模型時,我們能夠接收給定的數(shù)值x,然后為特定的a和b計算a+bx。那么,如果我們將這里每個像素的灰度值視為某個變量xi,是否有某個函數(shù)涉及所有這些變量,當(dāng)我們對其進(jìn)行求值時,可以告訴我們圖像表示的是哪個數(shù)字?事實證明,可以構(gòu)造這樣的函數(shù)。但并不出人意料,它并不是特別簡單。一個典型的例子可能涉及大約五十萬次數(shù)學(xué)運(yùn)算。

但最終結(jié)果是,如果我們將圖像的像素值集合輸入到此函數(shù)中,輸出將是指定圖像所代表的數(shù)字。稍后,我們將討論如何構(gòu)建這樣的函數(shù)和神經(jīng)網(wǎng)絡(luò)的概念。但現(xiàn)在,讓我們將該函數(shù)視為一個黑盒子,在其中輸入手寫數(shù)字圖像(作為像素值數(shù)組),并輸出它們所對應(yīng)的數(shù)字:

 

圖片

 

但是這里真正發(fā)生了什么?假設(shè)我們逐漸模糊一個數(shù)字。一段時間內(nèi),我們的函數(shù)仍然可以“識別”它,例如這里被識別為“2”。但很快它就“失去了”,開始給出“錯誤”的結(jié)果:

 

圖片

 

但是,究竟發(fā)生了什么呢?假設(shè)我們逐漸模糊一個數(shù)字。在一段時間內(nèi),我們的函數(shù)仍然可以“識別”它,比如說是“2”。但很快,它就會“失效”,并開始給出“錯誤”的結(jié)果。

但是,我們?yōu)槭裁凑J(rèn)為這是“錯誤”的結(jié)果呢?在這種情況下,我們知道我們通過模糊“2”來得到所有這些圖像。但如果我們的目標(biāo)是生成一個能夠模擬人類識別圖像能力的模型,那么真正需要問的問題是:如果向人類展示這些模糊的圖像,而他們并不知道這些圖像是如何產(chǎn)生的,那么人類會如何做出判斷?

如果我們的函數(shù)得到的結(jié)果通常與人類的結(jié)果一致,那么我們就擁有了一個“好的模型”。而這個非常重要的科學(xué)事實是,對于像這樣的圖像識別任務(wù),我們現(xiàn)在基本上知道如何構(gòu)造這樣的函數(shù)。

我們能否“數(shù)學(xué)證明”它們的有效性?嗯,不行。因為要做到這一點(diǎn),我們必須擁有一個關(guān)于人類視覺感知的數(shù)學(xué)理論。我們拿“2”圖像并改變幾個像素。我們可能想象,即使只有幾個像素“錯位”,我們?nèi)匀粦?yīng)該認(rèn)為這是一個“2”。但這該怎樣才算合理呢?這是一個關(guān)于人類視覺感知的問題。是的,對于蜜蜂或章魚,答案無疑會有所不同。

神經(jīng)網(wǎng)絡(luò)

那么,像圖像識別這樣的任務(wù),我們的典型模型實際上是如何工作的呢?最流行且最成功的當(dāng)前方法使用神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的發(fā)明可以看作是大腦如何工作的簡單理想化,而它們的形式與現(xiàn)在的使用方式非常接近。

人腦中大約有1000億個神經(jīng)元(神經(jīng)細(xì)胞),每個神經(jīng)元都能夠每秒產(chǎn)生一千次的電脈沖。這些神經(jīng)元以復(fù)雜的網(wǎng)絡(luò)連接在一起,每個神經(jīng)元都有樹狀的分支,使其能夠向成千上萬個其他神經(jīng)元傳遞電信號。在粗略的近似中,任何給定神經(jīng)元是否在某一時刻產(chǎn)生電脈沖取決于它從其他神經(jīng)元接收到的脈沖,不同的連接會以不同的“權(quán)重”進(jìn)行貢獻(xiàn)。

當(dāng)我們“看到圖像”時,光子從圖像中落在我們眼睛后面的(“光感受器”)細(xì)胞上,這些細(xì)胞會在神經(jīng)細(xì)胞中產(chǎn)生電信號。這些神經(jīng)細(xì)胞與其他神經(jīng)細(xì)胞相連接,最終信號經(jīng)過一系列神經(jīng)元層次的傳遞。在這個過程中,我們“識別”圖像,最終“形成思想”,認(rèn)為我們“看到了一個2”(或許最終會像大聲說“two”這樣的動作)。

前一節(jié)中的“黑匣子”函數(shù)是這種神經(jīng)網(wǎng)絡(luò)的“數(shù)學(xué)化”版本。它恰好有11個層次(雖然只有4個“核心層”):

 

圖片

 

這個神經(jīng)網(wǎng)絡(luò)并沒有什么特別“理論推導(dǎo)”的地方;它只是在1998年作為一項工程構(gòu)建而成,并被發(fā)現(xiàn)可以工作。(當(dāng)然,這與我們可能會描述我們的大腦是通過生物進(jìn)化的過程產(chǎn)生的并沒有太大的不同。)

好的,但是這樣的神經(jīng)網(wǎng)絡(luò)如何“識別事物”呢?關(guān)鍵是"吸引子"的概念。想象一下我們有手寫的1和2的圖像:

 

圖片

 

我們希望所有的1“被吸引到一個地方”,所有的2“被吸引到另一個地方”。換句話說,如果一幅圖像在某種程度上“更接近1”而不是2,我們希望它最終進(jìn)入“1的位置”,反之亦然。

一個直觀的類比,假設(shè)我們有平面上的某些位置,用點(diǎn)表示(在現(xiàn)實中,它們可能是咖啡店的位置)。然后我們可以想象,從平面上的任何一個點(diǎn)開始,我們總是想到達(dá)最近的點(diǎn)(也就是去最近的咖啡店)。我們可以通過將平面劃分為由理想化的分隔區(qū)域來表示這一點(diǎn):

 

圖片

 

所以我們可以將這看作是實現(xiàn)了一種“識別任務(wù)”,我們不是像識別給定圖像最像哪個數(shù)字那樣做某些事情,而是直接看哪個點(diǎn)最接近

那么如何使神經(jīng)網(wǎng)絡(luò)“執(zhí)行識別任務(wù)”呢?讓我們考慮這個非常簡單的情況:

 

圖片

 

我們的目標(biāo)是將與位置 {x,y} 相對應(yīng)的“輸入”識別為最接近的三個點(diǎn)之一。或者換句話說,我們希望神經(jīng)網(wǎng)絡(luò)計算關(guān)于 {x,y} 的函數(shù),如下所示:

 

圖片

 

那么我們?nèi)绾斡蒙窠?jīng)網(wǎng)絡(luò)實現(xiàn)這個任務(wù)呢?神經(jīng)網(wǎng)絡(luò)是由一系列理想化的“神經(jīng)元”連接而成的,通常排列在層中。一個簡單的例子是:

 

圖片

 

每個“神經(jīng)元”實際上是建立在簡單的數(shù)值函數(shù)上的。而要“使用”網(wǎng)絡(luò),我們只需在頂部輸入數(shù)字(如我們的坐標(biāo) x 和 y),然后讓每層神經(jīng)元“評估其函數(shù)”,并將結(jié)果向前傳遞到網(wǎng)絡(luò)的底部,最終產(chǎn)生最終結(jié)果:

 

圖片

 

在傳統(tǒng)的(受生物學(xué)啟發(fā))設(shè)置中,每個神經(jīng)元實際上都有來自前一層神經(jīng)元的某些“傳入連接”,每個連接都被分配一個特定的“權(quán)重”(可以是正數(shù)或負(fù)數(shù))。一個給定神經(jīng)元的值是由“前一個神經(jīng)元”的值乘以它們對應(yīng)的權(quán)重然后相加并加上一個常數(shù),最后應(yīng)用一個“閾值”(或“激活”)函數(shù)來確定的。在數(shù)學(xué)上,如果一個神經(jīng)元有輸入x = {x1,x2 ...},那么我們計算f[w.x+b],其中權(quán)重w和常數(shù)b通常對于網(wǎng)絡(luò)中的每個神經(jīng)元選擇不同;函數(shù)f通常是相同的。

計算 w.x + b 就是矩陣乘法和加法的問題。激活函數(shù) f 引入了非線性,從而產(chǎn)生非平凡的行為。常見的激活函數(shù)有很多種,這里我們將使用 Ramp(或 ReLU)函數(shù)。

 

圖片

 

我們想要神經(jīng)網(wǎng)絡(luò)執(zhí)行每個任務(wù)(或等價地,評估每個總體函數(shù))時,我們將有不同的權(quán)重選擇。(正如我們稍后將討論的那樣,這些權(quán)重通常是通過使用機(jī)器學(xué)習(xí)從我們想要的輸出示例來訓(xùn)練神經(jīng)網(wǎng)絡(luò)確定的。)

最終,每個神經(jīng)網(wǎng)絡(luò)都對應(yīng)于某個總體數(shù)學(xué)函數(shù),盡管它可能很混亂。對于上面的示例,它將是:

 

圖片

 

ChatGPT的神經(jīng)網(wǎng)絡(luò)也僅僅對應(yīng)著這樣一個數(shù)學(xué)函數(shù),但是實際上有數(shù)十億個項式。

但是讓我們回到單個神經(jīng)元。以下是具有兩個輸入(表示坐標(biāo)x和y)的神經(jīng)元在各種權(quán)重和常量選擇(以及Ramp作為激活函數(shù))下可以計算的函數(shù)示例:

 

圖片

 

那么上面那個函數(shù)的表現(xiàn)如何呢?好吧,它是這樣的:

 

圖片

 

這不是完全“正確”的,但它接近我們上面展示的“最近點(diǎn)”函數(shù)。

讓我們看看其他一些神經(jīng)網(wǎng)絡(luò)會發(fā)生什么。在每種情況下,正如我們稍后將解釋的那樣,我們使用機(jī)器學(xué)習(xí)來找到最佳的權(quán)重選擇。然后在這里展示神經(jīng)網(wǎng)絡(luò)使用這些權(quán)重計算出的結(jié)果:

 

圖片

 

較大的神經(jīng)網(wǎng)絡(luò)通常能更好地逼近我們的目標(biāo)函數(shù)。如果要判斷的目標(biāo)在每個"吸引子"盆地的中心附近,我們通常可以獲得我們想要的答案。但在邊界處,神經(jīng)網(wǎng)絡(luò)“難以作出決策”,情況可能會更加混亂。

對于這種簡單的數(shù)學(xué)式“識別任務(wù)”,正確答案是明確的。但在識別手寫數(shù)字的問題上,情況并不那么明確。如果有人將“2”寫得像“7”等等,怎么辦呢?盡管如此,我們可以詢問神經(jīng)網(wǎng)絡(luò)如何區(qū)分?jǐn)?shù)字,這可以提供一些線索:

 

圖片

 

我們能“數(shù)學(xué)地”說明網(wǎng)絡(luò)是如何進(jìn)行區(qū)分的嗎?實際上不行。它只是“按照神經(jīng)網(wǎng)絡(luò)的方式進(jìn)行操作”。但事實證明,這通常與我們?nèi)祟愃龀龅膮^(qū)分相當(dāng)吻合。

讓我們看一個更復(fù)雜的例子。假設(shè)我們有貓和狗的圖像,并有一個被訓(xùn)練用于區(qū)分它們的神經(jīng)網(wǎng)絡(luò)。以下是它在一些示例上的表現(xiàn):

 

圖片

 

現(xiàn)在,“正確答案”更加不明確了。那么,如果一只狗穿著貓裝呢?等等。無論輸入什么,神經(jīng)網(wǎng)絡(luò)都會生成一個答案。而且,事實證明,它以一種相當(dāng)一致的方式生成答案,與人類可能做出的相符。正如我之前所說,這不是我們可以從第一原理中推導(dǎo)出來的事實。這只是在某些領(lǐng)域經(jīng)驗上被證明是正確的關(guān)鍵原因。但這也是神經(jīng)網(wǎng)絡(luò)有用的一個關(guān)鍵原因:它們以某種方式捕捉了“人類式”的做事方式。

以貓和狗的識別為例,現(xiàn)在“正確答案”更加不明確了。比如,一只穿著貓裝的狗,該怎么識別呢?無論輸入什么,神經(jīng)網(wǎng)絡(luò)都會生成一個答案。而且,事實證明,它以一種相當(dāng)一致的方式生成答案,與人類可能做出的相符。正如我之前所說,這不是我們可以從第一原理中推導(dǎo)出來的事實。這只是在某些領(lǐng)域經(jīng)驗上被證明是正確的關(guān)鍵原因。但這也是神經(jīng)網(wǎng)絡(luò)有用的一個關(guān)鍵原因:它們以某種方式捕捉了“人類式”的做事方式。

假設(shè)你看到了一張貓的圖片,你會問自己“為什么這是一只貓?”你可能會說:“我看到了它尖耳朵等特征。”但很難解釋你是如何識別出這張圖片的。這只是你的大腦以某種方式弄清楚了。但對于大腦來說,(至少目前)沒有辦法“進(jìn)入內(nèi)部”并查看其如何解決問題。那么對于(人工)神經(jīng)網(wǎng)絡(luò)呢?當(dāng)你展示一張貓的圖片時,每個“神經(jīng)元”做的事情很容易看出來。但即使獲得基本的可視化通常也非常困難。

在上面用于“最近點(diǎn)”問題的最終網(wǎng)絡(luò)中有17個神經(jīng)元。在用于識別手寫數(shù)字的網(wǎng)絡(luò)中有2190個神經(jīng)元。在用于識別貓和狗的網(wǎng)絡(luò)中有60,650個神經(jīng)元。通常情況下,將60,650維空間可視化相當(dāng)困難。但由于這是一個用于處理圖像的網(wǎng)絡(luò),它的許多神經(jīng)元層被組織成像素數(shù)組的形式。因此,我們可以拿一張典型的貓的圖片為例進(jìn)行說明:

 

圖片

 

那么,我們可以通過一系列派生圖像來表示第一層神經(jīng)元的狀態(tài)——其中許多我們可以輕松解釋為“沒有背景的貓”或“貓的輪廓”之類的東西:

 

圖片

 

到了第10層,很難解釋正在發(fā)生什么:

 

圖片

 

但總的來說,我們可能會說神經(jīng)網(wǎng)絡(luò)正在“挑選某些特征”(也許尖耳朵是其中之一),并使用它們來確定圖像的內(nèi)容。但這些特征是否具有像“尖耳朵”這樣的名稱?大多數(shù)情況下并不是。

我們的大腦是否也使用類似的特征?大多數(shù)情況下我們不知道。但值得注意的是,像我們在這里展示的神經(jīng)網(wǎng)絡(luò)的前幾層似乎會挑選出圖像的一些方面(如物體的邊緣),這些方面似乎類似于我們知道的大腦視覺處理的第一層所挑選的方面。

但是假設(shè)我們想要一個神經(jīng)網(wǎng)絡(luò)的“貓識別理論”。我們可以說:“看,這個特定的網(wǎng)絡(luò)可以做到”,這立即讓我們對“它有多難”的問題有了一些感覺(例如需要多少個神經(jīng)元或?qū)觼斫鉀Q這個問題)。但至少目前我們沒有辦法“給出一個敘述性描述”來解釋網(wǎng)絡(luò)正在做什么。也許這是因為它確實是計算上不可化簡的,沒有一般的方法來找出它所做的事情,除非我們明確地跟蹤每一步。或者也許只是因為我們還沒有“找到科學(xué)的方法”,并確定了允許我們總結(jié)正在發(fā)生的事情的“自然法則”。

當(dāng)我們談?wù)撌褂肅hatGPT生成語言時,我們將遇到同樣的問題。同樣,目前尚不清楚是否有方法“總結(jié)它在做什么”。但是,語言的豐富性和細(xì)節(jié)(以及我們對它的經(jīng)驗)可能使我們比使用圖像更進(jìn)一步。

機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

到目前為止,我們討論了已經(jīng)“知道”如何執(zhí)行特定任務(wù)的神經(jīng)網(wǎng)絡(luò)。但是神經(jīng)網(wǎng)絡(luò)如此有用(大腦也很可能如此),不僅可以原則上執(zhí)行各種任務(wù),而且可以逐步地從示例中進(jìn)行“訓(xùn)練”以執(zhí)行這些任務(wù)。

當(dāng)我們制作一個神經(jīng)網(wǎng)絡(luò)來區(qū)分貓和狗時,我們不需要有效地編寫一個程序,該程序明確地查找胡須; 相反,我們只展示了很多關(guān)于什么是貓和什么是狗的例子,然后讓網(wǎng)絡(luò)從中“機(jī)器學(xué)習(xí)”如何區(qū)分它們。

而且重要的是,訓(xùn)練后的網(wǎng)絡(luò)從所顯示的特定示例中“推廣”。就像我們上面看到的那樣,網(wǎng)絡(luò)并不僅僅是識別其顯示的示例貓圖像的特定像素模式; 而是神經(jīng)網(wǎng)絡(luò)以某種方式成功地基于我們認(rèn)為的某種“一般貓”的特征來區(qū)分圖像。

那么神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實際工作是如何進(jìn)行的呢?基本上,我們一直在嘗試找到使神經(jīng)網(wǎng)絡(luò)成功復(fù)制我們給出的示例的權(quán)重。然后我們依靠神經(jīng)網(wǎng)絡(luò)以一種“合理”的方式“插值”(或“推廣”)這些示例之間。

讓我們看一個比上面的最近點(diǎn)問題更簡單的問題。讓我們嘗試讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)以下函數(shù):

 

圖片

 

對于這個任務(wù),我們需要一個只有一個輸入和一個輸出的神經(jīng)網(wǎng)絡(luò),如下所示:

 

圖片

 

但是我們應(yīng)該使用什么權(quán)重?對于每個可能的權(quán)重集合,神經(jīng)網(wǎng)絡(luò)都會計算一些函數(shù)。例如,以下是使用幾組隨機(jī)選擇的權(quán)重計算出來的結(jié)果:

 

圖片

 

可以看到,基本沒有符合我們圖形的結(jié)果,那么我們到底如何找到能符合我們圖形的權(quán)重?

基本思想是提供大量的“輸入→輸出”示例供神經(jīng)網(wǎng)絡(luò)進(jìn)行“學(xué)習(xí)”,然后嘗試找到能夠重現(xiàn)這些示例的權(quán)重。下面是使用逐漸增加的示例進(jìn)行訓(xùn)練的結(jié)果:

 

圖片

 

到目前為止,我們一直在談?wù)?ldquo;已經(jīng)知道”如何執(zhí)行特定任務(wù)的神經(jīng)網(wǎng)絡(luò)。但神經(jīng)網(wǎng)絡(luò)如此有用的原因(在大腦中也是如此),不僅是因為它們原則上可以執(zhí)行各種任務(wù),而且還可以從示例中逐步“訓(xùn)練”以執(zhí)行這些任務(wù)。

當(dāng)我們制作一個神經(jīng)網(wǎng)絡(luò)來區(qū)分貓和狗時,我們不需要編寫一個(比如)顯式查找胡須的程序,而是展示許多關(guān)于什么是貓和什么是狗的示例,然后讓網(wǎng)絡(luò)從中“機(jī)器學(xué)習(xí)”如何區(qū)分它們。

關(guān)鍵是訓(xùn)練后的網(wǎng)絡(luò)從它所展示的特定示例中“泛化”。正如我們上面所看到的,神經(jīng)網(wǎng)絡(luò)不僅僅識別它所展示的示例貓圖像的特定像素模式;相反,神經(jīng)網(wǎng)絡(luò)以某種“一般的貓”的標(biāo)準(zhǔn)來區(qū)分圖像。

那么神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實際上是如何工作的呢?基本上,我們總是試圖找到使神經(jīng)網(wǎng)絡(luò)成功重現(xiàn)我們所給出示例的權(quán)重。然后,我們依賴神經(jīng)網(wǎng)絡(luò)以“合理的”方式在這些示例之間“插值”(或“泛化”)。

讓我們來看一個比上面最近點(diǎn)問題更簡單的問題。讓我們嘗試讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)函數(shù):

 

圖片

 

好的,我們要解釋的最后一個關(guān)鍵點(diǎn)是如何調(diào)整權(quán)重以減小損失函數(shù)。正如我們所說,損失函數(shù)給出了我們獲得的值和真實值之間的“距離”。但是“我們獲得的值”是由當(dāng)前版本的神經(jīng)網(wǎng)絡(luò)和其中的權(quán)重確定的。但是現(xiàn)在想象一下,權(quán)重是變量,比如wi。我們想找出如何調(diào)整這些變量的值以最小化依賴它們的損失。

例如,想象一下(極度簡化了實際使用的典型神經(jīng)網(wǎng)絡(luò)),我們只有兩個權(quán)重w1和w2。那么我們可能會有一個損失函數(shù),它關(guān)于w1和w2的函數(shù)如下:

 

圖片

 

數(shù)值分析提供了各種技術(shù)來在這種情況下找到最小值。但是典型的方法就是沿著從之前的 w1, w2 開始的最陡峭的路徑逐步前進(jìn):

 

圖片

 

就像水流下山一樣,這個過程只能保證最終會到達(dá)曲面的某個局部最小值(“山上的湖泊”),但不一定能夠到達(dá)最終的全局最小值。

在“權(quán)重空間”上找到最陡的下降路徑并不容易。但是,微積分可以解決這個問題。正如前面提到的那樣,我們可以將神經(jīng)網(wǎng)絡(luò)看作是計算一個依賴于其輸入和權(quán)重的數(shù)學(xué)函數(shù)。現(xiàn)在考慮對這些權(quán)重進(jìn)行微分。結(jié)果表明,微積分的鏈?zhǔn)椒▌t讓我們可以“展開”神經(jīng)網(wǎng)絡(luò)的逐層操作。結(jié)果是,至少在某種局部近似情況下,我們可以“反演”神經(jīng)網(wǎng)絡(luò)的操作,并逐步找到最小化與輸出相關(guān)聯(lián)的損失的權(quán)重。

上面的圖片展示了我們可能需要在僅有2個權(quán)重的不現(xiàn)實的簡單情況下進(jìn)行的最小化操作。但是,實際證明,即使有更多的權(quán)重(ChatGPT使用了1750億個),仍然可以進(jìn)行最小化,至少可以進(jìn)行一定程度的近似。事實上,“深度學(xué)習(xí)”在2011年左右的重大突破與發(fā)現(xiàn)有關(guān),即在某種程度上,涉及許多權(quán)重時近似最小化可能比涉及較少權(quán)重時更容易。

換句話說,有點(diǎn)出人意料的是,用神經(jīng)網(wǎng)絡(luò)解決更復(fù)雜的問題可能比解決更簡單的問題更容易。這種現(xiàn)象的粗略原因是,當(dāng)有許多“權(quán)重變量”時,就有了高維空間,有“許多不同的方向”可以引導(dǎo)人到達(dá)最小值,而如果變量較少,則更容易陷入局部最小值(“山湖”),從中沒有“擺脫的方向”。

值得指出的是,在典型情況下,有許多不同的權(quán)重集合可以給出基本相同性能的神經(jīng)網(wǎng)絡(luò)。通常,在實際的神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,會有許多隨機(jī)選擇,導(dǎo)致出現(xiàn)“不同但等效的解決方案”,如下所示:

 

圖片

 

但是,每個這樣的“不同解”都會有略微不同的行為。如果我們要求在我們提供訓(xùn)練示例的區(qū)域之外進(jìn)行“外推”,我們可能會得到截然不同的結(jié)果:

 

圖片

 

但是哪一個是“正確”的呢?實際上沒有辦法說。它們都“與觀測數(shù)據(jù)一致”。但它們都對應(yīng)于不同的“內(nèi)在”方式來“思考”如何在“盒子外面”進(jìn)行操作。有些可能對我們?nèi)祟悂碚f比其他的看起來更“合理”。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實踐

在過去的十年中,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練藝術(shù)有了很多進(jìn)展。而且,訓(xùn)練確實基本上是一門藝術(shù)。有時候-尤其是回顧時-人們可以看到至少一絲“科學(xué)解釋”是為了做某事。但是大多數(shù)情況下,這些技巧和想法是通過試錯發(fā)現(xiàn)的,逐步積累了許多有關(guān)如何使用神經(jīng)網(wǎng)絡(luò)的知識。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練有幾個關(guān)鍵部分。首先,有一個問題,即針對特定任務(wù)應(yīng)該使用什么神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。然后,關(guān)鍵問題是如何獲取用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)。越來越多的情況是,人們不再從頭開始訓(xùn)練網(wǎng)絡(luò):新網(wǎng)絡(luò)可以直接包含另一個已經(jīng)訓(xùn)練好的網(wǎng)絡(luò),或者至少可以使用該網(wǎng)絡(luò)為自己生成更多的訓(xùn)練樣例。

可能會認(rèn)為,對于每種特定的任務(wù),都需要不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。但是發(fā)現(xiàn)同一種結(jié)構(gòu)似乎經(jīng)常適用于看似完全不同的任務(wù)。在某種程度上,這讓人想起了通用計算的概念,但是,正如我稍后將討論的那樣,我認(rèn)為這更反映了我們通常試圖讓神經(jīng)網(wǎng)絡(luò)執(zhí)行“類似人類”的任務(wù)的事實,而神經(jīng)網(wǎng)絡(luò)可以捕捉相當(dāng)普遍的“類似人類過程”。

在神經(jīng)網(wǎng)絡(luò)的早期階段,人們傾向于認(rèn)為應(yīng)該“盡量讓神經(jīng)網(wǎng)絡(luò)做最少的事情”。例如,在將語音轉(zhuǎn)換為文本時,認(rèn)為應(yīng)該先分析語音,將其分解成音素等。但是發(fā)現(xiàn),對于“類似人類的任務(wù)”,通常最好只是嘗試訓(xùn)練神經(jīng)網(wǎng)絡(luò)解決“端到端問題”,讓它“發(fā)現(xiàn)”必要的中間特征、編碼等。

還有一種想法是將復(fù)雜的單個組件引入到神經(jīng)網(wǎng)絡(luò)中,以讓它實際上“明確實施特定的算法思想”。但是再次發(fā)現(xiàn),這通常不值得;相反,最好只處理非常簡單的組件,并讓它們“自組織”(盡管通常以我們無法理解的方式)以實現(xiàn)等效的算法思想。

這并不是說沒有適用于神經(jīng)網(wǎng)絡(luò)的“構(gòu)造性思想”。例如,在圖像處理的早期階段,具有局部連接的神經(jīng)元的2D陣列似乎非常有用。而且在“順序回顧”的連接模式下集中處理看起來也很有用-正如我們稍后將在ChatGPT中處理人類語言中看到的那樣。

但是神經(jīng)網(wǎng)絡(luò)的一個重要特征是,與計算機(jī)一樣,它們最終只是處理數(shù)據(jù)。現(xiàn)有的神經(jīng)網(wǎng)絡(luò)-以及當(dāng)前的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法-具體處理數(shù)字?jǐn)?shù)組。但是在處理過程中,這些數(shù)組可以完全重組和重塑。例如,我們用于識別上述數(shù)字的網(wǎng)絡(luò)從2D“類似圖像”的數(shù)組開始,迅速“加厚”到許多通道,但然后“集中到”一個1D數(shù)組中,該數(shù)組最終包含表示不同可能輸出數(shù)字的元素。

 

圖片

 

但是,如何確定一個特定任務(wù)需要多大的神經(jīng)網(wǎng)絡(luò)呢?這是一種藝術(shù)。在某種程度上,關(guān)鍵是知道“任務(wù)的難度”。但對于類似于人類的任務(wù)來說,通常很難估計。是的,可能有一種系統(tǒng)化的方法可以讓計算機(jī)非常“機(jī)械化”地完成任務(wù)。但是很難知道是否存在可以讓人們以更輕松的方式實現(xiàn)“類人級別”的技巧或捷徑。可能需要列舉一個巨大的博弈樹來“機(jī)械化”地玩某個游戲;但是可能有一種更容易(“啟發(fā)式”)實現(xiàn)“類人水平游戲”的方法。

當(dāng)處理微小的神經(jīng)網(wǎng)絡(luò)和簡單的任務(wù)時,有時可以明確地看到無法從這里到達(dá)目標(biāo)。例如,以下是使用一些小型神經(jīng)網(wǎng)絡(luò)完成上一節(jié)任務(wù)的最佳結(jié)果:

 

圖片

 

而且我們可以看到,如果網(wǎng)絡(luò)太小,它就無法重現(xiàn)我們想要的函數(shù)。但是在某個大小以上,它沒有問題——至少如果訓(xùn)練足夠長時間并且使用足夠多的示例。順便提一下,這些圖片說明了神經(jīng)網(wǎng)絡(luò)傳說中的一件事情:如果中間有一個“擠壓”,強(qiáng)制所有東西都通過較少的中間神經(jīng)元,通常可以用更小的網(wǎng)絡(luò)來實現(xiàn)同樣的效果。(值得一提的是,“無中間層”或所謂的“感知器”網(wǎng)絡(luò)只能學(xué)習(xí)基本上是線性的函數(shù)——但只要有一個中間層,理論上就總是可以任意好地逼近任何函數(shù),至少如果有足夠多的神經(jīng)元,盡管為了使其可行地訓(xùn)練,通常需要一些正則化或規(guī)范化技巧。)

好的,假設(shè)我們已經(jīng)選擇了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。現(xiàn)在的問題是如何獲取用于訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)。許多關(guān)于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的實際挑戰(zhàn)都集中在獲取或準(zhǔn)備必要的訓(xùn)練數(shù)據(jù)上。在許多情況下(“監(jiān)督學(xué)習(xí)”),我們希望獲取輸入的明確示例以及預(yù)期的輸出。例如,我們可能希望標(biāo)記圖像中包含的內(nèi)容或某些其他屬性。可能需要通過付出巨大的努力明確地進(jìn)行打標(biāo)簽。但通常情況下,發(fā)現(xiàn)可以利用已經(jīng)完成的事情作為訓(xùn)練集的標(biāo)簽,例如,可以使用Web上提供的alt標(biāo)簽來標(biāo)記圖像。或者在不同的領(lǐng)域中,可以使用為視頻創(chuàng)建的字幕。或者對于語言翻譯訓(xùn)練,可以使用存在于不同語言中的網(wǎng)頁或其他文檔的平行版本。

需要多少數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)以完成特定任務(wù)?同樣地,從基本原理上估計很困難。通過使用“轉(zhuǎn)移學(xué)習(xí)”/"預(yù)訓(xùn)練"將已經(jīng)在另一個網(wǎng)絡(luò)中學(xué)習(xí)的重要特征列表“轉(zhuǎn)移進(jìn)來”,可以大大減少要求。但是通常神經(jīng)網(wǎng)絡(luò)需要“看到很多例子”才能訓(xùn)練得好。至少對于某些任務(wù)而言,神經(jīng)網(wǎng)絡(luò)需要的示例可以是極其重復(fù)的。實際上,一種標(biāo)準(zhǔn)的策略就是反復(fù)地向神經(jīng)網(wǎng)絡(luò)展示所有的示例。在每個“訓(xùn)練輪次”中,神經(jīng)網(wǎng)絡(luò)都會處于至少稍微不同的狀態(tài),某種程度上“提醒它”特定的示例有助于它“記住那個示例”。(是的,也許這類似于人類記憶中重復(fù)的有用性。)

通常,只是反復(fù)重復(fù)相同的例子是不夠的。還需要向神經(jīng)網(wǎng)絡(luò)展示示例的變化。神經(jīng)網(wǎng)絡(luò)的特征是,這些“數(shù)據(jù)增強(qiáng)”變化并不需要很復(fù)雜就可以發(fā)揮作用。只需使用基本圖像處理輕微修改圖像即可使其對神經(jīng)網(wǎng)絡(luò)訓(xùn)練基本“同樣有效”。同樣地,當(dāng)用于自動駕駛汽車的實際視頻等數(shù)據(jù)用盡時,可以繼續(xù)在類似于模擬視頻游戲的環(huán)境中運(yùn)行模擬,并獲得數(shù)據(jù),而不需要所有實際場景的細(xì)節(jié)。

ChatGPT是如何訓(xùn)練的呢?它有一個很好的特點(diǎn),它可以進(jìn)行“無監(jiān)督學(xué)習(xí)”,這使得訓(xùn)練樣本的獲取變得更加容易。回想一下,ChatGPT的基本任務(wù)是找出如何繼續(xù)給定的一段文本。因此,要獲取它的“訓(xùn)練樣本”,我們只需獲得一段文本,然后將其結(jié)尾部分遮蓋,這就成為了“訓(xùn)練輸入”——“輸出”則是完整的、未被遮蓋的文本。我們稍后會詳細(xì)討論這個問題,但主要的一點(diǎn)是:與學(xué)習(xí)圖像內(nèi)容所需的“顯式標(biāo)記”不同,ChatGPT實際上可以直接從它所得到的文本樣本中進(jìn)行學(xué)習(xí)。

好的,那么神經(jīng)網(wǎng)絡(luò)中的實際學(xué)習(xí)過程呢?歸根結(jié)底,它都是要確定哪些權(quán)重能最好地捕捉到已給定的訓(xùn)練示例。而有各種各樣的詳細(xì)選擇和“超參數(shù)設(shè)置”(因為權(quán)重可以被看作是“參數(shù)”)可以用來調(diào)整如何做到這一點(diǎn)。有不同的損失函數(shù)(平方和,絕對值和等)。有不同的損失最小化方法(每步在權(quán)重空間中移動多遠(yuǎn)等)。然后還有諸如每次顯示多少個“批次”示例來獲得每個連續(xù)估計的損失等問題。

但最終訓(xùn)練的整個過程可以通過觀察損失的逐步減少來描述:

 

圖片

 

但通常可以看到損失會一直下降一段時間,但最終會在某個常數(shù)值上趨于平穩(wěn)。如果該值足夠小,則可以認(rèn)為訓(xùn)練是成功的;否則,這可能表明應(yīng)嘗試更改網(wǎng)絡(luò)結(jié)構(gòu)。

人們能夠判斷“學(xué)習(xí)曲線”變平穩(wěn)需要多長時間嗎?像許多其他事情一樣,似乎存在依賴于所使用的神經(jīng)網(wǎng)絡(luò)大小和數(shù)據(jù)量的近似冪律縮放關(guān)系。但總的結(jié)論是訓(xùn)練神經(jīng)網(wǎng)絡(luò)很難,并且需要大量的計算功率。作為實際問題,絕大部分工作量用于對數(shù)字?jǐn)?shù)組進(jìn)行操作,這是GPU擅長的領(lǐng)域。這就是為什么神經(jīng)網(wǎng)絡(luò)訓(xùn)練通常受GPU的可用性限制的原因。

未來會有更基本的方法來訓(xùn)練神經(jīng)網(wǎng)絡(luò),或者說做神經(jīng)網(wǎng)絡(luò)的事情嗎?我認(rèn)為幾乎肯定會有。神經(jīng)網(wǎng)絡(luò)的基本思想是利用大量簡單(本質(zhì)上相同)的組件創(chuàng)建一個靈活的“計算結(jié)構(gòu)”,并讓這個“結(jié)構(gòu)”能夠通過增量修改來從示例中學(xué)習(xí)。在當(dāng)前的神經(jīng)網(wǎng)絡(luò)中,本質(zhì)上使用了微積分的思想 - 應(yīng)用于實數(shù),以進(jìn)行增量修改。但越來越清楚的是,擁有高精度數(shù)字并不重要;即使使用當(dāng)前的方法,8位或更少的位數(shù)可能足夠。

神經(jīng)網(wǎng)絡(luò)——也許有點(diǎn)像大腦——被設(shè)置為具有基本固定的神經(jīng)元網(wǎng)絡(luò),其中被修改的是它們之間連接的強(qiáng)度(“權(quán)重”)。(或許在至少年輕的大腦中,還有可能增加相當(dāng)數(shù)量的全新連接)。但雖然這可能是生物學(xué)上的一個便利設(shè)置,但它顯然離實現(xiàn)我們所需的功能最好的方式還有很遠(yuǎn)的路要走。而且可能會涉及相當(dāng)于漸進(jìn)網(wǎng)絡(luò)重寫的東西(也許類似于我們的物理項目),最終可能會更好。

但是,即使在現(xiàn)有神經(jīng)網(wǎng)絡(luò)的框架內(nèi),目前還存在一個關(guān)鍵限制:神經(jīng)網(wǎng)絡(luò)訓(xùn)練目前是根本順序的,即每批示例的影響都被傳播回來以更新權(quán)重。實際上,即使考慮了GPU,也是這樣的計算機(jī)硬件的大部分時間都處于“閑置”狀態(tài),只有一部分在更新時才處于活動狀態(tài)。從某種意義上說,這是因為我們當(dāng)前的計算機(jī)傾向于具有與CPU(或GPU)分離的內(nèi)存。但在大腦中,情況可能不同——每個“存儲單元”(即神經(jīng)元)也是一個潛在的活動計算元素。如果我們能夠這樣設(shè)計未來的計算機(jī)硬件,可能就可以更有效地進(jìn)行訓(xùn)練。

“大的足夠的神經(jīng)網(wǎng)絡(luò)一定可以做任何事情!”

像ChatGPT這樣的東西的能力非常令人印象深刻,以至于人們可能會想象,如果能夠不斷訓(xùn)練更大的神經(jīng)網(wǎng)絡(luò),那么它們最終將能夠“做任何事情”。如果關(guān)心的是對人類思維直接可見的事物,這種可能性是相當(dāng)大的。但是過去幾百年科學(xué)的教訓(xùn)是,有些可以通過形式過程得出的東西,但對人類思維不易獲得。

非平凡數(shù)學(xué)就是一個很好的例子。但是一般情況是計算。最終問題在于計算的不可約性現(xiàn)象。有些計算似乎需要很多步驟才能完成,但實際上可以“縮減”成非常直接的過程。但計算不可約性的發(fā)現(xiàn)意味著這種情況并不總是成立。相反,存在一些過程,可能像下面的過程一樣,必須基本上追蹤每個計算步驟才能弄清發(fā)生了什么:

 

圖片

 

我們通常使用大腦進(jìn)行的事情可能是有選擇地避免計算不可約的。人們需要特別的努力才能在腦中進(jìn)行數(shù)學(xué)運(yùn)算。在實踐中,僅憑人腦“思考”非平凡程序操作的每個步驟幾乎是不可能的。

但當(dāng)然,我們有計算機(jī)。使用計算機(jī),我們可以輕松地進(jìn)行長時間的計算不可約的事情。關(guān)鍵是,這些通常沒有捷徑。

是的,我們可以記住許多特定的計算系統(tǒng)示例。或許我們甚至可以看到一些(“計算可約”)模式,從而能夠進(jìn)行一些泛化。但是,計算不可約意味著我們永遠(yuǎn)不能保證不會出現(xiàn)意外情況,只有通過顯式計算才能了解每種特定情況的真實情況。

最終,學(xué)習(xí)和計算不可約之間存在根本性的張力。學(xué)習(xí)實際上是通過利用規(guī)律壓縮數(shù)據(jù)。但計算不可約意味著最終規(guī)律性存在局限性。

作為實際問題,人們可以想象將小型計算設(shè)備(如元胞自動機(jī)或圖靈機(jī))構(gòu)建到可訓(xùn)練系統(tǒng)(如神經(jīng)網(wǎng)絡(luò))中。事實上,這樣的設(shè)備可以作為神經(jīng)網(wǎng)絡(luò)的良好“工具", 但是計算不可簡約性意味著我們不能指望“深入”這些設(shè)備并使其學(xué)習(xí)。

換句話說,能力和可訓(xùn)練性之間存在根本的權(quán)衡:你越想讓系統(tǒng)真正利用其計算能力,它就會越表現(xiàn)出計算不可簡約性,就越難以訓(xùn)練。而它越是基本可訓(xùn)練,就越難以進(jìn)行復(fù)雜的計算。

(對于當(dāng)前的 ChatGPT,情況實際上要更加極端,因為用于生成每個輸出令牌的神經(jīng)網(wǎng)絡(luò)是一個純“前饋”網(wǎng)絡(luò),沒有循環(huán),因此無法使用非平凡的“控制流”進(jìn)行任何計算。)

當(dāng)然,人們可能會想知道是否重要能夠進(jìn)行不可簡約的計算。事實上,在人類歷史的大部分時間里,這并不特別重要。但是我們現(xiàn)代的技術(shù)世界是建立在利用至少數(shù)學(xué)計算(越來越多地包括更一般的計算)的工程學(xué)上的。如果我們看看自然界,它充滿了不可簡約的計算,我們正在慢慢理解如何模擬和利用它們用于我們的技術(shù)目的。

沒錯,神經(jīng)網(wǎng)絡(luò)當(dāng)然可以注意到自然世界中的那些規(guī)律,這些規(guī)律我們也可以很容易地用“非輔助人類思維”注意到。但是,如果我們想解決數(shù)學(xué)或計算科學(xué)的問題,除非神經(jīng)網(wǎng)絡(luò)有效地“使用”一個“普通”的計算系統(tǒng),否則它無法完成這些任務(wù)。

但是,所有這些都有一些潛在的混淆。過去有很多任務(wù),包括寫作文,我們認(rèn)為計算機(jī)在根本上無法完成。現(xiàn)在我們看到像ChatGPT這樣的東西完成了這些任務(wù),我們傾向于突然認(rèn)為計算機(jī)一定變得更加強(qiáng)大了——特別是超越了它們已經(jīng)基本能夠做到的事情(比如漸進(jìn)式地計算細(xì)胞自動機(jī)等計算系統(tǒng)的行為)。

但這不是正確的結(jié)論。計算不可化簡過程仍然是計算不可化簡的,對于計算機(jī)來說仍然是基本困難的,即使計算機(jī)可以輕松計算它們的各個步驟。相反,我們應(yīng)該得出結(jié)論:我們?nèi)祟惸軌蜃龅降娜蝿?wù)(例如寫作文),但我們認(rèn)為計算機(jī)無法完成的任務(wù),在某種意義上實際上比我們想象的更容易計算。

換句話說,神經(jīng)網(wǎng)絡(luò)之所以能夠成功地寫出一篇文章,是因為寫文章的問題在某種意義上比我們想象的更為“淺顯易懂”。從某種意義上說,這使我們更接近“擁有一個理論”,解釋我們?nèi)祟惾绾瓮瓿芍T如寫作等任務(wù),或者如何處理語言。

如果你有一個足夠大的神經(jīng)網(wǎng)絡(luò),那么你可能能夠做到人類能夠輕松完成的任何事情。但你不會捕捉到自然界總體上所能做到的事情——或者我們從自然界中塑造出來的工具所能做到的事情。正是這些工具——實際上的和概念上的——使我們在近幾個世紀(jì)內(nèi)超越了“純粹不受幫助的人類思維”所能接觸到的邊界,并為人類目的捕捉到更多存在于物理和計算宇宙中的東西。

嵌入層 Embeddings 概念

神經(jīng)網(wǎng)絡(luò)——至少目前的神經(jīng)網(wǎng)絡(luò)——基本上是基于數(shù)字的。因此,如果我們要使用它們來處理文本之類的內(nèi)容,我們需要一種用數(shù)字表示文本的方法。當(dāng)然,我們可以(就像ChatGPT那樣)從字典中為每個單詞分配一個數(shù)字。但有一個重要的想法——例如對于ChatGPT來說非常重要——超越了這一點(diǎn)。這就是“嵌入”(embedding)的概念。可以將嵌入看作是通過一組數(shù)字來嘗試表示某物的“本質(zhì)”,并具有“附近的事物”由相鄰數(shù)字表示的屬性。

例如,我們可以將單詞嵌入看作是試圖在“意義空間”中排列單詞,使得在嵌入中彼此“含義相似”的單詞彼此相鄰。實際使用的嵌入(例如在ChatGPT中)通常涉及大量數(shù)字的列表。但是,如果我們將其投影到二維空間中,就可以展示單詞如何通過嵌入進(jìn)行排列:

 

圖片

 

沒錯,我們看到這樣的嵌入在捕捉典型的日常印象方面表現(xiàn)得非常出色。但是我們?nèi)绾螛?gòu)建這樣的嵌入?粗略地說,這個想法是查看大量文本(這里是來自網(wǎng)絡(luò)的50億個單詞),然后看不同單詞出現(xiàn)在其中的“環(huán)境”有多相似。因此,例如,“alligator”(鱷魚)和“crocodile”(鱷魚的另一種寫法)經(jīng)常幾乎可以互換地出現(xiàn)在其他類似的句子中,這意味著它們將在嵌入中附近放置。但是,“turnip”(蘿卜)和“eagle”(老鷹)不會在其他類似的句子中出現(xiàn),因此它們將在嵌入中遠(yuǎn)離放置。

但是,如何使用神經(jīng)網(wǎng)絡(luò)實際實現(xiàn)這樣的嵌入呢?讓我們先討論不是單詞而是圖像的嵌入。我們希望找到一種方法,通過數(shù)字列表來表征圖像,使得“我們認(rèn)為相似的圖像”被分配類似的數(shù)字列表。

我們?nèi)绾闻袛嗍欠駪?yīng)該“認(rèn)為圖像相似”?好吧,如果我們的圖像是手寫數(shù)字的圖像,如果它們是相同的數(shù)字,我們可能會“認(rèn)為兩個圖像相似”。早些時候我們討論過一個神經(jīng)網(wǎng)絡(luò),它被訓(xùn)練來識別手寫數(shù)字。我們可以將這個神經(jīng)網(wǎng)絡(luò)看作是設(shè)置在其最終輸出中將圖像放入10個不同的箱中的神經(jīng)網(wǎng)絡(luò),每個箱子代表一個數(shù)字。

 

圖片

 

在開始時,我們將實際圖像饋送到第一層,由像素值的二維數(shù)組表示。最后——從最后一層我們得到一個包含10個值的數(shù)組,我們可以認(rèn)為它表示網(wǎng)絡(luò)對圖像對應(yīng)于數(shù)字0到9的“確定性”。

輸入圖像 :

 

圖片

 

那么最后一層神經(jīng)元的值為:

 

圖片

 

但是如果我們再往前看一步呢?網(wǎng)絡(luò)的最后一個操作是一個所謂的softmax函數(shù),它試圖"強(qiáng)制確定"。但在應(yīng)用它之前,神經(jīng)元的值是:

 

圖片

 

表示“4”的神經(jīng)元仍然具有最高的數(shù)值。但是其他神經(jīng)元的值中也包含了信息。我們可以預(yù)期,這個數(shù)字列表可以用某種方式來描述圖像的“本質(zhì)”,從而提供我們可以用作嵌入的東西。例如,這里的每個4都有略微不同的“特征嵌入”或“特征簽名”,與8完全不同:

 

圖片

 

我們基本上是用10個數(shù)字來描述圖像特征。但使用更多的數(shù)字通常更好。例如,在我們的數(shù)字識別網(wǎng)絡(luò)中,我們可以通過接入前面的層獲得一個包含500個數(shù)字的數(shù)組。這可能是一個合理的“圖像嵌入”數(shù)組。

如果我們想要對手寫數(shù)字的“圖像空間”進(jìn)行明確的可視化,我們需要通過將我們獲得的500維向量投影到三維空間中來“減少維度”。

 

圖片

 

我們剛才討論了如何創(chuàng)建一種圖像的特征化(從而得到Embedding),基本上是通過確定(根據(jù)我們的訓(xùn)練集)它們是否對應(yīng)于相同的手寫數(shù)字來確定圖像的相似性。如果我們有一個標(biāo)識出每個圖像是哪個常見對象(貓、狗、椅子等)的訓(xùn)練集,我們可以更普遍地為圖像做同樣的事情。通過這種方式,我們可以創(chuàng)建一個圖像Embedding,該Embedding通過我們對常見對象的識別進(jìn)行“錨定”,但然后根據(jù)神經(jīng)網(wǎng)絡(luò)的行為“泛化”。關(guān)鍵是,只要該行為與我們?nèi)祟惛兄徒忉寛D像的方式一致,這將最終成為一種“看起來正確”的嵌入,對于執(zhí)行“類似于人類判斷”的任務(wù)實際上是有用的。

那么我們?nèi)绾巫裱瑯拥姆椒▉碚业絾卧~的Embedding呢?關(guān)鍵是從一個關(guān)于單詞的任務(wù)開始,我們可以很容易地進(jìn)行訓(xùn)練。標(biāo)準(zhǔn)的這樣的任務(wù)是“單詞預(yù)測”。想象一下,我們得到了“the ___ cat”。基于大量的文本語料庫(比如網(wǎng)頁的文本內(nèi)容),可能有哪些單詞“填空”呢?或者,給定“___ black ___”,不同“側(cè)翼單詞”的概率是什么?

我們?nèi)绾螢閱卧~創(chuàng)建嵌入呢?關(guān)鍵是從一個關(guān)于單詞的任務(wù)開始,這個任務(wù)可以很容易地進(jìn)行訓(xùn)練。標(biāo)準(zhǔn)的這種任務(wù)是“單詞預(yù)測”。想象一下,我們被給出“the ___ cat”。根據(jù)大量的文本語料庫(比如網(wǎng)絡(luò)內(nèi)容),哪些單詞“填空”最有可能呢?或者換句話說,給定“___ black ___”,不同“flanking words”的概率是多少?

我們?nèi)绾螢樯窠?jīng)網(wǎng)絡(luò)設(shè)置這個問題?最終,我們必須用數(shù)字來表達(dá)一切。一種方法是為英語中的每個大約50,000個常見單詞分配一個唯一的數(shù)字。因此,“the”可能是914,“ cat”(前面有一個空格)可能是3542。(這些是GPT-2實際使用的數(shù)字。)因此,在“the ___ cat”問題中,我們的輸入可能是{914, 3542}。輸出應(yīng)該是一個由大約50,000個數(shù)字組成的列表,這些數(shù)字有效地給出了每個可能的“填充”單詞的概率。為了找到嵌入,我們要“截取”神經(jīng)網(wǎng)絡(luò)“達(dá)到結(jié)論之前”的“內(nèi)部” - 然后獲取發(fā)生在那里的數(shù)字列表,我們可以認(rèn)為它們“描述每個單詞”。

那么這些特征長什么樣呢?在過去的10年中,已經(jīng)開發(fā)出了一系列不同的系統(tǒng)(例如word2vec,GloVe,BERT,GPT等),每個系統(tǒng)都基于不同的神經(jīng)網(wǎng)絡(luò)方法。但最終,它們都采用了將單詞用由幾百到幾千個數(shù)字組成的列表來描述的方法。

在它們的原始形式中,這些“Embedding向量”并不具備信息性。例如,這是 GPT-2 為三個特定單詞生成的原始嵌入向量:

 

圖片

 

(本文由公眾號Python/ target=_blank class=infotextkey>Python實用寶典翻譯)

如果我們進(jìn)行像測量這些向量之間的距離這樣的事情,那么我們可以找到單詞的“接近程度”。稍后我們將更詳細(xì)地討論這種Embedding的“認(rèn)知”意義。但現(xiàn)在主要的觀點(diǎn)是,我們有一種有用的方式將單詞轉(zhuǎn)化為“神經(jīng)網(wǎng)絡(luò)友好”的數(shù)字集合。

但實際上我們可以進(jìn)一步將單詞序列或整個文本塊用這種方式進(jìn)行表征。而ChatGPT內(nèi)部也是這樣處理的。它會將其目前所擁有的文本轉(zhuǎn)化為一個嵌入向量來表示它。然后它的目標(biāo)是找到可能出現(xiàn)的不同單詞的概率。它會將其答案表示為一系列數(shù)字,這些數(shù)字本質(zhì)上給出了每個可能單詞的概率,大約有50,000個左右。

(嚴(yán)格來說,ChatGPT不僅處理單詞,還會處理類似于“詞根”的東西,后文我們把這個東西叫做標(biāo)記(token)。使用標(biāo)記使ChatGPT更容易處理罕見的、復(fù)合的和非英語單詞,并且有時可以創(chuàng)造新單詞,有利有弊。)

ChatGPT的原理

好的,我們終于準(zhǔn)備好討論 ChatGPT 的內(nèi)部了。實際上,它最終是一個巨大的神經(jīng)網(wǎng)絡(luò),目前是一個帶有 1750 億個權(quán)重的所謂 GPT-3 網(wǎng)絡(luò)版本。在許多方面,這是一個與我們討論過的其他神經(jīng)網(wǎng)絡(luò)非常相似的神經(jīng)網(wǎng)絡(luò)。但它是一個特別為處理語言而設(shè)置的神經(jīng)網(wǎng)絡(luò),其最顯著的特征是一個名為“transformer”的神經(jīng)網(wǎng)絡(luò)架構(gòu)。

在我們上面討論的第一個神經(jīng)網(wǎng)絡(luò)中,每個神經(jīng)元在任何給定層上基本上都與前一層的每個神經(jīng)元(至少以某種權(quán)重)連接。但是,如果處理具有特定已知結(jié)構(gòu)的數(shù)據(jù),這種全連接的網(wǎng)絡(luò)(大概)可能是過度的。因此,例如,在處理圖像的早期階段,通常使用所謂的卷積神經(jīng)網(wǎng)絡(luò)(“con.NETs”),其中神經(jīng)元實際上排列在類似于圖像中的像素的網(wǎng)格上,僅與網(wǎng)格上附近的神經(jīng)元相連接。

transformer 的想法是對組成文本的標(biāo)記序列做類似的事情。但是,transformer 并不僅僅是定義了一個在序列中可以存在連接的固定區(qū)域,而是引入了“注意力”的概念,并且有時“更多關(guān)注”序列的某些部分。也許有一天,只需啟動通用神經(jīng)網(wǎng)絡(luò)并通過訓(xùn)練進(jìn)行所有定制就會有意義。但是至少到目前為止,在實踐中將事物“模塊化”似乎至關(guān)重要,正如 transformers 所做的那樣,也可能是我們的大腦所做的那樣。

好的,那么ChatGPT(或者說它基于的GPT-3網(wǎng)絡(luò))到底是做什么的呢?回想一下,它的總體目標(biāo)是根據(jù)它從訓(xùn)練數(shù)據(jù)(即來自網(wǎng)絡(luò)等的數(shù)十億頁文本)中所看到的內(nèi)容,合理地"繼續(xù)"文本。因此,在任何給定時刻,它都有一定量的文本——它的目標(biāo)是選擇一個適當(dāng)?shù)南乱粋€token來添加。

它分為三個基本階段。首先,它獲取與到目前為止的文本相對應(yīng)的標(biāo)記序列,并找到表示這些標(biāo)記的embedding(即一組數(shù)字)。然后,它在這個embedding上進(jìn)行操作——以“標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)方式”,值會“漣漪”到網(wǎng)絡(luò)的連續(xù)層中,以生成一個新的embedding(即一個新的數(shù)字?jǐn)?shù)組)。然后,它取這個數(shù)組的最后一部分,并從中生成一個大約包含50,000個值的數(shù)組,這些值會轉(zhuǎn)化為不同可能的下一個標(biāo)記的概率。(是的,碰巧標(biāo)記的數(shù)量與英語中常用單詞的數(shù)量大致相同,盡管只有大約3000個標(biāo)記是整個單詞,其余都是片段。)

關(guān)鍵點(diǎn)在于,這個管道的每個部分都由神經(jīng)網(wǎng)絡(luò)實現(xiàn),其權(quán)重是通過端到端訓(xùn)練網(wǎng)絡(luò)確定的。換句話說,實際上除了整體架構(gòu)外,沒有任何部分是“明確設(shè)計”的;一切都是從訓(xùn)練數(shù)據(jù)中“學(xué)習(xí)”的。

然而,在架構(gòu)設(shè)置方面有很多細(xì)節(jié)——反映了各種經(jīng)驗和神經(jīng)網(wǎng)絡(luò)知識。雖然這肯定會很深入細(xì)節(jié),但我認(rèn)為討論一些這些細(xì)節(jié)是有用的,至少可以讓人們了解構(gòu)建ChatGPT這樣的東西需要哪些內(nèi)容。首先是嵌入模塊。以下是GPT-2的一個草圖表示:

 

圖片

 

輸入是一個由n個標(biāo)記組成的向量(如前一節(jié)所述,表示為從1到約50,000的整數(shù))。其中每個標(biāo)記通過一個單層神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為一個嵌入向量(對于GPT-2長度為768,對于ChatGPT的GPT-3長度為12,288)。同時,還有一個“次要路徑”,它獲取標(biāo)記的(整數(shù))位置序列,并從這些整數(shù)創(chuàng)建另一個嵌入向量。最后,標(biāo)記值和標(biāo)記位置的嵌入向量被加在一起,以生成來自嵌入模塊的最終嵌入向量序列。

為什么要將標(biāo)記值和標(biāo)記位置嵌入向量加在一起呢?我認(rèn)為這并沒有特定的科學(xué)依據(jù)。只是嘗試了各種不同的方法,這種方法似乎是有效的。并且神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)認(rèn)為,在某種程度上,只要設(shè)置大致正確,通常可以通過進(jìn)行足夠的訓(xùn)練來精細(xì)調(diào)整細(xì)節(jié),而無需真正理解神經(jīng)網(wǎng)絡(luò)是如何配置自己的。

這是Embedding模塊對字符串"hello hello hello hello hello hello hello hello hello hello bye bye bye bye bye bye bye bye bye bye"的操作:

 

圖片

 

好的,在Embdding模塊之后是transformer的“主要事件”:所謂的“注意力塊”序列(對于GPT-2為12個,對于ChatGPT的GPT-3為96個)。這一切相當(dāng)復(fù)雜,讓人想起典型的大型難以理解的工程系統(tǒng)或生物系統(tǒng)。但無論如何,這里是單個“注意力塊”的原理圖(適用于GPT-2):

 

圖片

 

在每個這樣的注意力塊中,都有一組“注意力頭”(對于GPT-2來說是12個,對于ChatGPT的GPT-3來說是96個),每個頭獨(dú)立地操作嵌入向量中不同的值塊。(是的,我們不知道將嵌入向量拆分為若干部分的好處,或者不同部分的含義是什么;這只是那些“被發(fā)現(xiàn)有效”的東西之一。)

那么這些注意力頭具體做什么呢?基本上它們是一種“回顧”標(biāo)記序列的方式(即回顧到迄今為止已生成的文本),并將“過去的信息”以一種對查找下一個標(biāo)記有用的方式打包起來。在上面的第一部分中,我們談到了使用二元概率來選擇基于其直接前驅(qū)的單詞。Transformer中的“注意力”機(jī)制允許“注意力”甚至回到更早的單詞,從而可能捕捉動詞可以引用在句子中出現(xiàn)在它們前面的名詞的方式,等等。

更詳細(xì)地說,注意力頭所做的是重新組合與不同標(biāo)記相關(guān)聯(lián)的嵌入向量的塊,并賦予一定的權(quán)重。因此,例如,在第一個注意力塊(GPT-2中)中的12個注意力頭中,對于上述“hello,bye”字符串,具有以下(“回顧到標(biāo)記序列開頭”)“重新組合權(quán)重”的模式:

 

圖片

 

在通過注意力頭處理后,結(jié)果的“重新加權(quán)嵌入向量”(GPT-2的長度為768,ChatGPT的GPT-3的長度為12,288)被傳遞到一個標(biāo)準(zhǔn)的“全連接”神經(jīng)網(wǎng)絡(luò)層。很難掌握這個層正在做什么。但是這里有一個使用它的768×768權(quán)重矩陣的繪圖(這里是針對GPT-2):

 

圖片

 

通過64×64移動平均處理,一些(隨機(jī)游走的)結(jié)構(gòu)開始出現(xiàn):

 

圖片

 

什么決定了這個結(jié)構(gòu)?最終,這可能是人類語言特征的“神經(jīng)網(wǎng)絡(luò)編碼”。但是,就目前而言,這些特征可能是相當(dāng)未知的。實際上,我們正在“打開ChatGPT的大腦”(或者至少是GPT-2),發(fā)現(xiàn)了一些繁瑣的內(nèi)容,而我們并不理解,即使最終它產(chǎn)生了可識別的人類語言。

好的,在經(jīng)過一個注意力塊之后,我們得到了一個新的嵌入向量,然后連續(xù)地通過附加的注意塊進(jìn)行傳遞(GPT-2總共有12個;GPT-3有96個)。每個注意塊都有自己特定的“關(guān)注”和“完全連接”權(quán)重模式。這是GPT-2的第一個注意頭的“hello,bye”輸入序列的注意權(quán)重序列:

 

圖片

 

以下是全連接層的(移動平均后的)“矩陣”:

 

圖片

 

有趣的是,即使在不同的attention block中,這些“權(quán)重矩陣”看起來相似,權(quán)重大小的分布也可能有所不同(而且并不總是高斯分布)。

 

圖片

 

那么,經(jīng)過所有這些注意力塊之后,轉(zhuǎn)換器的凈效應(yīng)是什么呢?實質(zhì)上,它將標(biāo)記序列的原始嵌入集合轉(zhuǎn)換為最終集合。ChatGPT 的特定工作方式是選擇此集合中的最后一個嵌入,并“解碼”它以產(chǎn)生下一個標(biāo)記應(yīng)該是什么的概率列表。

這就是 ChatGPT 內(nèi)部的概述。它可能看起來很復(fù)雜(尤其是因為它有許多不可避免的有點(diǎn)隨意的“工程選擇”),但實際上所涉及的最終元素非常簡單。因為最終我們所處理的只是一個由“人造神經(jīng)元”構(gòu)成的神經(jīng)網(wǎng)絡(luò),每個神經(jīng)元都執(zhí)行將一組數(shù)字輸入與某些權(quán)重結(jié)合的簡單操作。

ChatGPT的原始輸入是一個數(shù)字?jǐn)?shù)組,即迄今為止標(biāo)記的嵌入(Embedding)向量。當(dāng)ChatGPT“運(yùn)行”以產(chǎn)生新的標(biāo)記時,這些數(shù)字會“漣漪”通過神經(jīng)網(wǎng)絡(luò)的層,每個神經(jīng)元“執(zhí)行其任務(wù)”并將結(jié)果傳遞給下一層的神經(jīng)元。沒有循環(huán)或“回溯”。一切都只是通過網(wǎng)絡(luò)“前饋”。

這與典型的計算系統(tǒng)(如圖靈機(jī))非常不同,在這種系統(tǒng)中,結(jié)果會被同一計算元素重復(fù)“重新處理”。在這里,至少在生成給定輸出標(biāo)記方面,每個計算元素(即神經(jīng)元)僅使用一次。

但從某種程度上來說,即使在ChatGPT中,仍然存在一種在計算元素之間重復(fù)使用的“外部循環(huán)”。因為當(dāng)ChatGPT準(zhǔn)備生成一個新的標(biāo)記時,它總是“讀取”(即將其作為輸入)在其之前出現(xiàn)的所有標(biāo)記序列,包括ChatGPT自己先前“寫入”的標(biāo)記。我們可以認(rèn)為這種設(shè)置意味著ChatGPT至少在其最外層級別上涉及一個“反饋循環(huán)”,盡管每次迭代都明確可見為在其生成的文本中出現(xiàn)的標(biāo)記。

但讓我們回到ChatGPT的核心:被重復(fù)使用以生成每個標(biāo)記的神經(jīng)網(wǎng)絡(luò)。在某種程度上,它非常簡單:是一整個相同人工神經(jīng)元的集合。網(wǎng)絡(luò)的某些部分只包含(“全連接”)神經(jīng)元層,其中每個給定層上的神經(jīng)元都與前一層上的每個神經(jīng)元連接(具有一定的權(quán)重)。但特別是在其Transformer體系結(jié)構(gòu)中,ChatGPT具有更多結(jié)構(gòu)的部分,其中僅在不同層上的特定神經(jīng)元相連接。(當(dāng)然,仍然可以說“所有神經(jīng)元都相連”——但有些只有零權(quán)重。)

此外,ChatGPT中的神經(jīng)網(wǎng)絡(luò)還有一些方面不太容易被認(rèn)為只包含“同質(zhì)”的層。例如,正如上面的標(biāo)志性摘要所示,在attention block中,會有“復(fù)制多個副本”的地方,每個副本都會經(jīng)過不同的“處理路徑”,可能涉及不同數(shù)量的層,并在稍后重新組合。但雖然這可能是對正在發(fā)生的事情的一種方便的表示,但在原則上總是可以認(rèn)為是“密集填充”層,只是有一些權(quán)重為零。

如果觀察ChatGPT中最長的路徑,涉及大約400個(核心)層-在某些方面并不是很多。但有數(shù)百萬個神經(jīng)元,共計1750億個連接,因此有1750億個權(quán)重。一個要意識到的事情是,每次ChatGPT生成一個新的標(biāo)記時,都必須進(jìn)行涉及到每個權(quán)重的計算。在實現(xiàn)上,這些計算可以通過高度并行的數(shù)組操作“按層”有序地組織在GPU上完成。但對于每個生成的標(biāo)記,仍然必須執(zhí)行1750億個計算(最后還要多一點(diǎn))-因此,毫不奇怪,使用ChatGPT生成一篇長文本可能需要一段時間。

但最終,值得注意的是,所有這些操作,盡管它們各自都很簡單,但總能一起完成如此出色的“類人”文本生成工作。必須再次強(qiáng)調(diào)的是,(至少就我們目前所知),沒有“最終的理論原因”說明為什么類似于ChatGPT的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠工作。實際上,正如我們將要討論的,我認(rèn)為我們必須將其視為一項潛在驚人的科學(xué)發(fā)現(xiàn):在像ChatGPT這樣的神經(jīng)網(wǎng)絡(luò)中,某種程度上可以捕捉到人類大腦在生成語言方面所能做到的本質(zhì)。

ChatGPT的訓(xùn)

好的,現(xiàn)在我們概述了ChatGPT被訓(xùn)練完成后的工作方式。但是它是如何訓(xùn)練的呢?所有那1750億個神經(jīng)網(wǎng)絡(luò)權(quán)重是如何確定的?基本上,它們是通過基于人類撰寫的大量文本語料庫(網(wǎng)絡(luò)、書籍等)進(jìn)行的大規(guī)模訓(xùn)練得出的結(jié)果。正如我們所說,即使給定所有這些訓(xùn)練數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)能夠成功地產(chǎn)生“類似人類”的文本也并不明顯。并且,再次強(qiáng)調(diào),似乎需要詳細(xì)的工程細(xì)節(jié)才能實現(xiàn)這一點(diǎn)。但是,ChatGPT的驚喜和發(fā)現(xiàn)是,這是可能的。實際上,“只有”1750億個權(quán)重的神經(jīng)網(wǎng)絡(luò)可以對人類寫作的文本進(jìn)行“合理的建模”。

ChatGPT訓(xùn)練的基本過程就像我們在上面簡單的例子中討論的那樣。你提供一批例子,然后調(diào)整網(wǎng)絡(luò)中的權(quán)重以最小化網(wǎng)絡(luò)在這些例子上的誤差("損失")。關(guān)于“反向傳播”的主要昂貴之處在于,每次執(zhí)行此操作時,網(wǎng)絡(luò)中的每個權(quán)重通常都會至少微調(diào)一點(diǎn),而要處理的權(quán)重數(shù)量就是非常龐大的。(實際的“反向計算”通常只比前向計算復(fù)雜一個小常數(shù)因子。)

通過現(xiàn)代 GPU 硬件,可以輕松并行計算數(shù)千個示例的結(jié)果。但是,當(dāng)涉及到實際更新神經(jīng)網(wǎng)絡(luò)中的權(quán)重時,當(dāng)前的方法需要基本上批量更新。(是的,這可能是實際大腦目前至少在體系結(jié)構(gòu)上具有優(yōu)勢的地方,因為它們具有結(jié)合計算和存儲元件。)

在我們之前討論過的學(xué)習(xí)數(shù)值函數(shù)的看似簡單的情況下,我們發(fā)現(xiàn)我們通常需要使用數(shù)百萬個示例來成功訓(xùn)練網(wǎng)絡(luò),至少是從頭開始。那么,為了訓(xùn)練一個“類人語言”的模型,我們需要多少個示例呢?似乎沒有任何根本的“理論”方法可以知道。但實際上,ChatGPT是在數(shù)千億個單詞的文本上成功訓(xùn)練的。

有些文本被多次輸入,有些文本只被輸入了一次。但是不知何故,它從它看到的文本中“得到了它所需要的”。但是,考慮到這么多文本要學(xué)習(xí),它需要多大的網(wǎng)絡(luò)才能“學(xué)得好”呢?同樣,我們還沒有一個根本的理論方法來回答這個問題。最終——正如我們將在下面進(jìn)一步討論的——人類語言及其通常使用的算法內(nèi)容可能具有某種“總算法內(nèi)容”。但是下一個問題是,神經(jīng)網(wǎng)絡(luò)在實現(xiàn)基于該算法內(nèi)容的模型時有多高效。同樣,我們不知道——盡管ChatGPT的成功表明它是相當(dāng)有效的。

最終我們可以注意到,ChatGPT使用了幾百億個權(quán)重來完成它的任務(wù),這個數(shù)量與它所接收的訓(xùn)練數(shù)據(jù)的單詞(或標(biāo)記)總數(shù)相當(dāng)。在某些方面,這可能是令人驚訝的(盡管在ChatGPT的較小模型中也觀察到了這一點(diǎn)),即“能夠良好運(yùn)行的網(wǎng)絡(luò)規(guī)模”與“訓(xùn)練數(shù)據(jù)規(guī)模”是如此相似。畢竟,在ChatGPT內(nèi)部并不是所有來自Web和圖書等內(nèi)容的文本都被“直接存儲”。因為ChatGPT內(nèi)部實際上包含了一堆數(shù)字——精度不到10個數(shù)字——它們是所有這些文本的聚合結(jié)構(gòu)的某種分布式編碼。

換句話說,我們可以問一下人類語言的“有效信息內(nèi)容”是什么,以及通常使用它來表達(dá)什么。有原始的語言樣本語料庫,還有ChatGPT神經(jīng)網(wǎng)絡(luò)中的表示。這個表示很可能遠(yuǎn)不是“算法上最小化”的表示方式(正如我們將在下面討論的那樣)。但它是一個神經(jīng)網(wǎng)絡(luò)可以方便使用的表示方式。在這個表示中,訓(xùn)練數(shù)據(jù)似乎在最后很少被“壓縮”;平均而言,基本上只需要不到一個神經(jīng)網(wǎng)絡(luò)權(quán)重來承載一個單詞的“信息內(nèi)容”。

當(dāng)我們運(yùn)行ChatGPT生成文本時,我們基本上需要使用每個權(quán)重一次。因此,如果有n個權(quán)重,我們需要做約n個計算步驟,盡管在實踐中,許多計算可以在GPU中并行完成。但是,如果我們需要約n個單詞的訓(xùn)練數(shù)據(jù)來設(shè)置這些權(quán)重,那么根據(jù)上面的說法,我們可以得出結(jié)論:我們需要約n^2個計算步驟來訓(xùn)練網(wǎng)絡(luò)——這就是為什么用現(xiàn)有方法需要數(shù)十億美元來進(jìn)行訓(xùn)練的原因。

超越基本的訓(xùn)練

在訓(xùn)練ChatGPT中,大部分的工作量都花費(fèi)在“向它展示”來自網(wǎng)絡(luò)、書籍等大量的現(xiàn)有文本上。但事實證明,還有另一個看起來相當(dāng)重要的部分。

完成原始文本語料庫的訓(xùn)練后,ChatGPT即可從提示信息中生成自己的文本。盡管在許多情況下結(jié)果似乎合理,但特別是在生成較長的文本時,往往會出現(xiàn)偏離人類思維方式的情況。這種問題不是通過對文本進(jìn)行傳統(tǒng)的統(tǒng)計分析可以輕松檢測到的,但讀者卻很容易注意到這一點(diǎn)。

ChatGPT的構(gòu)建中的一個關(guān)鍵思想是,在“被動閱讀”像網(wǎng)絡(luò)這樣的事物之后,有另一步是讓實際人類與ChatGPT進(jìn)行積極互動,查看它所生成的內(nèi)容,并實際上對其進(jìn)行反饋,告訴它“如何成為一個好的聊天機(jī)器人”。但神經(jīng)網(wǎng)絡(luò)如何利用這個反饋呢?第一步是讓人類對神經(jīng)網(wǎng)絡(luò)生成的結(jié)果進(jìn)行評分。然后建立另一個神經(jīng)網(wǎng)絡(luò)模型來嘗試預(yù)測這些評分。但現(xiàn)在可以在原始網(wǎng)絡(luò)上運(yùn)行這個預(yù)測模型,實際上就像一個損失函數(shù),從而允許該網(wǎng)絡(luò)通過人類反饋進(jìn)行“調(diào)整”。實踐中的結(jié)果似乎對于ChatGPT在生成“類人”輸出方面的成功有很大影響。

總的來說,有趣的是,“原始訓(xùn)練”網(wǎng)絡(luò)似乎需要很少的“干預(yù)”即可使其有條不紊地朝著特定方向發(fā)展。人們可能認(rèn)為,為了使網(wǎng)絡(luò)表現(xiàn)得好像“學(xué)到了新東西”,需要進(jìn)行訓(xùn)練算法、調(diào)整權(quán)重等操作。但事實并非如此。相反,基本上只需要告訴ChatGPT一次東西 - 作為您提供的提示的一部分 - 然后它就可以成功地在生成文本時利用您告訴它的內(nèi)容。再次說明,這種方法的成功是我認(rèn)為了解ChatGPT“真正做什么”以及它與人類語言和思維結(jié)構(gòu)之間的關(guān)系的重要線索。

這其中肯定有某種類人的特點(diǎn):至少在進(jìn)行了所有這些預(yù)訓(xùn)練后,您只需告訴它一次東西,它就可以“記住” - 至少“足夠長時間”以使用它生成一段文本。在這種情況下發(fā)生了什么?可能是“您可能告訴它的所有內(nèi)容已經(jīng)在某個地方了”,而您只是在引導(dǎo)它到正確的位置。但是這似乎不可行。相反,更可能的是,是的,這些元素已經(jīng)在那里了,但具體細(xì)節(jié)是由類似于“這些元素之間的軌跡”的東西定義的,而這就是您在告訴它某些東西時所介紹的內(nèi)容。

ChatGPT與人類一樣,如果你告訴它一些奇怪和出乎意料的東西,完全不符合它所知道的框架,它似乎無法成功地“整合”它。只有當(dāng)它基本上在已有的框架之上以相當(dāng)簡單的方式進(jìn)行運(yùn)行時,它才能夠“整合”它。

再次指出的值得注意的是,神經(jīng)網(wǎng)絡(luò)的“捕捉”能力不可避免地有“算法限制”。告訴它形式為“這個東西對應(yīng)那個”的“淺層規(guī)則”,神經(jīng)網(wǎng)絡(luò)很可能可以很好地表示和復(fù)制這些規(guī)則,事實上,它從語言中“已知的”將給它一個立即遵循的模式。但是,如果試圖為涉及許多潛在的計算不可約簡步驟的實際“深度”計算提供規(guī)則,它就行不通了。(請記住,在每一步中,它始終只是在其網(wǎng)絡(luò)中“向前傳遞數(shù)據(jù)”,除了通過生成新的標(biāo)記之外,從未循環(huán)。)

當(dāng)然,網(wǎng)絡(luò)可以學(xué)習(xí)特定的“不可約”計算的答案。但是,一旦存在組合數(shù)量的可能性,就不可能使用這種“表格查找式”的方法。因此,就像人類一樣,現(xiàn)在神經(jīng)網(wǎng)絡(luò)需要“伸手”并使用實際的計算工具。

是什么讓ChatGPT真正地工作起來

人類語言——以及產(chǎn)生語言的思維過程——一直被認(rèn)為是復(fù)雜程度的巔峰。確實,人類的大腦只有“僅僅”1000億左右的神經(jīng)元(和可能達(dá)到100萬億的連接),就能夠完成這項任務(wù),這似乎相當(dāng)不可思議。或許,人類大腦不僅僅是由神經(jīng)元組成——也許還有一些尚未被發(fā)現(xiàn)的新物理層面。但現(xiàn)在我們有了 ChatGPT,這為我們提供了一個重要的新信息:我們知道了一個擁有與人類神經(jīng)元數(shù)目相近的連接數(shù)的純?nèi)斯ど窠?jīng)網(wǎng)絡(luò)可以出乎意料地成功生成人類語言。

是的,這仍然是一個龐大而復(fù)雜的系統(tǒng)——其神經(jīng)網(wǎng)絡(luò)權(quán)重數(shù)目大約與目前世界上可用文本中的單詞數(shù)目相當(dāng)。但在某種程度上,似乎仍然難以相信所有語言的豐富性和它所能談?wù)摰氖挛锒伎梢员话谶@樣一個有限的系統(tǒng)中。這背后的部分原因毫無疑問是 ubiquitous 現(xiàn)象,即即使基礎(chǔ)規(guī)則很簡單,計算過程也能在實際中大大放大系統(tǒng)的表象復(fù)雜性。但實際上,正如我們上面討論的那樣,ChatGPT 中使用的神經(jīng)網(wǎng)絡(luò)類型通常是有針對性的構(gòu)造,以限制這種現(xiàn)象的影響,以及與之相關(guān)的計算不可約簡性,以便使其訓(xùn)練更易于理解。

那么,這些規(guī)律會是什么樣子呢?它們最終必須給我們提供一些關(guān)于語言及其表達(dá)方式的指導(dǎo)。稍后我們將討論如何“深入了解ChatGPT”可能會為我們提供一些線索,以及從構(gòu)建計算語言所知道的內(nèi)容如何為我們指明一條前進(jìn)的道路。但首先,讓我們討論兩個長期以來已知的“語言規(guī)律”的例子,以及它們與ChatGPT的操作方式的關(guān)系。

第一個例子是語言的語法。語言不僅僅是隨意組合的單詞。相反,對于不同種類的單詞,有(相當(dāng))明確的語法規(guī)則:例如,在英語中,名詞可以由形容詞前置并由動詞后置,但通常兩個名詞不能緊挨在一起。這樣的語法結(jié)構(gòu)可以(至少近似地)通過定義如何組合“解析樹”的規(guī)則來捕捉到:

 

圖片

 

ChatGPT 沒有任何明確的對這些規(guī)則的“知識”。但不知何故,在其訓(xùn)練中,它隱式地“發(fā)現(xiàn)”了它們,然后似乎擅長遵循它們。那么這是如何工作的呢?在“大局”層面上,這還不清楚。但是,為了獲得一些洞見,也許看一個更簡單的例子會有幫助。

考慮一個由序列構(gòu)成的“語言”,其語法規(guī)定括號始終應(yīng)該是平衡的,如下面所示的解析樹所代表的那樣:

 

圖片

 

我們能訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)生成“符合語法”的括號序列嗎?神經(jīng)網(wǎng)絡(luò)中處理序列的方法有很多種,但我們可以使用轉(zhuǎn)換器網(wǎng)絡(luò)(transformer nets),就像ChatGPT一樣。我們可以將規(guī)范的括號序列作為訓(xùn)練樣本來訓(xùn)練一個簡單的轉(zhuǎn)換器網(wǎng)絡(luò)。一個微妙之處(實際上也出現(xiàn)在ChatGPT生成人類語言的過程中)是,除了我們的“內(nèi)容標(biāo)記”(這里是“(”和“)”)之外,我們還必須包含一個“結(jié)束”標(biāo)記,以表示輸出不應(yīng)繼續(xù)下去(即對于ChatGPT,已經(jīng)到達(dá)“故事的結(jié)尾”)。

如果我們只設(shè)置一個具有8個頭和長度為128的特征向量的注意力塊的轉(zhuǎn)換器網(wǎng)絡(luò)(ChatGPT也使用長度為128的特征向量,但具有96個注意力塊,每個塊具有96個頭),那么似乎不可能使其學(xué)習(xí)到關(guān)于括號語言的很多知識。但是當(dāng)我們使用2個注意力塊時,學(xué)習(xí)過程似乎會收斂——至少在提供了大約1000萬個樣本之后會如此(并且,像轉(zhuǎn)換器網(wǎng)絡(luò)一樣,提供更多的樣本只會降低其性能)。

因此,我們可以用這個網(wǎng)絡(luò)做類似于ChatGPT的事情,并詢問下一個標(biāo)記應(yīng)該是什么的概率——在括號序列中:

 

圖片

 

在第一個案例中,神經(jīng)網(wǎng)絡(luò)“相當(dāng)確定”這個序列不能在這里結(jié)束,這很好,因為如果它結(jié)束了,括號就會不平衡。然而,在第二個案例中,它“正確地識別”到序列可以在這里結(jié)束,盡管它還指出“可以重新開始”,放下一個“(”,接著是“)”。但是,糟糕的是,即使是用它訓(xùn)練了約400,000個繁瑣的權(quán)重,它也說有15%的概率將“)”作為下一個標(biāo)記,這是不正確的,因為那必然會導(dǎo)致不平衡的括號。

如果我們詢問網(wǎng)絡(luò)逐漸增加( 的序列的最高概率完成情況,我們將得到以下結(jié)果:

 

圖片

 

這就意味著像ChatGPT和英語這樣的語言的語法有什么含義呢?括號語言很“簡單”,更像是一種“算法故事”。但在英語中,基于單詞和其他提示的局部選擇,我們很有可能“猜測”什么在語法上是匹配的。是的,神經(jīng)網(wǎng)絡(luò)在這方面表現(xiàn)得更好,盡管它也可能會漏掉一些“形式上正確”的情況,但這可能與人類的漏洞相似。

但主要觀點(diǎn)是,語言的整體語法結(jié)構(gòu)——及其所涉及的規(guī)則性——在某種程度上限制了神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的“范圍”。而關(guān)鍵的“自然科學(xué)式”的觀察是,像ChatGPT中的神經(jīng)網(wǎng)絡(luò)這樣的 Transformer 體系結(jié)構(gòu)似乎成功地學(xué)習(xí)了類似于嵌套樹形的句法結(jié)構(gòu),這種結(jié)構(gòu)似乎在所有人類語言中都存在(至少近似如此)。

語法提供了一種對語言的限制,但顯然還有其他的限制。像“nquisitive electrons eat blue theories for fish”(探究性電子吃藍(lán)色理論以換取魚) 這樣的句子在語法上是正確的,但并不是我們通常會說的,如果ChatGPT生成了這樣的句子,也不會被認(rèn)為是成功的——因為,嗯,就是用其中的單詞的正常含義而言,它基本上是沒有意義的。

但是有沒有一種通用的方法來判斷一個句子是否有意義呢?傳統(tǒng)上沒有一個總體的理論。但可以認(rèn)為,在被訓(xùn)練了數(shù)十億個(可能有意義的)句子后,ChatGPT在隱含地“發(fā)展了一個理論”。

這個理論會是什么樣子呢?有一個微小的角落基本上已經(jīng)被知道了兩千年,那就是邏輯。尤其是在亞里士多德發(fā)現(xiàn)的三段論形式中,邏輯基本上是一種說法,即遵循某些模式的句子是合理的,而其他句子則不是。因此,例如,“所有X都是Y。這個不是Y,所以它不是X”是合理的(如“所有的魚都是藍(lán)色的。這個不是藍(lán)色的,所以它不是一條魚。”)。就像可以有些任性地想象亞里士多德通過大量的修辭例子(“機(jī)器學(xué)習(xí)式”)發(fā)現(xiàn)三段論邏輯一樣,人們也可以想象在 ChatGPT 的訓(xùn)練中,它將能夠通過查看網(wǎng)絡(luò)上的大量文本等來“發(fā)現(xiàn)三段論邏輯”。(是的,雖然可以因此期望 ChatGPT 產(chǎn)生包含基于三段論邏輯等的“正確推理”的文本,但當(dāng)涉及到更復(fù)雜的形式邏輯時,情況就大不相同了——我認(rèn)為人們可以期望它因與括號匹配相同的原因而失敗。)

但除了邏輯的狹窄例子之外,還有什么可以系統(tǒng)地構(gòu)建(或識別)即使是合理的有意義文本的方法呢?是的,有像 Mad Libs 這樣使用非常具體的“短語模板”的東西。但不知何故,ChatGPT 無形中有了一個更普遍的方法來做到這一點(diǎn)。也許除了“當(dāng)你有 1750 億個神經(jīng)網(wǎng)絡(luò)權(quán)重時,它就會發(fā)生”之外,我們無法說出它如何做到。但我強(qiáng)烈懷疑,這背后存在一個更簡單、更有力的故事。

意義空間和語義動力學(xué)

我們上面討論了在ChatGPT內(nèi)部,任何一段文本實際上都由一組數(shù)字表示,我們可以將其視為某種“語言特征空間”中的點(diǎn)的坐標(biāo)。因此,當(dāng)ChatGPT繼續(xù)一段文本時,這相當(dāng)于在語言特征空間中跟蹤軌跡。但現(xiàn)在我們可以問,是什么讓這條軌跡對應(yīng)于我們認(rèn)為有意義的文本?也許可能存在某種“語義運(yùn)動規(guī)律”,定義或者至少限制了語言特征空間中的點(diǎn)如何移動,同時保持“有意義性”?

那么這個語言特征空間是什么樣的?以下是一個示例,展示了單個單詞(這里是普通名詞)在我們將這樣的特征空間投影到二維平面時的分布情況:

 

圖片

 

以下是不同詞類的單詞在特征空間中的布局方式:

 

圖片

 

當(dāng)然,通常來說,一個詞并不只有“一個意思”(也不一定只對應(yīng)一種詞性)。通過查看包含一個單詞的句子在特征空間中的排布,我們通常可以“區(qū)分”不同的含義,就像這里的“crane”一詞(是指鳥還是機(jī)器)的例子一樣:

 

圖片

 

好的,我們可以將這個特征空間想象為將“語義相似的詞”放置在附近的空間。但是,我們能夠在這個空間中識別出什么樣的額外結(jié)構(gòu)呢?例如,是否有一種“平行傳送”的概念,反映了空間的“平坦性”?研究類比問題可能有助于理解這一點(diǎn):

 

圖片

 

那么,軌跡呢?我們可以觀察ChatGPT在特征空間中跟隨的提示軌跡,然后再看看它如何繼續(xù)下去:

 

圖片

 

這里顯然沒有什么“幾何明顯”的運(yùn)動規(guī)律。這一點(diǎn)并不令人驚訝;我們完全期望這將是一個相當(dāng)復(fù)雜的故事。例如,即使存在“語義運(yùn)動定律”,什么樣的嵌入(或者實際上是什么“變量”)最自然也遠(yuǎn)非顯而易見。

在上面的圖片中,我們展示了“軌跡”的幾個步驟,其中每個步驟我們選擇了ChatGPT認(rèn)為最有可能的單詞(“temperature=0”情況)。但我們還可以問,在給定點(diǎn)時下一個可能出現(xiàn)的單詞是什么,以及它們的概率是多少:

 

圖片

 

在這個案例中,我們可以看到一個在特征空間中有著相對明確方向的高概率詞匯的“扇形”分布。如果我們繼續(xù)下去會發(fā)生什么呢?下面是隨著軌跡的“移動”而出現(xiàn)的連續(xù)的“扇形”:

 

圖片

 

這里是一個總共有40步的三維展示:

 

圖片

 

上面這個表現(xiàn)看起來有些混亂,沒有特別鼓勵這種想法,即通過實證研究“ChatGPT內(nèi)部的運(yùn)作”來確定“數(shù)學(xué)物理一樣的”“語義運(yùn)動定律”。但也許我們只是在看“錯誤的變量”(或錯誤的坐標(biāo)系),如果我們只看正確的變量,我們就會立即看到ChatGPT正在做一些“數(shù)學(xué)物理簡單”的事情,比如遵循測地線。但是,目前為止,我們還沒有準(zhǔn)備好從其“內(nèi)部行為”“實證解碼”ChatGPT已經(jīng)“發(fā)現(xiàn)”的有關(guān)人類語言“組裝”的內(nèi)容。

總結(jié)

ChatGPT的基本概念在某種程度上相當(dāng)簡單。從網(wǎng)絡(luò)、書籍等來源中獲取大量人類創(chuàng)造的文本樣本,然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)生成“類似”的文本。特別地,使它能夠從“提示”開始,然后繼續(xù)生成“與它所受過的訓(xùn)練相似”的文本。

正如我們所見,ChatGPT中的實際神經(jīng)網(wǎng)絡(luò)由非常簡單的元素組成。神經(jīng)網(wǎng)絡(luò)的基本操作也非常簡單,本質(zhì)上是對每個新單詞(或單詞的一部分)生成文本時,對其已生成的文本產(chǎn)生的輸入“通過其元素”(沒有任何循環(huán)等)進(jìn)行一次傳遞。

但是,這個過程的卓越而意想不到的一點(diǎn)是,它可以產(chǎn)生成功“類似”網(wǎng)絡(luò)、書籍等中存在的文本。它不僅是連貫的人類語言,而且“說出”了“遵循提示”的事情,利用它所“讀取”的內(nèi)容。它并不總是說出“全局上有意義”的話(或與正確的計算相符),它只是根據(jù)它訓(xùn)練材料中的內(nèi)容“聽起來對”的話。

ChatGPT的具體工程設(shè)計使其相當(dāng)令人信服。但是,至少在它可以使用外部工具之前,它“僅僅”是從其積累的“傳統(tǒng)智慧的統(tǒng)計數(shù)據(jù)”中提取出一些“連貫的文本線索”。但是,其結(jié)果與人類產(chǎn)生的非常相似,這很令人驚奇。正如我所討論的,這表明某些東西至少在科學(xué)上非常重要:人類語言(及其背后的思維模式)在其結(jié)構(gòu)上比我們想象的更簡單、更“法則化”。ChatGPT已經(jīng)隱式地發(fā)現(xiàn)了這一點(diǎn)。但我們可以通過語義語法、計算語言等,可能會明確地暴露它。

ChatGPT在生成文本方面所做的工作非常令人印象深刻,其結(jié)果通常與我們?nèi)祟惍a(chǎn)生的非常相似。那么,這是否意味著ChatGPT像大腦一樣工作?其基本的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最終是以大腦的理想化模型為基礎(chǔ)建模的。而且很可能當(dāng)我們?nèi)祟惿烧Z言時,許多方面的情況非常相似。

但是,值得注意的是,盡管 ChatGPT 在生成文本方面表現(xiàn)出人類的能力,但其實現(xiàn)方式與大腦有所不同。與人類的大腦和當(dāng)前計算機(jī)的“硬件”有所不同,ChatGPT 不得不采用一種可能非常不同(在某些方面更少效率)的策略進(jìn)行訓(xùn)練(也就是學(xué)習(xí))。此外,還有一點(diǎn):與典型算法計算中的情況不同,ChatGPT 沒有內(nèi)部的“循環(huán)”或“重新計算數(shù)據(jù)”。這必然限制了它的計算能力,甚至對于當(dāng)前的計算機(jī)也是如此,但對于大腦來說,更是如此。

但就目前而言,看到 ChatGPT 已經(jīng)能夠做到的事情令人興奮。從某種程度上說,它是基本科學(xué)事實的一個很好的例子,即大量的簡單計算元素可以做出引人注目和出乎意料的事情。但它也提供了我們在兩千年里最好的推動力,去更好地理解人類語言以及其背后的思維過程的基本特征和原則。

總之,ChatGPT 是一種極其強(qiáng)大的自然語言生成系統(tǒng),它的訓(xùn)練過程基于大量的人類語言文本樣本,并采用了深度學(xué)習(xí)技術(shù)。盡管其基本結(jié)構(gòu)與人類大腦的工作方式有所不同,但它已經(jīng)展示了大量簡單計算元素的組合可以產(chǎn)生出令人驚訝的結(jié)果。這為我們深入理解人類語言和思維模式的本質(zhì)提供了有力的推動。

本文翻譯自:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work

分享到:
標(biāo)簽:ChatGPT
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定