導語:一個比人類速度快5倍的模型可以通過設置將速度提高到比人類速度快125倍。
本文作者為加州伯克利分校助理教授Jacob Steinhardt。
GPT-4以其在編碼、創(chuàng)意頭腦風暴、寫信和其他技能方面的能力,讓許多人感到驚訝。機器學習領域的驚喜并不僅限于GPT-4:我之前也因Minerva在數(shù)學能力方面的表現(xiàn)感到驚訝,很多競爭性預測者也是如此。
我們?nèi)绾文軌驅(qū)C器學習的發(fā)展有更少的驚訝?我們的大腦通常會隱式地進行零階預測:查看當前的技術水平,并添加“似乎合理”的改進。但是,所謂的“似乎合理”容易受到認知偏見的影響,并且會低估像機器學習這樣快速發(fā)展領域的進展。
一種更有效的方法是一階預測:量化歷史進展速度,并將其向前推演,同時考慮可能出現(xiàn)的放緩或加速原因。
在這篇文章中,我將使用這種方法來預測2030年大型預訓練機器學習系統(tǒng)的特性。我將一直提到“GPT2030”,這是一個假設性的系統(tǒng),具有我們預期在2030年大型語言模型中可能具備的能力、計算資源和推理速度(但很可能也會在其他形式上進行訓練,比如圖像)。
為了預測GPT2030的特性,我參考了多種信息源,包括經(jīng)驗性的縮放規(guī)律、未來計算和數(shù)據(jù)可用性的預測、特定基準測試中改進的速度、當前系統(tǒng)經(jīng)驗性的推理速度,以及可能的并行性改進。
GPT2030的能力事實上是令人驚訝的(至少對我來說是如此)。特別是,相較于當前的系統(tǒng),GPT2030將在許多方面擁有顯著的優(yōu)勢,甚至在某些重要方面優(yōu)于當前的人類工作者:
GPT2030可能在多個具體任務上表現(xiàn)出超越人類的能力,包括編碼、黑客攻擊、數(shù)學,甚至可能包括蛋白質(zhì)設計(第1節(jié))。
GPT2030能夠快速“工作”和“思考”:我估計它每分鐘處理的文字數(shù)量將是人類的5倍,以此作為衡量標準[范圍:0.5倍-20倍],通過支付每FLOP的費用提高5倍,這個速度可能增加到125倍(第2節(jié))。
GPT2030可以任意復制并進行并行運算。訓練GPT2030的組織將擁有足夠的計算能力來運行許多并行副本:我估計足以在調(diào)整為人類工作速度時執(zhí)行180萬年的工作[范圍:40萬-1000萬年](第3節(jié))。考慮到前面提到的5倍加速,這項工作可以在2.4個月內(nèi)完成。
由于具有相同的模型權(quán)重,GPT2030的副本可以共享知識,從而實現(xiàn)快速的并行學習:我估計相當于2500年人類學習的內(nèi)容可以在1天內(nèi)完成(第4節(jié))。
GPT2030將在除文本和圖像之外的其他形式上進行訓練,可能包括分子結(jié)構(gòu)、網(wǎng)絡流量、低級機器代碼、天文圖像和腦部掃描等令人意想不到的形式。因此,在我們經(jīng)驗有限的領域中,它可能會具有強大的直觀理解能力,包括形成我們尚未具備的概念(第5節(jié))。
這些能力將至少加速許多研究領域,同時也會產(chǎn)生嚴重的濫用風險(第6節(jié))。關于濫用,GPT2030的編程能力、并行化和速度將使其成為潛在的網(wǎng)絡攻擊威脅。此外,它快速的并行學習也可以用于分析人類行為,從而用幾千個“年份”的實踐來操縱和誤導。
在加速方面,主要的瓶頸將是自主性。在像數(shù)學研究這樣的領域,可以進行自動檢查的工作,我預測GPT2030將超過大多數(shù)專業(yè)數(shù)學家。
在機器學習領域,我預測GPT2030將獨立執(zhí)行實驗、生成圖表和報告,但研究生和研究科學家將提供方向并評估結(jié)果。在這兩種情況下,GPT2030將是研究過程的重要組成部分。
我對GPT2030性能的預測并不是從今天的系統(tǒng)中直觀得出的,它們可能是錯誤的,因為關于2023年機器學習的形態(tài)存在很大的不確定性。然而,上述(1.-5.)的性能是我中位數(shù)的預測,無論GPT2030是什么樣子,我都懷疑它不會是“只是比GPT-4好一點”。
如果我是對的,那么無論人工智能的影響是什么,它們都不會是微不足道的。我們應該現(xiàn)在就為這些影響做好準備,思考在最大的尺度上會發(fā)生什么(大約在1萬億美元、1000萬人生命或?qū)ι鐣鞒痰闹卮蟾蓴_范圍內(nèi))。現(xiàn)在被驚訝總比在7年后系統(tǒng)已經(jīng)開始推出時被驚訝要好。
具體能力
我預計GPT2030將具備超越人類的編碼、黑客攻擊和數(shù)學能力。我還預計它在閱讀和處理大規(guī)模語料庫以尋找模式和洞見、以及回憶事實方面將具備超人能力。
最后,由于AlphaFold和AlphaZero在蛋白質(zhì)結(jié)構(gòu)預測和游戲玩法方面具備超人能力,GPT2030可能也會具備這些能力,例如,如果它在類似于AlphaFold/AlphaZero模型的數(shù)據(jù)上進行了多模態(tài)訓練。
編程。在訓練截止日期后,GPT-4在LeetCode問題上超越了強大的人類基準(Bubeck等,2023年,表2),并且通過了幾家主要科技公司的模擬面試(圖1.5)。改進的速度仍然很高,從GPT-3到4的躍升達到了19%。在更具挑戰(zhàn)性的CodeForces比賽中,GPT-4表現(xiàn)不佳,但AlphaCode與中位數(shù)CodeForces競爭者持平。在更具挑戰(zhàn)性的AppS數(shù)據(jù)集上,Parsel進一步超越了AlphaCode(7.8%->25.5%)。
展望未來,預測平臺Metaculus在2027年預測了80%的中位數(shù)概率,這將超過所有除了最優(yōu)秀的人類之外的所有人。
黑客攻擊。我預計黑客攻擊能力會隨著一般編程能力的提高而改進,再加上機器學習模型可以比人類更可擴展且更有責任感地搜索大規(guī)模代碼庫中的漏洞。事實上,ChatGPT已經(jīng)被用于幫助生成漏洞利用。
數(shù)學。Minerva在競賽數(shù)學基準(MATH)上實現(xiàn)了50%的準確率,這比大多數(shù)人類競爭者表現(xiàn)要好。進展速度很快(1年內(nèi)>30%),并且通過自動形式化、減少算術錯誤、改進思路鏈條以及改善數(shù)據(jù)等,存在顯著的低懸果實。Metaculus預測到2025年MATH將達到92%的準確率,并在2028年前,預測人工智能在國際數(shù)學奧林匹克競賽上獲得金牌,與全球最優(yōu)秀的高中學生水平持平。
我個人預計GPT2030在證明良好定理方面將優(yōu)于大多數(shù)專業(yè)數(shù)學家。
信息處理。事實回憶和處理大規(guī)模語料庫是語言模型記憶能力和大上下文窗口的自然結(jié)果。根據(jù)經(jīng)驗,GPT-4在廣泛的標準化考試(包括法律考試、MCAT以及大學數(shù)學、物理、生物化學和哲學考試)中的準確率達到86%;即使考慮到可能的訓練-測試污染,這可能超過了任何活著的人的知識廣度。
關于大規(guī)模語料庫,Zhong等(2023年)使用GPT-3構(gòu)建了一個系統(tǒng),在大型文本數(shù)據(jù)集中發(fā)現(xiàn)和描述了幾個先前未知的模式,Bills等(2023年)中的相關任務的規(guī)模趨勢表明,模型很快將具備超人能力。這些作品都利用了LLM(大型語言模型)的大上下文窗口,現(xiàn)在已超過10萬個標記并在不斷增長。
更一般地說,機器學習模型具有與人類不同的技能特點,因為人類和機器學習是針對非常不同的數(shù)據(jù)源(演化與大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù))。當模型在視頻識別等任務上達到人類水平時,它們可能在許多其他任務上也具備超人能力(如數(shù)學、編程和黑客攻擊)。
此外,由于模型越來越大且數(shù)據(jù)越來越好,還可能會出現(xiàn)其他強大的能力,沒有強有力的理由認為模型能力會在人類水平上或以下“停滯不前”。雖然當前的深度學習方法在某些領域可能達不到人類水平的能力,但也有可能在某些領域超越它們,甚至可能會在某些領域顯著超越,特別是在人類沒有進化專門化的數(shù)學等領域。
推理速度
(感謝Lev McKinney為本節(jié)運行性能基準測試。)
為了研究機器學習模型的速度,我們將衡量機器學習模型生成文本的速度,與人類的思考速度相比為每分鐘380個單詞(Korba(2016),詳見附錄A)。使用AI target=_blank class=infotextkey>OpenAI的聊天補全API,我們估計gpt-3.5-turbo每分鐘可以生成1200個單詞(wpm),而gpt-4截至2023年4月初每分鐘生成370個單詞。像pythia-12b這樣的較小的開源模型,在A100 GPU上使用現(xiàn)成的工具至少可以實現(xiàn)1350 wpm,而通過進一步優(yōu)化,這個速度可能會達到這個值的兩倍。
因此,如果我們考慮到2023年4月的OpenAI模型,我們要么大約是人類速度的3倍,要么等于人類速度。我預測未來模型的推理速度會更快,因為有強烈的商業(yè)和實際壓力促使推理速度加快。
實際上,在發(fā)布本文的前一周,根據(jù)Fabien Roger的追蹤數(shù)據(jù),GPT-4的速度已經(jīng)提高到了約540wpm(每秒12個標記);這說明仍然有改進的空間和需求。
我的中位數(shù)預測是,模型將具有人類文字/分鐘的5倍(范圍:[0.5x,20x]),因為在進一步提高速度方面,可能會出現(xiàn)遞減的實際效益,盡管有一些因素可能指向更高或更低的數(shù)字。我在附錄A中提供了這些考慮的詳細列表,以及在不同模型規(guī)模和實驗細節(jié)中的速度比較。
重要的是,機器學習模型的速度并不是固定的。模型的串行推理速度可以通過成本為$k$的吞吐量$k^2$的$k$倍減少來增加(換句話說,可以用一個$k^2$倍更快的模型替換$k^3$個并行模型)。這可以通過并行平鋪方案來實現(xiàn),即使對于$k^2$的大值,理論上也可以運行,可能至少是100,甚至可能更多。
因此,一個比人類速度快5倍的模型可以通過設置$k=5$將速度提高到比人類速度快125倍。
一個重要的警告是速度不一定與質(zhì)量相匹配:如第1節(jié)所述,GPT2030的技能特點與人類不同,在我們認為容易的一些任務上失敗,在我們認為困難的一些任務上取得成功。因此,我們不應該將GPT2030視為“加速的人類”,而應該將其視為“加速的工作者”,具有潛在的反直覺技能特點。
然而,考慮速度提升仍然是有意義的,尤其是當速度提升較大時。對于具有125倍速度提升的語言模型,我們需要一天才能完成的認知行為,可能只需幾分鐘,前提是它們在GPT2030的技能范圍內(nèi)。使用之前黑客攻擊的例子,我們難以生成的漏洞利用或攻擊可能會被機器學習系統(tǒng)快速生成。
吞吐量和并行副本
模型可以在可用的計算資源和內(nèi)存的限制下任意復制。這使它們能夠迅速完成任何可以有效并行化的工作。此外,一旦某個模型被微調(diào)為特別有效,該變化可以立即傳播到其他實例。模型還可以為專門的任務進行蒸餾,從而運行速度更快、更便宜。
一旦訓練完一個模型,很可能會有足夠的資源來運行許多復制品。這是因為訓練一個模型需要并行運行多個副本,而訓練模型的組織在部署時仍然擁有這些資源。因此,我們可以通過估計訓練成本來下限估計副本的數(shù)量。
以GPT-3的訓練成本為例,足以對其進行9 x 10^11次前向傳遞。換算成人類等效術語,人類每分鐘思考380個單詞(見附錄A),每個單詞平均1.33個標記,因此9 x 10^11次前向傳遞相當于以人類速度進行~3400年的工作。因此,該組織可以在一年內(nèi)以人類工作速度運行3400個模型的并行副本,或者在5倍人類速度下可能在2.4個月內(nèi)運行相同數(shù)量的副本。(注意:后一點取決于組織可以運行多少并行實例。)
接下來,讓我們將相同的“訓練過剩”(訓練成本與推理成本的比率)投影到未來的模型上。它應該會更大:主要原因是訓練過剩大致與數(shù)據(jù)集大小成正比,而數(shù)據(jù)集隨著時間的推移在增加。
隨著我們耗盡自然生成的語言數(shù)據(jù),這種趨勢會減緩,但新的模式以及合成或自動生成的數(shù)據(jù)仍然會推動它前進。
在附錄B中,我詳細考慮了這些因素,以進行到2030年的預測。我預測,到2030年,模型將具備足夠的資源進行180萬年的工作,調(diào)整為人類速度[范圍:40萬-1000萬]。
注意,Cotra(2020年)和Davidson(2023年)估計了類似的數(shù)量,得出的數(shù)字比我的大;我猜測主要的區(qū)別是我如何對耗盡自然語言數(shù)據(jù)的影響建模。
上述預測在某種程度上是保守的,因為如果組織購買了額外的計算資源,模型可能會在比訓練時使用更多的資源上運行。一個快速的估算表明,GPT-4是在全球所有計算資源的約0.01%上進行訓練的,盡管我預計未來的訓練將占據(jù)更大比例的全球計算資源,并因此在訓練后的擴展空間較小。盡管如此,如果組織有充分的理由這么做,它們可能還可以將運行的副本數(shù)量增加一個數(shù)量級。
知識共享
(感謝Geoff Hinton首次向我提出這個觀點。)
不同副本的模型可以共享參數(shù)更新。例如,ChatGPT可以部署到數(shù)百萬用戶中,從每次交互中學到一些東西,然后將梯度更新傳播到一個中央服務器,這些更新會被平均起來并應用于所有模型的副本。
通過這種方式,ChatGPT在一個小時內(nèi)可以觀察到關于人類本性的更多內(nèi)容,而人類在一生中可能無法做到這一點(100萬小時=114年)。并行學習可能是模型具有的最重要的優(yōu)勢之一,因為這意味著它們可以迅速學習任何缺失的技能。
并行學習的速率取決于同時運行的模型副本數(shù)量、它們能夠獲取數(shù)據(jù)的速度以及數(shù)據(jù)是否能夠在并行中有效地利用。在最后一個問題上,即使極端并行化也不應該對學習效率造成太大影響,因為實踐中的批處理大小通常在數(shù)百萬。
根據(jù)McCandlish等人(2018年)的研究,梯度噪聲規(guī)模預測在某個“臨界批處理大小”以下,學習性能的降低非常小。因此,我們將重點放在并行副本和數(shù)據(jù)獲取上。
我將提供兩個估計,兩者都表明,在人類速度下,至少可以有大約100萬個模型副本同時進行學習。這相當于每天2500個人類等效的學習年,因為100萬天=2500年。
第一個估計使用了第3節(jié)中的數(shù)字,該節(jié)得出的結(jié)論是訓練模型的成本足以模擬模型進行180萬年的工作(調(diào)整為人類速度)。假設訓練過程本身持續(xù)時間不到1.2年(Sevilla等,2022年),這意味著訓練模型的組織在以人類速度運行150萬個副本的情況下?lián)碛凶銐虻腉PU。
第二個估計考慮了部署模型的組織的市場份額。例如,如果同時有100萬用戶查詢模型,那么組織必然有足夠的資源來為100萬個模型副本提供服務。作為一個估算,截至2023年5月,ChatGPT擁有1億用戶(并非同時都在活躍),并且截至2023年1月,每天有1300萬活躍用戶。
我會假設典型用戶請求幾分鐘的模型生成文本,因此1月份的數(shù)字可能只意味著每天約0.05百萬人天的文本。然而,未來類似于ChatGPT的模型可能會增加到20倍,達到每天2.5億活躍用戶或更多,因此每天產(chǎn)生100萬人天的數(shù)據(jù)。作為對比,F(xiàn)acebook擁有20億每日活躍用戶。
模態(tài)、工具和執(zhí)行器
從歷史上看,GPT風格的模型主要是在文本和代碼上進行訓練,并且除了通過聊天對話以外,與外界互動的能力有限。然而,這種情況正在迅速改變,因為模型正在被訓練用于其他模態(tài),比如圖像,也在被訓練使用工具,并開始與物理執(zhí)行器進行交互。
此外,模型不會局限于人類中心的模態(tài),如文本、自然圖像、視頻和語音,它們很可能還會在不熟悉的模態(tài)上進行訓練,比如網(wǎng)絡流量、天文圖像或其他大規(guī)模的數(shù)據(jù)源。
工具。最近發(fā)布的模型使用外部工具,正如我們在ChatGPT插件、Schick等人(2023年)、Yao等人(2022年)和Gao等人(2022年)的研究中所看到的。將文本與工具使用相結(jié)合足以編寫能夠執(zhí)行的代碼,說服人類代表他們采取行動,進行API調(diào)用,進行交易,甚至可能進行網(wǎng)絡攻擊。工具使用在經(jīng)濟上很有用,因此將有強烈的動力進一步發(fā)展這種能力。
ChatGPT是一種反應型系統(tǒng):用戶說X,ChatGPT用Y進行回應。風險存在,但是是有界的。很快將誘惑出現(xiàn)主動型系統(tǒng) - 一種助手將為您回復電子郵件,代表您采取行動等。風險將會大大增加。- Percy Liang (@percyliang) 2023年2月27日
新的模態(tài)。現(xiàn)在已經(jīng)有大規(guī)模的開源視覺語言模型,比如OpenFlamingo,而在商業(yè)領域,GPT-4和Flamingo都是在視覺和文本數(shù)據(jù)上進行訓練的。研究人員還在嘗試使用更奇特的模態(tài)對,如蛋白質(zhì)和語言(Guo等,2023年)。
我們應該期望大型預訓練模型的模態(tài)繼續(xù)擴展,有兩個原因。首先,在經(jīng)濟上,將語言與不太熟悉的模態(tài)(如蛋白質(zhì))配對是有用的,這樣用戶可以從解釋中受益,并有效地進行編輯。這預測蛋白質(zhì)、生物醫(yī)學數(shù)據(jù)、CAD模型以及與主要經(jīng)濟領域相關的任何其他模態(tài)將進行多模態(tài)訓練。
其次,我們開始耗盡語言數(shù)據(jù),因此模型開發(fā)者將尋找新類型的數(shù)據(jù)以繼續(xù)從規(guī)模效益中受益。除了傳統(tǒng)的文本和視頻外,一些現(xiàn)有的最大數(shù)據(jù)來源是天文數(shù)據(jù)(很快將達到每天的艾字節(jié)級)和基因組數(shù)據(jù)(約0.1艾字節(jié)/天)。這些和其他大規(guī)模數(shù)據(jù)源很可能會被用于訓練GPT2030。
使用奇特的模態(tài)意味著GPT2030可能具有非直觀的能力。它可能會比我們更好地理解星星和基因,即使在處理基本的物理任務時會有困難。這可能會帶來一些意外,比如設計新型蛋白質(zhì),這是基于GPT2030的“通用”智能水平,我們本不會預期的。在思考GPT2030的影響時,重要的是要考慮到由于這些奇特數(shù)據(jù)來源可能導致的特定超人能力。
執(zhí)行器。模型也開始使用物理執(zhí)行器:ChatGPT已經(jīng)被用于控制機器人,OpenAI正在投資一家人形機器人公司。然而,收集物理領域的數(shù)據(jù)要比數(shù)字領域更加昂貴,而且人類在物理領域也更適應進化(因此ML模型與我們競爭的門檻更高)。
與數(shù)字工具相比,我預計掌握物理執(zhí)行器的速度會更慢,并且我不確定我們是否應該在2030年之前期望這種情況。定量地說,我會給2030年是否會有一種能夠自動組裝與Metaculus問題中定義的比例復制法拉利的通用型模型一個40%的概率。
GPT-2030的影響
接下來,我們將分析類似GPT2030系統(tǒng)對社會意味著什么。擁有GPT2030特性的系統(tǒng),至少會顯著加速某些研究領域,同時也具有強大的濫用能力。
我將首先構(gòu)建一些關于GPT2030的一般優(yōu)勢和局限性的框架,然后將其用作分析加速和濫用的鏡頭。
優(yōu)勢。GPT2030代表了一個大規(guī)模、高度適應性、高吞吐量的工作力。回想一下,GPT2030可以在平行副本上做180萬年的工作,其中每個副本以5倍于人類速度運行。這意味著我們可以(在并行性限制的情況下)在2.4個月內(nèi)模擬1.8百萬個代理人每人工作一年。
如上所述,我們可以支付每個FLOP的5倍價格,以獲得額外的25倍加速(達到125倍人類速度),因此我們也可以在3天內(nèi)模擬一萬四千個代理人每人工作一年。
局限性。利用這個數(shù)字化的工作力有三個障礙:技能配置、實驗成本和自主性。就第一點而言,GPT2030將具有與人類不同的技能配置,使其在某些任務上表現(xiàn)較差(但在其他任務上表現(xiàn)較好)。
在第二個障礙上,模擬工作人員仍然需要與世界接口以收集數(shù)據(jù),這有自己的時間和計算成本。最后,在自主性方面,如今的模型在“卡住”之前只能生成數(shù)千個標記的連續(xù)思路,進入不再產(chǎn)生高質(zhì)量輸出的狀態(tài)。在將復雜任務委托給模型之前,我們需要顯著提高可靠性。
我預計可靠性會增加,但并不是沒有限制:我(非常粗略地)猜測GPT2030在需要被重置或通過外部反饋進行引導之前,將能夠運行數(shù)天的人類等價時間。如果模型以5倍速度運行,這意味著它們需要每隔幾個小時進行人類監(jiān)督。
因此,GPT2030將最有影響的任務是:
利用GPT2030在相對于人類而言擅長的技能。
只需要可以迅速收集到的外部經(jīng)驗數(shù)據(jù)的任務(而不是昂貴的物理實驗)。
可以事先分解為可靠執(zhí)行的子任務,或者具有明確和可自動化的反饋指標來幫助引導模型。
加速。一個很好滿足所有三個條件的任務是數(shù)學研究。在第一點上,GPT2030可能會具有超人的數(shù)學能力(第1節(jié))。在第二和第三點上,數(shù)學可以通過純粹的思考和寫作來完成,我們知道何時一個定理被證明。而且全球總共的數(shù)學家并不多(例如,僅有3000人在美國),因此GPT2030可能能夠在幾天內(nèi)模擬出超過所有數(shù)學家年產(chǎn)出的數(shù)量。
重要部分的機器學習研究也滿足上述標準。GPT2030將會在編程方面超越人類,其中包括實施和運行實驗。我猜它也會擅長呈現(xiàn)和解釋實驗結(jié)果,因為GPT-4能夠以易于理解的方式解釋復雜的主題(并且市場需求很大)。
因此,機器學習研究可能會減少到思考進行良好實驗和與高質(zhì)量(但潛在不可靠)的實驗結(jié)果文稿進行交互。在2030年,研究生可能會擁有與今天的教授和幾名優(yōu)秀學生相同的資源。
社會科學的某些部分也可能會得到顯著加速。有很多論文中,大部分工作是追蹤、分類和標記科學上有趣的數(shù)據(jù)源,并提取重要的模式,例如Acemoglu等人(2001年)或Webb(2020年)的代表性例子。這滿足了要求(3.),因為分類和標記可以分解為簡單的子任務,而且它滿足了要求(2.),只要數(shù)據(jù)在互聯(lián)網(wǎng)上可用,或者可以通過在線調(diào)查收集到。
濫用。除了加速,還存在嚴重的濫用風險。最直接的情況是網(wǎng)絡攻擊的能力。檢查特定目標的特定漏洞可能是可靠的,而且可以檢查漏洞是否成功(在能夠與代碼交互的情況下),因此雙重滿足了要求(3.)。在(2.)方面,GPT2030需要與目標系統(tǒng)進行交互,以知道攻擊是否奏效,這會帶來一些成本,但不足以成為一個重要的瓶頸。
此外,該模型可以在開源代碼上本地設計和測試漏洞作為訓練數(shù)據(jù),因此在需要與任何外部系統(tǒng)進行交互之前,它可以在很大程度上變得非常擅長于網(wǎng)絡攻擊。因此,GPT2030可以迅速對大量目標進行復雜的并行網(wǎng)絡攻擊。
第二種濫用來源是操縱。如果GPT2030同時與數(shù)百萬用戶進行交互,那么它在一個小時內(nèi)獲得的關于人類互動的經(jīng)驗,遠遠超過了人類一生的經(jīng)驗(100萬小時=114年)。
如果它利用這些互動來學習操縱,那么它可以獲得遠遠超過人類的操縱技能 - 類似于,騙子在欺騙受害者方面很擅長,因為他們在之前已經(jīng)練習過幾百人,而GPT2030可以將這種能力擴大數(shù)個數(shù)量級。因此,在一對一的對話中,它可能非常擅長操縱用戶,或者在撰寫新聞文章以影響公眾輿論方面。
因此,總結(jié)一下,GPT2030可能會自動化幾乎所有數(shù)學研究以及其他研究領域的重要部分,并且可能成為關于網(wǎng)絡攻擊、說服/操縱的有力手段。它的很多影響都會受到“監(jiān)督瓶頸”的限制,因此,如果它能夠在長時間內(nèi)自主運行,那么它的影響可能會更大。
附錄:未來模型的運行時間和訓練估算
A. 每分鐘生成的字數(shù)
首先,我們將估計人類和當前模型的每分鐘字數(shù)。然后,我們將從當前模型推導出未來模型的情況。
對于人類,我們可以測量五個數(shù)字:說話速度、閱讀速度、聽力速度以及“橢圓”和“擴展”思考速度。關于前三者,Rayner和Clifton(2009)指出閱讀速度為每分鐘300字,說話速度為每分鐘160字,而聽力速度可能比說話速度快2-3倍(因此大約每分鐘400字)。
對于思考速度,我們需要區(qū)分“橢圓”思維和“擴展”思維——事實證明我們的思維是在詞匯的閃爍中進行的,而不是完整句子,如果我們將這些閃爍延伸到完整句子,會得到非常不同的字數(shù)(相差約10倍)。
Korba(2016)發(fā)現(xiàn)橢圓思維的速度為每分鐘380字,而擴展思維的速度為每分鐘約4200字。由于這些數(shù)字大多在300-400 wpm的范圍內(nèi),我將使用每分鐘380字作為人類思維速度的估計。根據(jù)OpenAI提供的4:3令牌到字數(shù)比,這相當于每分鐘500個字節(jié)。
(感謝Lev McKinney在以下段落中運行評估。)
接下來,讓我們考慮當前的模型。我們查詢了gpt-3.5-turbo和gpt-4,以及EleutherAI的幾個開源模型,以對它們的推斷速度進行基準測試。我們通過查詢模型從1數(shù)到n,其中n從100到1900,步長為100。
由于數(shù)字包含多個字節(jié),我們在模型生成n個字節(jié)時將其截斷,并測量經(jīng)過的時間。然后,我們進行了帶有偏置項的線性回歸,以考慮延遲,以估計每秒生成的字節(jié)數(shù)。
GPT-4和GPT-3.5-turbo于2023年4月初從OpenAI AIP查詢。所有pythia模型的實驗都是使用deepspeed注入內(nèi)核和fp16模型在一個A100 GPU上執(zhí)行的。可以在https://Github.com/levmckinney/llm-racing找到復制這些結(jié)果的代碼。
原始數(shù)據(jù)如下圖所示
上圖展示了模型推斷隨著字節(jié)輸入的變化。請注意,在這些上下文長度下,每個字節(jié)的時間保持相對線性。
上圖和下表展示了模型推斷速度隨大小的變化情況。誤差條表示95%的置信區(qū)間。
因此,GPT-4的推斷速度接近人類的基準值500個標記/分鐘,而GPT-3.5-turbo則快大約3倍。更小的模型速度甚至快上一個數(shù)量級,這表明即使更快的推斷速度是可能的,但也暗示未來更大的模型可能會變慢(未考慮更好的硬件和其他優(yōu)化)。實際推斷速度似乎在模型大小下以亞線性的方式減慢——在pythia模型中,將大小增加k倍會將推斷速度減少大約k^0.6。
那么模型的每分鐘單詞數(shù)將如何在未來變化?有因素推動速度變快和變慢:
- 更大的模型更昂貴,特別是如果它們有更多的層(較大的寬度可以并行,但較大的深度不能)。
- 推斷通常會進行更多優(yōu)化,例如通過提前退出、稀疏注意、跨GPU并行化或更好的硬件。在這方面有相當大的潛力,尤其是來自并行化和硬件(見下面的討論)。
- 特別是,將有很多動力使模型足夠快,以便容易使用(例如,比人類閱讀速度更快)。
在對模型大小、GPU架構(gòu)等趨勢的大量數(shù)據(jù)進行了10多個小時的分析后,我主要得出的結(jié)論是,我對更大的模型與更好的硬件和軟件之間的競爭趨勢如何發(fā)展非常不確定。
我中位數(shù)的猜測是,我們將獲得比人類明顯更快的模型(5倍),但我對速度從比人類慢2倍到比人類快20倍的各種情況都不感到驚訝。
重要的是,這些速度只是在我們要求GPU的最大吞吐量的情況下。如果我們愿意以k倍的吞吐量為代價,我們可以將推斷速度提高k^2倍,直至達到相當大的k值。因此,如果模型默認只比人類快5倍,那么可以在吞吐量減少5倍的情況下將其提速至125倍,如果有必要,這還可以進一步提高。
最后,除了純粹的速度,每分鐘單詞數(shù)在人類和語言模型之間并不是可比的。首先,語言模型不僅在思考,還在寫作,而且在某些情況下,它們的寫作內(nèi)容對人類來說可能要慢得多(例如,代碼或帶有引用的論點)。
另一方面,語言模型目前相當啰嗦,因此語言模型的一個單詞不如人類的一個單詞進行“工作”多。這種啰嗦性可以通過微調(diào)消除,但我們不確定能否達到人類的“橢圓思維”的效率。
最后,令牌化和單詞復雜性將隨時間而變化,因此從單詞到標記的1.333倍轉(zhuǎn)換比率不會保持恒定(事實上,我猜對于今天的模型來說,它已經(jīng)是一種低估,因為它們現(xiàn)在傾向于使用帶有前綴和后綴的復雜詞語)。
有關并行化和硬件加速的詳細信息。正如《我們能多快執(zhí)行前向傳遞?》一文所述,存在著可以顯著增加串行推斷速度的并行平鋪方案,而只有很小的開銷。例如,對GPT-3進行并行平鋪會使其在A100集群上的推斷速度相對于在單個8-GPU機器上運行時提高30倍或更多。
這些優(yōu)化目前并沒有被廣泛使用,因為它們對于訓練不是有用的,而且稍微減少了推斷吞吐量,但一旦推斷時間成為瓶頸,人們會開始使用它們。
就硬件而言,GPU的性能正在提升,這將加快推斷速度。然而,GPU的設計越來越需要更大的算術強度,這將減少可能的并行平鋪(見上一點)。供參考,我在下面列出了所有NVIDIA GPU的規(guī)格。
“Mem Bandwidth”(內(nèi)存帶寬)一欄測量了沒有任何跨GPU并行化時的串行吞吐量,而最終的M3/C2一欄測量了在保持足夠高算術強度的最大跨GPU并行化下的串行吞吐量。前者持續(xù)增加,而后者波動較大,但趨于減少。
(以下是表格數(shù)據(jù),由于文字描述無法準確呈現(xiàn)表格,請參考原文)
這里是來自NVIDIA GPU的一些規(guī)格,表格中的“Mem Bandwidth”是指沒有進行任何跨GPU并行化時的串行吞吐量,而最后一欄的M3/C2是指在保持足夠高算術強度的最大跨GPU并行化下的串行吞吐量。
請注意,這些硬件規(guī)格數(shù)據(jù)是在原始帖子中提供的,隨著硬件技術的不斷更新,這些數(shù)據(jù)可能已經(jīng)發(fā)生了變化。
B. 訓練成熟度
將來可能會有足夠的資源來運行訓練過的模型的許多副本。以GPT-3為例,它需要3.1e23個浮點運算(FLOP)來進行訓練,并且執(zhí)行前向傳遞需要3.5e11個FLOP,因此可以用訓練成本來運行9e11次前向傳遞。根據(jù)附錄A中的每分鐘500個標記的轉(zhuǎn)換,這相當于約3400年的人類思維時間。
未來會如何變化?我將使用Chinchilla的縮放定律和未來訓練成本的預測來進行初步估計,然后考慮可能偏離Chinchilla趨勢的方式。對于未來的訓練成本,我考慮了Besiroglu等人(2022)的預測,他們分析了500多個現(xiàn)有模型,以推斷機器學習中的計算趨勢。
他們對2030年訓練FLOP的中央預測是4.7e28,范圍為5.1e26至3.0e30。Metaculus也有類似的估計為2.3e27(截至2031年1月1日)。取幾何中位數(shù),我將使用1.0e28作為我對訓練FLOP的估計,這相當于GPT-3的33,000倍增長。
由于Chinchilla的縮放定律暗示模型大小(因此推斷成本)隨著訓練成本的平方根增長,這意味著訓練成熟度應該增加sqrt(33000),大約是180倍。因此,3400年的人類思維時間將增加到620,000年。
然而,還有一個額外的考慮,即GPT-3實際上在訓練規(guī)模上存在不足。給定其訓練成本,GPT-3的理想大小應該是現(xiàn)在的四分之一,因此需要添加一個額外的因子4,得到2.5M年的人類思維時間,范圍從0.8M到9M,考慮到訓練FLOP數(shù)量的不確定性。
接下來,讓我們考慮與Chinchilla的縮放定律偏離。最明顯的偏離是我們可能很快就會耗盡數(shù)據(jù)。這可能意味著相對于更多的數(shù)據(jù),更大的模型變得更有吸引力(這會減少訓練成熟度),或者我們生成額外的合成數(shù)據(jù)(使創(chuàng)建數(shù)據(jù)更加計算密集,這會增加訓練成熟度),或者我們轉(zhuǎn)向新的數(shù)據(jù)豐富的形式,比如視頻(對訓練成熟度的影響不明確,可能會增加它)。粗略地界定這些效應:
下限:Villalobos等人(2022)估計,到2026年,我們將耗盡高質(zhì)量的語言數(shù)據(jù)(例如維基百科、書籍、科學論文等),盡管我們在2030年之前不會耗盡低質(zhì)量的數(shù)據(jù)(例如網(wǎng)頁)。在一個悲觀的情況下,高質(zhì)量數(shù)據(jù)是一個完全具有約束力的條件,Villalobos等人的模型意味著數(shù)據(jù)集的大小到2030年會增加8倍,訓練成熟度只會增加8倍,而不是180倍。
上限:如果我們用盡了數(shù)據(jù),我們可能會生成新的合成數(shù)據(jù)。Huang等人(2022)中的一個可能性是像鏈式思維精餾一樣。在那篇論文中,每個輸入實例會生成32個思維鏈,其中只有一部分用于訓練更新。假設平均有5個32個思維鏈用于訓練更新,并且反向傳遞的成本是前向傳遞的兩倍。那么,每次訓練更新的成本相當于8.4個前向傳遞,相比之下之前是3個,或者增加了2.8倍。在Chinchilla的縮放定律下,這個成本前傳到訓練成熟度的額外增加,即sqrt(2.8) = 1.7倍增加,即300倍而不是180倍。
總體而言,下限對我來說似乎相當悲觀,因為我們幾乎肯定會找到一些方法來利用低質(zhì)量或合成數(shù)據(jù)。另一方面,除了耗盡數(shù)據(jù),我們可能會通過課程學習等方式找到使訓練過程更加高效的方法。在考慮這些因素的情況下,我個人的猜測是,我們的訓練成熟度將在12倍至200倍之間,中央估計為100倍,從而得到大約18萬年的人類思維時間的訓練成熟度。我們還需要擴大范圍,以考慮到對Chinchilla縮放定律的偏離所帶來的額外不確定性。主觀地說,我會將范圍增加到40萬到1000萬。
所有這些估計都是針對2030年的。一般來說,上述數(shù)字對于晚些年份來說會更大,而對于早些年份來說會更小。
作為一個額外的比較點,Karnofsky(2022年)(在Cotra,2020年的基礎上)估計,培訓一個人類級別的模型所需的計算量足以讓100百萬份模型每個運行一年,盡管這個估計假設培訓使用了1e30個浮點運算(FLOPs)而不是1e28。即使考慮到這一點,對我來說似乎有點過高了,根據(jù)上面的平方根縮放,我會更接近180萬而不是1億。
不過實際上,如果做得正確,零階預測已經(jīng)會很有幫助了!許多對ChatGPT感到驚訝的人可能已經(jīng)對text-davinci-003感到印象深刻,雖然后者發(fā)布得更早,但界面不太友好。
作為具體的比較點,GPT-3的計算量只足以進行3400個經(jīng)過人類調(diào)整的工作年,我猜它每天可能不到100個經(jīng)過調(diào)整的學習年。我猜GPT-4的計算量約為13萬人類調(diào)整的工作年和125個調(diào)整年的學習。因此,GPT2030在這兩個軸上至少是一個數(shù)量級更大。
在整個文檔中,括號中的范圍表示我的預測分布的25th到75th百分位數(shù)。實際上,范圍可能過窄,因為我只進行了主線預測,沒有考慮“其他”選項。
從定性上看,GPT-4 Bubeck等人還發(fā)現(xiàn),GPT-4可以零射擊生成一個400行的3D游戲,這對于幾乎所有人類來說可能是不可能的。
關于此事的討論,請參閱“Forecasting ML Benchmarks in 2023”。
具體來說,我會給以下情況分配50%的概率:“如果我們從Electronic Journal of Combinatorics中隨機選擇5個定理陳述,并將它們交給UCSD的數(shù)學系,GPT2030在解決問題的比例上會比中位數(shù)教員解決的問題多,并且在解決問題時所需的時間會比中位數(shù)教員短。”
我假設初始訓練運行時間不到一年(Sevilla等,2022年),因此可以推出該組織至少可以并行運行9 x 10^11次前向傳遞,但要受到推理速度的限制。為了在2.4個月內(nèi)做到這一點,他們可能需要進一步改進。
我認為這是合理的(但不確定),因為組織可能在不到一年的時間內(nèi)訓練了該模型,并且在推理方面可能有一些技巧可用,這些技巧在訓練中不可用。
第二個因素是,GPT-3的訓練是不完美的,使用Chinchilla風格的理想大小本應是更小的,所以我們需要額外增加4倍的因子,從而得到2.5百萬人年,范圍從0.8百萬到900萬,考慮到訓練FLOP數(shù)量的不確定性。
此外,根據(jù)Metaculus的估計,2030年最大的訓練模型將具有2.5e15個參數(shù)(截至2030年1月1日),意味著前向傳遞成本為5e15 FLOPs。如果我們簡單地計算比值,我們會再次得到9e11次前向傳遞,但我認為這不是正確的計算,因為最大的訓練模型可能不會是當時的尖端水平,而更像是174萬億參數(shù)的BaGuaLu模型。
我根據(jù)Metaculus對其估計的25%到75%百分位數(shù)范圍為5M到660M,并將不確定性傳遞到平方根函數(shù)中。