【ITBEAR】近期,關(guān)于人工智能領(lǐng)域中的Scaling Law是否已失效的爭(zhēng)論愈演愈烈,引發(fā)了業(yè)界的廣泛關(guān)注。
這一爭(zhēng)議的起因源自多家權(quán)威媒體的報(bào)道。The Information率先披露,OpenAI的內(nèi)部消息顯示,其GPT系列模型的更新速度明顯放緩。據(jù)悉,即將推出的新一代旗艦?zāi)P蚈rion,雖然在性能上有所提升,但并未實(shí)現(xiàn)如GPT-3到GPT-4那樣的質(zhì)的飛躍。OpenAI因此正在調(diào)整其發(fā)展戰(zhàn)略。
隨后,路透社也發(fā)表文章指出,由于當(dāng)前的方法論遭遇瓶頸,OpenAI以及其他多家AI公司正在積極尋找通往更智能AI的新途徑。緊接著,彭博社的報(bào)道進(jìn)一步加劇了這一爭(zhēng)議,稱OpenAI、谷歌和Anthropic三家AI公司在開發(fā)新模型上的投入與回報(bào)之間的差距正在不斷擴(kuò)大,其中谷歌即將推出的新版Gemini模型并未達(dá)到內(nèi)部預(yù)期,而Anthropic則推遲了備受矚目的Claude 3.5 Opus版本的發(fā)布。
盡管隨后OpenAI的創(chuàng)始人山姆·奧特曼和微軟AI主管Mustafa Suleyman紛紛出面否認(rèn)存在放緩的情況,但不可否認(rèn)的是,模型界的“三巨頭”在預(yù)訓(xùn)練方面確實(shí)遇到了前所未有的挑戰(zhàn)。這不禁讓人質(zhì)疑,Scaling Law的邊界是否已經(jīng)悄然到來?
Scaling Law,也被稱為尺度定律,一直被視為大模型預(yù)訓(xùn)練的第一性原理。2020年,OpenAI發(fā)布的論文首次揭示了模型參數(shù)量、數(shù)據(jù)集大小和訓(xùn)練計(jì)算量之間的冪律關(guān)系,這一發(fā)現(xiàn)為大模型的快速發(fā)展奠定了理論基礎(chǔ)。從GPT-3到GPT-4,再到Gemini和Claude,Scaling Law的“暴力美學(xué)”一次次被驗(yàn)證。
然而,隨著模型參數(shù)的不斷增加,對(duì)數(shù)據(jù)量的需求也呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。人類互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)正在被大模型迅速“吞噬”,而高質(zhì)量文本數(shù)據(jù)的稀缺性更是成為了制約模型進(jìn)一步發(fā)展的關(guān)鍵因素。The Information指出,OpenAI在訓(xùn)練下一代ChatGPT 5時(shí)就遭遇了數(shù)據(jù)瓶頸,Orion模型在預(yù)訓(xùn)練階段只用了20%的訓(xùn)練量就達(dá)到了GPT-4的水平,但后續(xù)增加訓(xùn)練量對(duì)模型性能的提升卻微乎其微。
谷歌和Anthropic同樣面臨著這一困境。谷歌的Gemini模型表現(xiàn)不佳,Anthropic則推遲了Claude 3.5 Opus的發(fā)布。在國(guó)內(nèi),也有多家AI初創(chuàng)公司和大廠開始轉(zhuǎn)向應(yīng)用層,減少對(duì)預(yù)訓(xùn)練模型的投入。這從側(cè)面印證了Scaling Law目前所面臨的困境。
除了數(shù)據(jù)稀缺性,大模型預(yù)訓(xùn)練過程中的算力、電力等能源消耗以及高昂的成本也成為制約其發(fā)展的因素。OpenAI的研究者Noam Brown曾公開表示,更先進(jìn)的模型可能在經(jīng)濟(jì)上不可行。超大規(guī)模語(yǔ)言模型的預(yù)訓(xùn)練過程極其耗費(fèi)資源,單次訓(xùn)練成本可達(dá)數(shù)千萬至數(shù)億美元,而性能提升卻十分有限。
面對(duì)這一困境,業(yè)界開始尋找新的擴(kuò)展定律。事實(shí)上,目前討論的Scaling Law撞墻更多是指預(yù)訓(xùn)練擴(kuò)展定律(Pre-training Scaling Law)。而后訓(xùn)練擴(kuò)展定律(Post-training Scaling Law)和推理擴(kuò)展定律(Inference Scaling Law)則關(guān)注如何在模型訓(xùn)練完成后,通過增加推理階段的計(jì)算量來提升模型性能。
OpenAI推出的O1推理模型正是基于這一思路。通過在推理階段增加計(jì)算資源和時(shí)間,O1模型能夠智能地分配計(jì)算資源,提供更準(zhǔn)確和高效的答案。微軟CEO薩蒂亞·納德拉也在微軟Ignite大會(huì)上表示,看到了“測(cè)試時(shí)計(jì)算”新的擴(kuò)展規(guī)律的出現(xiàn),并指出微軟Copilot的“深入思考”功能也是利用這一規(guī)律來解決更難的問題。
國(guó)內(nèi)企業(yè)也紛紛跟進(jìn)。DeepSeek推出了全新的推理模型DeepSeek-R1-Lite-Preview,性能直逼O1。DeepSeek-R1在數(shù)學(xué)和編程方面表現(xiàn)出色,甚至在一些競(jìng)賽中領(lǐng)先O1。其背后的關(guān)鍵技術(shù)就是超長(zhǎng)推理時(shí)間和強(qiáng)化學(xué)習(xí)。
月之暗面也在其成立一周年之際公布了數(shù)學(xué)模型k0-math的進(jìn)展情況。k0-math同樣采用了強(qiáng)化學(xué)習(xí)和思維鏈推理技術(shù),展現(xiàn)了強(qiáng)大的推理能力。阿里、昆侖萬維等國(guó)內(nèi)企業(yè)也上線了相關(guān)的推理大模型產(chǎn)品。
隨著技術(shù)的不斷發(fā)展,業(yè)界正在從預(yù)訓(xùn)練向推理層轉(zhuǎn)向,尋找新的Scaling Law。盡管短期內(nèi)可能會(huì)遇到技術(shù)瓶頸和成本效益比下降的問題,但從長(zhǎng)遠(yuǎn)來看,AI的軟硬件能力仍然會(huì)呈指數(shù)增長(zhǎng),通過多種創(chuàng)新路徑共同推動(dòng)AI技術(shù)的快速發(fā)展。