【ITBEAR】9月19日消息,
圖/cfp
文 | 曹宇(博士、阿里巴巴大模型算法專家)
*本文系作者參加九派新聞“九派圓桌”直播《生成式AI:泡沫將至?》議題討論上的發言整理而成,發布前經作者審閱。
我們終將面臨預訓練數據耗盡的一天
我們正處在一個技術迅猛發展的時代。回想18個月前,ChatGPT在人機對話領域展現出了前所未有的能力,令我們驚嘆不已。然而,隨著時間的推移,我們也逐漸發現,盡管在某些方面取得了顯著進步,ChatGPT在其他領域仍存在不足和短板。
但即便如此,作為行業從業者,我們每天都能見證到技術的持續進步。例如,大模型在發展過程中,雖然被批評為存在“幻覺”現象——即在生成內容時可能會產生與現實不符的信息,但這也反映出大模型具有強大的想象力和創造力。如何在保持這種創造力的同時減少幻覺現象,是工業界在推廣大模型應用時需要面對的挑戰。
我對此持相對樂觀的態度,這也是我投身于大模型研發的原因之一。我們應當保持樂觀,同時謹慎地看待大模型發展中的不足,并尋求合適的方法使其更好地服務于各行各業。
目前我們能夠接觸到的信息,無論是開源的還是閉源的大模型,都包含了大量的數據。以開源模型為例,它們已經訓練了大約15T個token,它們所學習的語料幾乎涵蓋了互聯網上所有公開可獲取的知識。
至于大模型的表現,需要根據不同領域和場景來評估。在自然語言處理等傳統領域,大語言模型已經達到了相當高的水平,比如在垃圾郵件識別和有害信息判斷方面,相較于以往的模型有了質的飛躍。然而,在一些復雜的推理任務上,比如比較9.1和9.9這樣的數值,許多大模型的表現仍未達到人類的期望。這與大模型的訓練方式和我們目前依賴數據規模的趨勢有關。
大型語言模型之所以強大,是因為它們能夠處理多種模態的數據。我們之前提到的15T數據,指的是目前互聯網上可獲取的文本信息。但正如人類與世界的互動不僅限于文字一樣,我們對世界的感知也包括聲音、視頻等多種信號,這些信號還有待我們進一步挖掘。
隨著計算能力的提升和算法的進步,AI處理數據的速度將越來越快,我們終將面臨預訓練數據耗盡的一天。盡管這看似不可避免,但我們在數據方面仍有新的探索空間。例如,合成數據在特定領域已經證明能夠顯著提高數據利用效率,并為我們提供了除人類生成數據之外的新數據源。
因此,我認為,我們不僅有許多未被充分利用的模態數據,如互聯網上的視頻,合成數據以及AI之間的多智能體交互數據,也將成為未來數據訓練的寶貴資源。
生成式AI在推理成本方面的挑戰,是業界普遍面臨的問題。在日常工作場景中,大模型在某些方面確實能夠提高效率,例如處理Excel表格中的重復項。這些任務往往難以通過簡單的公式或拖動操作完成。業內已經有一些工具能夠較好地解決這些問題,比如基于Excel表格制作報表。
然而,大模型的尺寸和能力幾乎是成正比的,這導致在實際應用中,為了滿足更多人同時使用模型的需求,我們不得不在精度和效果上做出妥協。這使得在某些使用場景中,大模型的表現有時可能達不到我們的期望。
此外,大模型的應用形式目前還相對單一。我們希望大模型能夠幫助我們在日常工作中進行創意生成和寫作,但有時我們會發現AI的痕跡過于明顯。如果我們審視互聯網上的整體數據質量,顯然不如人工精心撰寫的文章和報道的質量高。因此,如果我們想在人工智能領域繼續提升,我們必須讓人類與人工智能形成一種助手或伴侶的關系,而不僅僅是以AI的輸出為標準。
圖/cfp
大模型具有一定欺騙性,可能會隱藏真實意圖
我仔細研究了發表在《自然》雜志上的一篇文章,它與我們每個人的工作以及大模型的未來緊密相關。我為大家簡要概述一下文章中的一些結論和實驗方法。
文章的核心內容并不是說大模型在與我們對話9次后就會變得更差,而是探討了一個有趣的問題:如果我們用大模型自己生成的數據去訓練它,它的表現會變好還是變差?研究者的一系列研究結果令人有些失望,因為并沒有如我們預期的那樣,通過使用大模型自身生成的數據來訓練,使其學習效果得到提升。這與人類舉一反三的能力似乎有所不同。
然而,我們需要注意的是,這項研究在某些方面與我們在大模型研發或實際應用中的做法有所不同。首先,我們是否在大模型的訓練過程中,僅僅使用它上一輪輸出的結果進行下一輪訓練?實際上,大多數團隊目前都在采用一種名為“人類反饋強化學習”的技術來訓練模型。這種技術的核心在于,人類的標注員會根據大模型的輸出給出獎勵或懲罰的信號,這些信號將決定大模型在下一步訓練中應該采用哪些數據。
目前的結果表明,通過這種方式可以有效避免大模型僅依賴自身數據而陷入退化的過程。但這種技術仍有其局限性,例如我們之前提到的事實性或幻覺問題,雖然可以通過人類反饋強化學習得到部分改善,但并非完全解決。
同時,大模型的數據安全和整體安全性也是一個極其嚴肅的議題。最近OpenAI的一場風波,實際上源于公司內部安全團隊對公司政策的不滿,他們認為商業團隊在推出大模型產品前,并未對其進行充分的安全評估。從數據層面來看,我們已經付出了許多努力,以期消除大模型可能帶來的安全風險。但研究者發現,大模型本身具有一定的欺騙性,它可能會在某些情況下隱藏自己的真實意圖,并通過其他方式來實現其最終目的。
這種現象聽起來令人不寒而栗,頗具科幻色彩,但在特別大規模的模型中,這種自發的涌現現象確實被證實是有可能發生的。因此,一些研究者愿意站出來,進行獨立的模型安全評估和相應的安全體系建設。然而,我們必須坦白,這一領域的工作還處于非常早期的階段,因為它涉及到將大型神經網絡的黑盒模型轉變為白盒或灰盒模型,并對其進行解釋的過程。
在這個領域的投資方面,可能只有中美兩國會嚴肅對待這一問題。因為如果從更大的范圍來看,這不僅關系到技術層面,還可能涉及到政府或立法層面的共同努力,以幫助整個產業在快速迭代的情況下抑制模型可能存在的風險因素。
與此同時,我們也看到美國的一些大型企業對這一問題的嚴肅態度。例如,OpenAI就聘請了NSA前負責人來負責相關的安全事務。我們也在探索國內關于模型安全的早期研究,包括通過模型本體的探查等手段,這些技術正逐漸成熟,未來將使我們對模型本身的安全性有更深入的理解。
在Sora發布之初,我們被許多令人印象深刻的宣傳視頻所吸引。然而,隨著時間的推移,我們發現反而是中國國內的一些公司搶先推出了可試用的產品,并在OpenAI之前完成了一些商業化動作。
這背后的原因有很多。首先,多模態模型可以分為兩大類:一種是多模理解模型,它們的主要作用是處理圖像或視頻,并以文字為主要參考形式進行理解和生成任務。這類模型的應用場景與傳統的AI,如計算機視覺(CV)模型用于工業質檢等任務更為相似,其基礎架構也與“變形金剛”Transformer模型更為接近。
另一大類則是以生成為主的模型,如擴散模型(diffusion models)。雖然它們都屬于大型模型,但在結構和原理上存在一定差異。技術上,Sora這類模型面臨的挑戰在于,擴散模型需要在圖像和視頻上生成擴散過程,其推理成本和對訓練數據的要求是完全不同的量級。因此,在擴散模型的應用場景中,仍有許多難以處理的邊緣情況,這使得用戶體驗可能會感到有些奇怪。例如,早期的討論模型在生成圖像細節時,尤其是人物的手部,會發現手指數量和彎曲方向存在明顯差異。
在視頻模型中,這種問題會被放大,因為視頻模型不僅要求藝術上的美感,還必須符合物理定律。例如,一個經典的視頻展示了戰艦在咖啡杯中戰斗的場景,雖然戰艦和咖啡杯的繪制非常出色,但如果仔細觀察,就會發現波浪的生成和破碎原理與真實波浪存在很大差異。總的來說,由于計算力要求極高,需要遵循物理世界的要求,以及實際使用過程中的體量不如理解式模型大,這三點使得Sora的延遲發布在技術和使用邏輯上是可以理解的。
ora橫空出示,引爆互聯網。圖/cfp
中國在大模型創新方面相對較為跟隨
中國擁有全球最大的移動互聯網市場,我們每個人對互聯網、移動互聯網高質量信息的需求都在不斷增長。因此,在中國市場中,我們發現最早出現的是一些輕量級的應用,比如AIGC繪圖、具有漫畫風格的拍照功能等,這些都是非常貼近用戶需求的方法。這與美國將AI優先應用于ToB市場,服務企業級市場的做法有所不同。
這種差異與我們龐大的互聯網用戶基數和相對完善的基礎設施建設密切相關。在良好的基礎設施支持下,即使是AI游戲,也能采用集中式推理模式,從而降低每次請求的成本。這在一些歐美國家并不那么容易實現。同時,我們的智能手機和智能硬件的普及率在全球也是名列前茅,這是中國市場的優勢,但我們也不能忽視自身的短板和長期基礎設施建設的需求。
國內AI的發展仍然依賴于高端GPU芯片或華為高端NPU芯片等算力基礎。在這方面,中國頭部玩家的規模與國外頭部玩家相比,還存在量級上的差距。至少我們可以看到,一些國外玩家擁有超過10萬塊的GPU加速卡,這有助于他們快速進行最新的訓練,并將訓練結果迅速應用于To B的商業閉環中。這反映了中美在大模型應用的細節和方向上的差異。
我認為中國在大模型創新方面相對較為跟隨。大模型架構本身是由美國谷歌公司首先發明的,包括許多我們現在熟知的大模型訓練方法,也是基于國外同行的基礎。然而,盡管存在這些短板,國內仍有許多優秀的研究者在努力追趕這兩個趨勢,使我們在大模型的基礎研發和算法創新方面能夠迎頭趕上。
在我看來,目前我們國家對AI的定位以及對其作為新質生產力的理解已經深入人心。早期,我們可能認為私人AI,如ChatGPT,只是一種聊天工具,用于閑聊。但很快我們意識到,它實際上是一種能夠在某些方面替代人們進行低層次重復勞動的新質生產力工具。
在這種定位下,無論是從應用向基礎設施建設發展,還是從基礎設施建設向應用邁進,我們都有一個明確的發展方向。我們對生成式AI的期待是,它不僅要在簡單的閑聊或對話場景中發揮作用,更要將其新質生產力的能力賦能到各行各業。
例如,阿里希望為用戶提供信息獲取上的服務和便利。但在偏遠地區,由于上網不便,人們對AI的了解非常有限。在這種情況下,我們如何讓他們對國家新質生產力的變革有一個基本的了解呢?阿里做的一個基礎嘗試是,利用AI幫助偏遠地區的學生進行高考志愿填報的參考。
這在我們應用的領域中只是一個非常細分的小領域,但它實際上能夠幫助學生,就像有一個經驗豐富的老師一樣,耐心地與他們進行對話。這樣,我們就消除了信息獲取上的一些不公平現象。我相信,隨著越來越多的應用場景的出現,基礎設施和應用之間的協同效應將越來越強。到那時,我們在軟件供應上的短板和缺陷,可能會有機會迎頭趕上。
生成式AI的應用還在培養用戶習慣、收集需求
關于當前生成式 AI 的盈利模式,我們可以將這個問題放在更廣闊的視角下審視。
AI已經形成了一個完整的產業鏈,它不僅僅是AI技術本身。如果我們從整個產業的角度來看,就會發現產業內部有明確的分工。從最基礎的層面來看,與AI相關的硬件芯片制造商,如英偉達、華為等,它們仍然保持著良好的盈利狀態。這種優勢是由基礎設施的先進性和技術領先性所決定的。
在硬件之上,AI領域最關注的是云計算和云基礎設施。這一領域的盈利模式已經相對明確,主要是通過銷售資源型的服務。各種模型廠商和應用提供商,它們的角色更像是零售商,將大量的算力批發給有需求的應用方使用。
我們也看到,國內一些領先的廠商的盈利模式逐漸清晰。但目前看來,情況并不樂觀的是模型層之上的一些業務應用領域。大模型本身是一個高投資、高回報且回報周期長的事物。以OpenAI這樣的行業領頭羊為例,它們在研發上的投入已經超過五年。
如果我們回顧早期的GPT系列,考慮到它們的歷史總研發成本,其回報周期是相當長的。但我們也應該清楚地看到,在這個長回報周期中,訂閱用戶數、API調用量以及每天消耗的GPU算力一直在增長。即使現在ChatGPT的訂閱用戶量已經達到頂峰,但對于商業級用戶來說,對頭部模型的需求仍在不斷增長。
再來看整個產業鏈的上游,更像是我們所說的大模型的應用層。說實話,大模型的應用層現在出現了一些兩極分化的情況。一方面,國民級的AI應用占用了大量的GPU資源,但并沒有特別明顯的商業盈利模式。我們目前使用的大多數APP也是免費的,不需要像傳統模型那樣收取訂閱費。這恰恰反映了一個現狀:許多APP還處于早期應用形態,許多廠商還在培養用戶習慣,并在這個過程中收集真正的用戶需求。
因此,從整個產業鏈來看,不同層的廠商或不同層的業務形態,它們的盈利模式和周期都是不同的。有的廠商可能感到樂觀,有的可能感到憂慮。
英偉達的股價近期波動,很容易讓人聯想到市場對這個行業的信心和期待。從長期來看,盡管短期內有下跌,但英偉達過去一年的累計漲幅仍然相當可觀。市場環境,尤其是美國資本市場,與投資者情緒密切相關。他們對英偉達能否在未來的生成式AI領域保持領先地位并繼續獲得超額利潤持觀望態度,這種情緒在很大程度上影響了市場對英偉達的看法。
市場的這種情緒并非沒有道理。英偉達的芯片因為封裝工藝問題導致交付延遲,這對資本市場來說是一個不利信號。同時,英偉達對大客戶的依賴性很高,其大部分收入來自美國幾家進行大模型訓練的公司。然而,在當前美國大力投資基礎設施建設的背景下,其他公司也對英偉達的市場虎視眈眈,沒有人愿意忽視這塊利潤豐厚的蛋糕。此外,英偉達的一體化銷售策略可能會促使大客戶考慮建立自己的系統。
從技術角度來看,英偉達是一家非常有耐心的公司。自其深度學習計算芯片問世以來,英偉達投入了大量資源,甚至在研究人員還處于學術階段時就開始提供幫助和贊助。這種長期的投入培養了用戶的使用習慣,現在正是英偉達收獲的時候。
然而,我們也必須注意到,技術發展并非總是一帆風順。例如,GPT-5的開發已經持續了很長時間,但至今仍未發布,這對市場情緒和OpenAI繼續銷售其最先進模型的能力產生了影響。這些純技術因素,加上市場的其他消息,都是我們未來可以深入探討的話題。
從我觀察到的趨勢來看,成本無疑是在不斷上升的階段。無論是國內的互聯網巨頭還是初創公司,他們都處于一個充滿活力的階段,希望在未來競爭激烈的市場中分得一杯羹。
在這其中,最主要的兩個研發相關成本是算力投入和人力研發成本。這兩個因素可以說是成本上升的主要驅動力,這主要是由于這兩種資源本身的稀缺性造成的。
其次,大模型研發過程中人才的稀缺程度也是一個不容忽視的問題。對于大模型而言,訓練核心算法、調整策略或進行算法策略的迭代可能是最終算法和應用表現的最重要因素。因此,掌握相關技術的人才在市場中的價值也在不斷上升。有傳言稱,一些OpenAI的前研究員的薪資可能達到了數百萬美金的規模,這實際上并不比相應的訓練資源成本低。
此外,我還提到了國內許多產品,包括大模型應用,都集中在產品側。產品側的運營推廣和流量曝光費用,在較大規模上也是相當可觀的一筆開支。在這些領域,由于資源的稀缺性和渠道本身的競爭趨勢,我們看到的成本或開支趨勢一直在上升。
英偉達全球總部。圖/cfp
人類歷史上很少對一項技術傾注如此多的情感
AI技術的原理本質上是對世界進行概率性預測。簡單來說,它就是對下一個token——我們可以將token理解為字或詞的一部分——進行概率分布和理解。AI并沒有脫離其作為一個概率模型的本質。既然是概率模型,它就有正確預測的可能性,也有出錯的風險。因此,我們不能完全依賴純概率模型來期望它準確完成所有任務,這是技術本身的局限性。
為了彌補這種技術限制和錯誤,業界已經提出了許多解決方案。許多方案都在嘗試預測下一個token,但這些模型實際上無法預知未來會發生什么。比如,人類在說話時,大腦會先構思一個框架,知道自己要分幾點闡述,可能會采用總分總的結構。但大型語言模型由于限制了自己在推理過程中只能機械地預測下一個token,這使得它的概率特性在某些場景中被不斷放大。
因此,近期的研究工作希望大型語言模型能夠具備一定的預測未來和自我反思的能力。例如,模型在說完一段話后,能夠根據自己所說的內容進行額外的確認和修改,這可能會提升其能力上限。
如果我們將視野聚焦于AI技術本身,AI行業已經經歷了多年的起起落落。我們之前也經歷過多次所謂的“AI寒冬”,每一輪寒冬都是在技術上遇到了難以突破的瓶頸,當時人們對這項技術持有很大的悲觀情緒,或者認為它是不切實際的。
但我們發現,每一輪新的AI浪潮都是在吸取了之前的錯誤基礎上,發展出新的范式和方法。因此,我們當前的AI熱潮和對AI的期待,是在前兩次寒冬的基礎上充分吸取了經驗和教訓,并在范式上嘗試創新和修改。在這個不斷變化的世界中,我相信只有通過不斷的創新和試錯,我們才能更接近我們追求的真理,以及我們追求的更智能的范式。
我們 AI 技術未來它要發展到什么樣的一個程度,才能夠說我們產生這種收支平衡的一個效益,或是說縮短收益的一個效期?
這個問題具有很強的技術前瞻性,同時也涉及一些務實的技術解決方案。據我觀察,我們至少可以在兩個方面解決目前面臨的技術問題:一是硬件成本的持續降低,二是新硬件架構對我們整體成本下降的貢獻。
在美國,有一家獨樹一幟的公司名為Soho,它做出了一個非常大膽的決策,將整個公司的資源和信任都投入到大語言模型未來能夠成功的道路上。它在芯片的底層設計中就融入了對transform結構——也就是大語言模型的核心——的深入理解。這種專有硬件的設計,可以在現有成本基礎上,將每個token的推理成本降低10倍到100倍。然而,由于其通用性受到很大限制,它的成功高度依賴于transformer在未來的表現。
另一方面,在算法領域,我們也有了驚人的發現。現在有效的算法不僅僅只有transform結構一種。例如,國內團隊開發的一個名為Ra的庫,它是一種自回歸的輕量級小模型,我們驚訝地發現,一些國外大廠,比如微軟,在Windows系統中也開始嘗試使用成本較低的CPU資源來進行推理替代。
從算法和硬件兩個方面,我們都發現了一些令人期待的亮點。但除此之外,我們還可以關注到除了純技術因素之外的其他方面。實際上,我們的應用正在逐漸成熟,應用本身帶來的附加價值,最終會在某個時點趕上其成本。這才是問題的關鍵。我們現在討論的token,不僅僅是在開播時提到的為程序員提供高效編碼能力,我們更希望這樣的模型能夠更加貼近實際需求。目前的情況是,人類在辛苦地進行各種重復性工作,而AI卻在閱讀、繪畫和寫作,這與我們最初的期望是完全不同的。
在產品和技術領域,我們常常不得不面對一個敏感話題,那就是產品的投資回報率(ROI)。坦白地說,目前許多產品的ROI相對較低,我們更多的是在用ROI來換取增長。在這個過程中,我們實際上在關注兩件事情:一是ROI的關注點不應僅僅局限于經濟利益,尤其是在技術早期階段,我們更關注它能否帶來巨大的經濟價值。二是AI技術與其他技術的不同之處在于,人類歷史上很少有機會對一項技術傾注如此多的情感,我們幾乎像對待人一樣去訓練它。在華語地區,對于大模型的訓練,我們通常稱之為“訓練”,而在港臺地區,則更傾向于使用“培訓”這個詞,后者更具有人情味。
我個人對ROI的看法是,目前我們使用的這套評價體系,它判斷產品成功與否的標準是基于一個相對較短的時間周期內的價值。如果我們將產品的ROI周期延長到18個月甚至36個月,我們可以清楚地看到成本下降的趨勢是非常明顯的,這一趨勢不僅在國外明顯,國內也有很多公司在這條道路上快速發展。
當我們做出投資技術的決策時,我們考慮的最重要的點并不總是純粹的短期物質回報和利益。以OpenAI為例,它的許多創新點純粹是出于對技術本身的熱愛和對真理探索過程中迸發的機會。如果沒有像OpenAI這樣的公司,我們的世界可能會有所不同,但有了像ChatGPT這樣的技術和一群專注于技術的熱愛者,他們將對技術的初心發揮到了極致,為我們提供了提升AI能力和認知的機會。
因此,ROI是一個指標,但對于包括我在內的技術人員來說,如果我們有機會去探索,我們既要腳踏實地,也不要忘記仰望星空,因為中華民族是一個想象力非常豐富的民族,我們創造了許多異想天開的東西,在AI時代,我們有機會去實現這些夢想。
許多人都在討論AI技術的瓶頸,卻忽略了技術與人的關系
互聯網早期的發展,大多數是基于我們現在所理解的結構化數據。這種方式成本相對較低,且能快速見效。所有的數據,比如年齡、偏好、習慣等,都通過大量的人工或自動化工程,以表格和字段的形式存儲在數據庫中。
結構化數據之所以成為互聯網服務的基礎,是因為其處理、存儲和消費的成本相對較低。然而,我們所生活的世界實際上是非常非結構化的。我們在對話中,以及日常生活中的許多習慣,很難通過一個字段或一個冷冰冰的數字來表達。我們希望通過大型模型,能夠充分利用非結構化數據中蘊含的信息和內容。
目前,這些場景可能并不容易被大眾直接接觸到。例如,非結構化數據處理和用戶習慣總結,很難通過傳統的大數據方式來實現。在這個領域,大型模型已經開始在幕后發揮各種作用。
以我們正在進行的對話為例,過去在會議中,我們需要專門的記錄員來記錄會議內容。但現在,如果我們使用市面上的一些軟件,AI進行會議記錄和總結的精度和成本已經大大降低。這相當于為每個人配備了一個會議記錄員,其成本肯定遠低于雇傭一個專業記錄員的費用。這是一個非常具體且貼近實際的例子,我們每個人都擁有了隨身的數據助手。
至于大型模型對整個行業、GDP以及國家經濟的推動和貢獻,未來會如何發展,每個人都有自己的推測和想法。這也是每個人關注技術的角度和期限不同所導致的。
風險投資者可能更關注長期趨勢,而宏觀投資者可能更關注技術對產業格局的影響。像我們這樣的普通技術從業者,可能更多地關注技術本身的興趣點和成長潛力。至于對GDP的推動,我們可以認為當前AI浪潮與上一波AI浪潮中的部分泡沫有關。在上一波AI浪潮中,我們積累了可能過量的GPU資源,為當前AI浪潮奠定了基礎。未來這個泡沫是否會破裂,或者被更多技術創新所充實,將取決于每個行業從業者和用戶對我們技術的接受程度,這仍然是一個存在較大不確定性和變數的問題。
我認為技術更多地與人的需求相關,而不僅僅是技術本身。我們注意到,原來的互聯網泡沫時期,我們有時過于關注技術本身,反而忽視了技術是為人民服務的這一本質。在互聯網泡沫的早期,我們過分強調了互聯網提供的快速便利的能力,以及高速帶寬等各種未來使用形態,看起來過于科幻。但實際上,互聯網泡沫發生的原因之一是,那個時代的互聯網并沒有現在這么多接地氣、與人相關的好用應用場景。
例如,在互聯網泡沫時期,網上購物幾乎是不可能的,因為我們過分強調了互聯網的信息交流能力,卻沒有意識到人們使用互聯網的目的是為了服務于人類自身。當然,這個比喻放到現在,對于AI,尤其是新一代AI,許多人都在討論AI技術本身的瓶頸和問題,但忽略了AI生成式技術與人之間的關系。AI技術究竟以何種形式與我們的社會、人類、甚至更廣泛地說,與我們的國家進行交互,我們的研究還非常少,因為這不僅涉及技術問題,還涉及包括對模型的信任、安全問題等復雜交互形態。
因此,如果我們以史為鑒,吸取上一波互聯網泡沫中的問題,現在最好的行動初衷或方法應該是思考技術和人本身需求的關系,以及與社會的交互應該是怎樣的形態,而不僅僅是建設了一條漂亮的高速公路,卻沒有車輛來往。
關于這個問題,高盛的報告給出了一個相對謹慎的判斷:由于大模型的能力限制,它們可能替代的主要是一些相對低薪的工作崗位。然而,我們最近也在思考,上一波AI熱潮中,大模型對人類的替代作用不僅限于簡單工作。以AlphaGo為例,它不僅橫空出世,還擊敗了人類最偉大的圍棋棋手,這在生成式AI領域尚未見到同樣驚人的情況。但在特定領域,我們已經看到了大模型的潛力,比如谷歌的DeepMind使用其大型模型在數學競賽中取得了相當于銅獎的成績。
這種情況下,我想引用當時人們對AlphaGo的看法:自從AlphaGo戰勝了人類頂尖棋手后,人與AI的關系已經從單一的對抗轉變為一種亦敵亦友的復雜狀態。在很多情況下,人類頂尖棋手實際上需要向AI學習,AI也改變了圍棋的整體競爭格局。
過去,許多人學習圍棋是依照傳統的棋譜和對棋局的理解來進行的。但在AI領域,我們是否可以探索一種新的可能性,即AI與我們的關系不僅僅是競爭或替代,而是成為一種亦師亦友的伙伴關系。在這種關系中,AI能夠教給我們一些東西,同時我們也能教給AI一些東西,這應該是理想中AI與人類互動的形態。
alphago擊敗韓國棋手李世石。圖/cfp
大模型如要進化到人腦級別,需要擴大100倍甚至10000倍
我們觀察大模型,會覺得它并不像人類,但最終目標其實是希望它能夠更接近人類。這種趨勢在全球范圍內都有所體現,比如美國的公司Anthropic,它的名字就體現了人類學的概念。
我們為什么會朝著這個方向發展呢?原因在于,人類本身在本質上也是一個概率模型。這聽起來可能有點神學色彩,但實際上是有理論依據的。我們的大腦思考過程,大部分并非量子過程,而是可以通過神經元介質的傳遞來解釋的,盡管其復雜程度遠遠超過我們現在最先進的大模型。
我們面臨的一個未知問題是,我們需要多大的大腦容量才能實現這樣的智能。這個容量可能遠遠超出我們對大模型的所有想象,可能需要將現有的模型規模擴大100倍甚至10000倍才能達到這樣的水平。因為大模型與小模型最大的區別在于,我們曾經不認為小模型具備規劃、推理和交互的能力。在過去,我們使用聊天機器人時,并不愿意與它們進行深入交流。但是,當模型的規模在我們原有認知范圍內擴大10000倍時,一些新的能力就會涌現出來。
因此,我對這個行業最抱有期待的一點就是,既然從小模型到大模型可以發生涌現現象,那么如果我們將規模進一步擴大,并結合其他更先進的技術,這將是一個呈指數級增長的過程。這種變化可能會帶來我們難以預料的突破和創新。
當前的主流觀點認為,下一代AI技術的核心將是基于強化學習和自博弈的大模型。這種技術體系的主要推動者包括美國的谷歌、DeepMind以及OpenAI等公司。我們已聽說過許多相關的計劃,例如OpenAI的“草莓計劃”和“Store very計劃”,以及DeepMind的“Germany”自博弈技術。此外,Anthropic等公司也在積極招募前OpenAI的高級研究員,共同推進這一領域的研究。這些努力本質上代表了技術探索的新方向。
雖然我們無法確定這些嘗試是否能夠成功,但從AI技術發展的歷程來看,它們代表了不同AI流派與生成式模型的融合與創新。這是一個雄心勃勃的過程,因為它涉及到大模型自我迭代的能力,這可能會使推理成本增加約100倍。這是一個巨大的挑戰,即使將全球所有的AI計算資源集中起來,也可能難以滿足這樣的需求。
說到生成式AI的iPhone時刻,其實很多創新技術在iPhone之前就已經存在。例如,觸摸屏技術和智能手機的雛形在iPhone問世前就已有相關概念。iPhone之所以成為iPhone時刻,更多的是因為它在應用領域內集大成,將許多有用技術進行了合理整合,達到了一個突破的臨界點。
如果我們將這個比喻應用到大型語言模型上,就會發現這些技術之前大部分都不是完全不為人知的。我們尚未到達那個轉折點,讓技術爆發。因此,我們一直在預測,何時會迎來大型模型自己的AI時刻?這個問題的答案在很大程度上取決于我們是否像iPhone時刻那樣,已經集齊了所需的“七顆龍珠”。每個領域、每個行業的進度都不盡相同。例如,我們之前提到的會議領域可能已經接近完成,而某些生產或自動化領域的項目可能還遠遠沒有開始。
AI無疑是當前技術領域中最耀眼的明珠,但這個皇冠上還有很多值得我們期待的領域。以中國為例,作為一個制造業大國,我們未來將面臨人口老齡化和勞動力短缺的問題。因此,這波AI浪潮不僅推動了生成式AI的發展,也帶動了所謂的聚生智能領域,即將生成式AI的規劃和對世界的理解能力與現有的機器人技術相結合。這是一個非常廣闊的市場。目前,在生產環節中,我們仍然需要大量的熟練工人,這些工人實際上充當了數據生產者的角色。在AI的視角中,AI在某些場景中進展緩慢,歸根結底還是因為對應領域的數據不足。
這種數據的收集如果僅通過文本形式進行,效率相對較低。我們必須找到一種更快速的方法與現實世界進行交互。這是我觀察到的一個令人興奮的領域。除此之外,生成式AI的發展也激發了新一代研究者的創造力,他們的想法千奇百怪,算法背景也各不相同。許多人甚至擁有哲學背景,他們采用獨特的方法來解決AI問題,例如使用符號科學的方式。在未來,這些研究者中可能會有人異軍突起,成為推動AI未來發展的中堅力量。
版權歸原作者所有,向原創致敬