新智元報道
來源:專知
【新智元導讀】這項綜述性研究報告批判性地分析了生成式AI的發展現狀和發展方向,并探究了谷歌Gemini和備受期待的OpenAI Q*等創新成果將如何改變多個領域的實際應用。
近日,來自澳大拉西亞理工學院、梅西大學和皇家墨爾本理工大學等機構的研究人員進行了一項全面的綜述,深入探討了生成式AI不斷演變的格局。
研究特別關注了混合專家模型(MoE)、多模態學習的變革性影響,以及對通用人工智能(AGI)的推測進展。
論文地址:https://arxiv.org/abs/2312.10868
- 嚴格審視了生成式人工智能(AI)的當前狀態和未來軌跡,探索了像谷歌的Gemini和期待中的OpenAI Q*項目這樣的創新是如何重塑研究優先事項和在各個領域的應用,包括對生成式AI研究分類法的影響分析。
- 評估了這些技術的計算挑戰、可擴展性和現實世界的影響,同時強調了它們在推動像醫療健康、金融和教育等領域顯著進展的潛力。
- 討論了由AI主題和AI生成的預印本的擴散所帶來的新興學術挑戰,檢查了它們對同行評審過程和學術交流的影響。
- 強調了在AI發展中融入倫理和以人為本的方法的重要性,確保與社會規范和福祉的一致,并概述了一個未來AI研究的戰略,該戰略聚焦于MoE、多模態和AGI在生成式AI中的平衡和審慎使用。
人工智能(AI)的歷史背景可以追溯到艾倫·圖靈的「模仿游戲」、早期的計算理論,以及第一批神經網絡和機器學習的發展,這為今天的高級模型奠定了基礎。
這種演變,被像深度學習和強化學習的興起這樣的關鍵時刻突出地表現出來,對塑造當代AI的趨勢至關重要,包括復雜的混合專家模型(MoE)和多模態AI系統,展示了該領域的動態和不斷演進的特性。這些進展證明了AI技術的動態和不斷發展的本質。
人工智能(AI)的演化在大語言模型(LLM)的出現,特別是由OpenAI開發的ChatGPT,以及最近google的Gemini的揭幕,見證了一個關鍵的轉折點。這項技術不僅徹底改變了行業和學術界,還重新點燃了關于AI意識及其對人類潛在威脅的關鍵討論。
這樣的先進AI系統的發展,包括像Anthropic的Claude和現在的Gemini這樣的重要競爭者,它們展示了對比GPT-3和Google自己的LaMDA的幾項進步,重塑了研究格局。
Gemini具有通過雙向對話學習的能力,以及其「spike-and-slab」注意力方法,使其能夠在多輪對話中專注于上下文的相關部分,代表了在開發更適合多領域對話應用的模型方面的重大飛躍。這些在LLM中的創新,包括Gemini所采用的混合專家方法,標志著向能夠處理多樣輸入并促進多模態方法的模型的轉變。
在這種背景下,OpenAI被稱為Q*(Q-Star)的項目的猜測已經浮出水面,據稱結合了LLM的強大能力和像Q學習和A*(A-Star算法)這樣的復雜算法,進一步促進了動態的研究環境。
人工智能研究熱度的變化
隨著大語言模型(LLM)領域的不斷發展,由Gemini和Q*等創新所體現,大量研究浮現出來,旨在描繪未來研究的道路,這些研究從識別新興趨勢到強調快速進展的領域各不相同。
已建立方法和早期采納的二分法很明顯,LLM研究中的「熱門話題」正日益轉向多模態能力和由對話驅動的學習,正如Gemini所展示的那樣。
預印本的傳播加速了知識共享,但也帶來了降低學術審查的風險。Retraction Watch指出的固有偏見問題,以及關于剽竊和偽造的擔憂,構成了重大障礙。
因此,學術界站在一個十字路口,需要統一努力,以根據該領域快速發展的背景來完善研究方向,這種變化似乎可以通過隨時間變化的不同研究關鍵詞的流行程度來部分追蹤。
像GPT這樣的生成式模型的發布和ChatGPT的廣泛商業成功具有影響力。
如圖1所示,某些關鍵詞的興衰似乎與重要的行業里程碑有關,例如2017年「Transformer」模型的發布、2018年GPT模型的發布,以及2022年12月商業化的ChatGPT-3.5。
例如,與神經網絡應用的突破相一致的是對「深度學習」的搜索高峰,而隨著像GPT和LLaMA這樣的模型重新定義了語言理解和生成的可能性,「自然語言處理」的興趣激增。
盡管有些波動,對AI研究中的「倫理/道德」持續關注反映了對AI道德維度的持續和根深蒂固的關切,強調道德考慮不僅僅是一種反應措施,而是AI討論中不可分割和持久的對話。
從學術角度來看,假設這些趨勢是否意味著一種因果關系,即技術進步驅動研究重點,或者蓬勃發展的研究本身推動了技術發展,這是相當有趣的。
本文還探討了AI進步的深遠社會和經濟影響。作者檢查了AI技術如何重塑各個行業,改變就業格局,并影響社會經濟結構。這一分析突出了AI在現代世界中所提出的機遇和挑戰,強調了其在推動創新和經濟增長方面的作用,同時也考慮了倫理影響和對社會的潛在破壞性。
未來的研究可能會提供更明確的見解,但創新與學術好奇心之間的同步互動仍然是AI進步的標志。
與此同時,如圖2所示,在arXiv上發布的計算機科學>人工智能(cs.AI)類別下的預印本數量的指數增長,似乎標志著AI社區內研究傳播的范式轉變。
盡管快速分發研究成果使知識交流迅速,但它也引發了對信息驗證的擔憂。
預印本的激增可能導致未經驗證或有偏見的信息的傳播,因為這些研究沒有經過同行評審出版物典型的嚴格審查和可能的撤回。
這一趨勢強調了學術界需要謹慎考慮和批判,特別是考慮到這些未經審核的研究可能被引用和它們的發現被傳播的潛力。
研究目標
這篇綜述的動力是Gemini的正式揭幕和圍繞Q項目的推測性討論,這促使對生成式人工智能(AI)研究的主流趨勢進行及時審視。
論文具體貢獻于理解混合專家模型(MoE)、多模態和人工通用智能(AGI)如何影響生成式AI模型,為這三個關鍵領域提供詳細的分析和未來方向。
論文旨在批判性地評估現有研究主題中過時或無關緊要的可能性,同時深入探討在快速變化的LLM格局中新興的前景。
預期AI的進步不僅會在語言分析和知識合成方面提高能力,還將在混合專家模型(MoE)、多模態和人工通用智能(AGI)等領域開創先河,并已經宣告了傳統的、以統計為驅動的自然語言處理技術在許多領域的過時。
然而,AI與人類倫理和價值觀保持一致的永恒要求仍然是一個基本原則,而推測性的Q-Star計劃提供了一個前所未有的機會,來引發關于這些進步如何重塑LLM研究地形的討論。
在這種環境中,NVIDIA高級研究科學家Jim Fan對Q的見解,尤其是關于學習和搜索算法的融合,為這種努力的潛在技術構建和能力提供了寶貴的視角。
論文的研究方法涉及使用「大型語言模型」和「生成式AI」等關鍵詞進行結構化文獻搜索。
作者在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等幾個學術數據庫中使用過濾器,以識別2017年(Transformer模型發布)到2023年(本文撰寫時間)期間發表的相關文章。
本文旨在剖析Gemini和Q的技術影響,探討它們(以及類似技術的不可避免出現)如何改變研究軌跡并在AI領域開辟新視野。
在此過程中,我們確定了三個新興的研究領域——MoE、多模態和AGI——它們將深刻地重塑生成式AI研究格局。
本次調查采用綜述式方法,系統地繪制了一幅綜合并分析生成式AI當前和新興趨勢的研究路線圖。
本研究的主要貢獻如下:
1) 對生成式AI不斷演變的格局進行了詳細考察,強調了像Gemini和Q這樣的技術的進步和創新及其在AI領域的廣泛影響。
2) 分析了先進生成式AI系統對學術研究的轉型效應,探討了這些發展如何改變研究方法、設立新趨勢,并可能導致傳統方法的過時。
3) 全面評估了生成式AI在學術界整合中引起的倫理、社會和技術挑戰,強調了將這些技術與倫理規范保持一致的重要性,確保數據隱私,并制定全面的治理框架。
當前生成式AI研究分類法生成式人工智能(AI)領域正在迅速發展,這需要一個全面的分類法,涵蓋該領域內研究的廣度和深度。
如表I所詳述,這個分類法將生成式AI的主要研究和創新領域進行了分類,并作為理解該領域當前狀態的基礎框架,指導我們穿越不斷發展的模型架構、先進訓練方法、多樣的應用領域、倫理含義和新興技術前沿的復雜性。
生成式AI模型架構經歷了顯著的發展,其中四個關鍵領域尤為突出:
- Transformer模型:Transformer模型在AI領域,尤其是在自然語言處理(NLP)中,因其更高的效率和可擴展性而引起了革命性的變化。它們采用先進的注意力機制來實現增強的上下文處理,使得對細微理解和交互成為可能。這些模型也在計算機視覺領域取得了顯著進展,例如開發了EfficientViT和YOLOv8這樣的視覺Transformer。這些創新象征了Transformer模型在如對象檢測等領域的擴展能力,不僅提高了性能,還增強了計算效率。
- 循環神經網絡(RNNs):RNNs在序列建模領域表現卓越,特別適用于處理涉及語言和時間數據的任務,因為它們的架構專門設計用于處理數據序列,如文本,使它們能有效捕捉輸入的上下文和順序。這種處理序列信息的能力使它們在需要深入理解數據時間動態的應用中不可或缺,例如自然語言任務和時間序列分析。RNNs在維持序列上連續性方面的能力是AI更廣泛領域的關鍵資產,特別是在上下文和歷史數據發揮關鍵作用的場景中。
- 混合專家模型(MoE):MoE模型通過在多個專業化專家模塊上部署模型并行處理,顯著提高效率,使這些模型能夠利用基于Transformer的模塊進行動態令牌路由,并擴展到數萬億參數,從而降低內存占用和計算成本。MoE模型因其能夠在不同的專家之間分配計算負載而脫穎而出,每個專家專注于數據的不同方面,這使得更有效地處理大規模參數,導致更高效和專業化地處理復雜任務。
- 多模態模型:多模態模型整合了如文本、視覺和音頻等多種感官輸入,對于全面理解復雜數據集至關重要,尤其是在諸如醫學成像等領域具有變革性作用。這些模型通過使用多視圖管道和交叉注意力模塊,實現準確和數據高效的分析。這種多樣感官輸入的整合,使得數據解釋更為細膩和詳盡,增強了模型準確分析和理解各種信息類型的能力。不同數據類型的組合,同時處理,使這些模型能夠提供全面視圖,特別適用于需要深入和多方面理解復雜情景的應用。
生成式AI研究中的新興趨勢正在塑造技術和人類互動的未來,并表明了一個向更集成、交互和智能化的AI系統的動態轉變,推動AI領域可能性的邊界向前發展。這一領域的關鍵發展包括:
- 多模態學習:AI中的多模態學習是一個快速發展的子領域,專注于結合語言理解、計算機視覺和音頻處理,以實現更豐富、多感官的上下文意識。最近的發展,如Gemini模型,通過在各種多模態任務中展示最先進的性能,包括自然圖像、音頻和視頻理解以及數學推理,樹立了新的基準。Gemini的固有多模態設計體現了不同信息類型之間的無縫整合和操作。盡管取得了進步,多模態學習領域仍面臨著持續的挑戰,例如改進架構以更有效地處理多樣化的數據類型,開發能夠準確代表多方面信息的綜合數據集,以及建立評估這些復雜系統性能的基準。
- 交互式和協作式AI:這個子領域旨在增強AI模型與人類在復雜任務中有效協作的能力。這一趨勢聚焦于開發可以與人類共同工作的AI系統,從而在各種應用中提高用戶體驗和效率,包括生產力和醫療保健。這個子領域的核心方面涉及在可解釋性、理解人類意圖和行為(心理理論),以及AI系統與人類之間的可擴展協調方面推進AI,這種協作方法對于創造更直觀和交互式的AI系統至關重要,能夠在多樣化的情境中協助和增強人類能力。
- AGI開發:AGI代表了打造模仿人類認知的全面和多方面特性的AI系統的遠見目標,是一個專注于開發具有整體理解和復雜推理能力的AI的子領域,這些能力與人類認知能力的深度和廣度密切相關。AGI不僅僅是復制人類智能,還涉及打造能夠自主執行多種任務、展示與人類相似的適應性和學習能力的系統。AGI的追求是一個長期愿景,不斷推動AI研究和發展的邊界。
- AGI限制:AGI安全和限制承認與高度先進的AI系統相關的潛在風險,專注于確保這些先進系統不僅在技術上精湛,而且在倫理上與人類價值觀和社會規范保持一致。隨著我們向發展超級智能系統的方向前進,建立嚴格的安全協議和控制機制變得至關重要。關注的核心領域包括緩解表征偏見、解決分布變化,以及在AI模型中糾正虛假相關性。目標是通過將AI發展與負責任和倫理標準保持一致,防止意外的社會后果。
Q*的推理能力
在蓬勃發展的AI領域中,備受期待的Q項目被視為潛在突破的燈塔,預示著可能重新定義AI能力格局的進步(見圖5)。
A. 增強的通用智能
Q在通用智能領域的發展代表了從專業化到整體化AI的范式轉變,表明了模型認知能力類似于人類智能的擴展。這種高級形式的通用智能涉及整合多種神經網絡架構和機器學習技術,使AI能夠無縫地處理和綜合多方面的信息。通用適配器方法,模仿像T0這樣的模型,可能賦予Q快速吸收來自各個領域知識的能力。這種方法允許Q*學習適應性模塊插件,增強其處理新數據類型的能力,同時保留現有技能,從而形成一個將狹窄專業化結合成為全面、適應性和多功能推理系統的AI模型。
B. 高級自學與探索
在高級人工智能(AI)開發領域,Q*預計將代表自學習和探索能力的顯著進化。有人猜測它將使用復雜的策略神經網絡(NNs),類似于AlphaGo中的那些,但對于處理語言和推理任務的復雜性進行了實質性的增強。預計這些網絡將采用高級的強化學習技術,如近端策略優化(PPO),這穩定了策略更新并提高了樣本效率,這是自主學習中的一個關鍵因素。將這些NNs與尖端搜索算法結合,可能包括思維樹或思維圖的新型迭代版本,被預測為使Q能夠自主導航和吸收復雜信息。這種方法可能會利用圖神經網絡來增強元學習能力,使Q能夠迅速適應新任務和環境,同時保留先前獲得的知識。
C. 卓越的人類水平理解
有人猜測,Q實現卓越的人類水平理解的愿望可能依賴于多個神經網絡的高級集成,其中包括價值神經網絡(VNN),與AlphaGo等系統中的評估組件相似。這個網絡將不僅僅限于評估語言和推理過程中的準確性和相關性,還會深入探討人類溝通的微妙之處。該模型的深度理解能力可以通過先進的自然語言處理算法和技術來增強,比如在DeBERTa等Transformer架構中找到的那些。這些算法將使Q能夠解釋不僅僅是文本,還包括意圖、情感和潛在含義等微妙的社交情感方面。通過結合情感分析和自然語言推理,Q*可以瀏覽各種社交情感洞察,包括共情、諷刺和態度。
D. 高級常識推理
有人預測,Q在高級常識推理方面的發展將整合復雜的邏輯和決策算法,可能結合了符號AI和概率推理的元素。這種整合旨在賦予Q對日常邏輯的直觀理解,以及與人類常識類似的理解,從而彌合人工智能和自然智能之間的重要差距。Q推理能力的增強可能涉及到圖結構化的世界知識,包括物理和社交引擎,類似于CogSKR模型中的引擎。這種以物理現實為基礎的方法預計能夠捕捉并解釋當代人工智能系統經常缺乏的日常邏輯。通過利用大規模知識庫和語義網絡,Q可以有效地應對復雜的社交和實際場景,使其推理和決策更貼近人類的經驗和期望。
E. 廣泛的現實世界知識整合
有人猜測,Q整合廣泛的現實世界知識的方法可能涉及使用先進的形式驗證系統,這將為驗證其邏輯和事實推理提供堅實的基礎。當與復雜的神經網絡架構和動態學習算法相結合時,這種方法將使Q能夠深入參與現實世界的復雜性,超越傳統人工智能的限制。此外,Q*可能會使用數學定理證明技術進行驗證,確保其推理和輸出不僅準確,而且在倫理上有基礎。在這個過程中加入倫理分類器進一步增強了其能力,以提供可靠和負責任的對現實世界情景的理解和互動。
結論
這份綜述調查著手探索了生成式AI研究中的變革性趨勢,特別關注了像Q*這樣的推測性進展以及向人工通用智能(AGI)的進步步伐。
論文的分析突出了一個關鍵的范式轉變,由混合專家模型(MoE)、多模態學習和對AGI的追求等創新所驅動。這些進步預示了一個未來,AI系統在推理、上下文理解和創造性問題解決方面的能力可能顯著提升。
盡管有這些進步,仍然存在一些未解決的問題和研究空白。
這些包括確保先進AI系統與人類價值觀和社會規范的倫理一致性,這一挑戰因它們日益增長的自主性而變得更為復雜。
在多樣化環境中AGI系統的安全性和健壯性也仍是一個重大研究空白。應對這些挑戰需要多學科方法,融合倫理、社會和哲學視角。
這項調研強調了AI未來跨學科研究的關鍵領域,強調倫理、社會和技術視角的整合。這種方法將促進協作研究,彌合技術進步與社會需求之間的差距,確保AI發展與人類價值觀和全球福祉保持一致。
在我們繼續前進時,AI進步與人類創造力之間的平衡不僅是一個目標,而且是一個必要性,確保AI的作用是一個補充力量,增強我們創新和解決復雜挑戰的能力。
我們的責任是引導這些進步,豐富人類體驗,使技術進步與倫理標準和社會福祉保持一致。
參考資料:
https://arxiv.org/abs/2312.10868