ChatGPT 獲得巨大成功后,AI target=_blank class=infotextkey>OpenAI 已然奔向下一個目標—— AI Agents(智能體)。
" 如果一篇論文提出了某種不同的訓練方法,OpenAI 內部會嗤之以鼻,認為都是我們玩剩下的。但是當新的 AI Agents 論文出來的時候,我們會十分認真且興奮地討論。普通人、創業者和極客在構建 AI Agents 方面相比 OpenAI 這樣的公司更有優勢。" OpenAI 聯合創始人,前 TeslaAI 總監 Andrej Karpathy 說道。
Karpathy 的公開發言為 AI Agents 添了不少熱度。但他的判斷并非一家之言。
早在 3 月份,AutoGPT 就在 Github 上獲得 7.4 萬星,并快速成為史上 Star 數量增長最快的開源項目;而后發布的 BabyAGI、AgentGPT 更如雨后春筍般涌現:訂購披薩、整理郵箱、創建博客,甚至舉辦一場情人節派對……
越來越多的 AI Agents 出現在人們生活的各個場景下,熱潮迅速開始從硅谷蔓延。
自主執行、獨立運作,AI Agents 被科技人士給予極高的期待,認為其是 " 變革社會的生產力工具 "。更有人將其視作 " 通往通用人工智能(AGI)時代的開始 "。
但呼聲并不能掩蓋現存的問題。
" 大模型是 AI Agents 的前提,有了足夠好的硬件基礎后,才能去發展 AI Agents。" 真格基金管理合伙人戴雨森對「甲子光年」表示。
嚴格來說,市面上只有 ChatGPT 一個 " 合格 " 的大模型底座。受制于模型算力,國內仍然缺乏 AI Agents 的開發土壤。
未來美好,現實殘酷。技術研發與創業投資等都在搖擺中進行。AI Agents 的紅利期何時真的伴隨大模型浪潮而來,誰都不得而知。但可以肯定的是,改變已悄然開始。
AI Agents:幫你做事的 " 數字助理 "
與其把 AI Agents 當作 ChatGPT 升級版,不如將它視作人類的 " 數字助理 " 更為合適。
它不僅告訴你 " 如何做 ",更會 " 幫你做 "。作為一種媒介,AI Agents 代替人類與 GPT 等大語言模型(Large Language model, LLM)進行反復交互,只要給定目標,它便可以模擬智能行為,自主創建任務、重新確定任務列表優先級、完成首要任務,并循環直到目標達成。
與傳統的人工智能不同,AI Agents可以在沒有人類控制的情況下獨立運行。通過接入 API,AI Agents 甚至可以瀏覽網頁、使用應用程序、讀寫文件、使用信用卡付款等等。
簡單來說,只需要給它一個目標,AI Agents就能完成剩下的全部工作。例如 HyperWrite 研發的 AI agent 通過 Chrome 瀏覽器的控制程序來自動幫你訂購披薩。
圖源:HyperWrite CEO Matt Shumer Twitter 賬號
這種想象放在科幻電影里并不難,但在人工智能探索歷程上,已經持續了將近半個世紀。
早在 20 世紀 80 年代,計算機科學家就開始探索如何開發一個可以像人類一樣交互的智能軟件。 但苦于數據和算力限制,AI Agents 缺乏必要的現實條件。
斯坦福大學計算機科學博士 Joon Park 曾在訪談中表示:" 我們一直在朝著那個方向努力,但過去幾十年的所有方法,甚至都沒有接近我們現在借助 LLM 所實現的效果 ...... 這就是為什么我們忘記了這一愿景。但當 LLM 出現時,我們意識到機會來了。"
大語言模型是 AI Agents 的核心大腦。通過拆解復雜任務,可以將復雜的用戶需求拆解為可實現的任務方式。
一方面,大模型的訓練建立在互聯網的基礎上包含了大量的人類行為數據,彌補了構建可信 AI Agents 的關鍵要素。
另一方面,在可觀的知識容量下,大模型涌現出優秀的上下文學習能力、推理能力。通過建立思維鏈來實現模型的連續思考和決策,AI Agents 可以分析復雜問題,并將其拆解成簡單、細化的子任務。
與此同時,LLM 以語言作為媒介也改變了前端的交互形式。BV 百度風投 AI 應用賽道負責人,投資副總裁溫永騰告訴「甲子光年」:"BV 百度風投很早就開始關注 AI Agents 的發展,通過研判,我們認為原先的圖形用戶界面(GUI)有可能轉變為語言用戶界面(LanguageUI),AI Agents 的前端應用將存在于所有可能與人類交互的前端形式之中。"
只是拆解任務,還遠遠算不上智能。LLM 驅動下的AI Agents,離不開三個關鍵組件:
LLM 驅動下的 AI Agent System 概覽(圖源:Lilian Weng 個人博客)
三個組件配合下,AI Agents 不僅能像人一樣思考,也能像人一樣行動。
就像人類一樣,在從事復雜任務時,每一步之間往往會有一個推理過程。AI Agents 也會借助 ReAct 組件(Reasoning and Acting),將大模型的推理能力和行為決策緊密結合起來,使語言模型可以根據知識進行有邏輯地計劃安排。
Reflexition 框架則為 AI Agents 提供動態記憶與自我反思的能力。通過語言反饋而非更新權重的方式來強化 Language Agents,讓它可以改進過去的行動決策、糾正過往的錯誤以不斷提高自身表現。
在信息獲取、儲存、保留、檢索的進程上,AI Agents 也力圖模仿人類的記憶構成,構建高效的內存系統。
模擬人類記憶方式,AI Agents 會將感覺記憶、短期記憶、長期記憶,分別表示為原始輸入的學習嵌入(如文本、圖像等)、上下文學習、外部向量儲存。任務與結果會儲存在記憶模塊中,當信息被調用時,儲存在記憶中的信息會回到與用戶的對話中,由此創造出更加緊密的上下文環境。
人類最顯著的特征之一就是使用和創造工具。通過配備外部工具,使用 API 來調用各種接口,AI Agents 能夠模擬人類使用工具,完成更復雜的任務。
雖然技術層面并未完全成熟,諸如數據管理、長期記憶等問題仍在解決。但 AI Agents 自主執行、迭代優化、" 解放雙手 " 的能力也讓走紅成為必然。
接替 LLM,AI Agents 成為下一個 AI 熱點
ChatGPT 的誕生,實現了 AI 與人類進行多輪對話,并提供信息和建議的功能。Copilot 的推出,使 AI 足以承擔為人類完成工作初稿的能力,例如 Github Copilot、Microsoft 365 Copilot、Midjourney,分別成為人們在編程、辦公、圖像生成領域中的 " 智能副駕 "。
告訴 AI 完成一件任務,它就能完成一件任務——撰寫文案、回答問題,或者生成一張人類肉眼難以分辨真假的照片。而與此同時,人們也往往需要為 AI 的每一步行動提供具體清晰的提示。
此時的 AI 就像是初來乍到,沒有任何經驗,需要手把手教導的實習生。但是,如果你想要一個聽指令辦事,執行中遇到困難自己解決,盡量不給人添麻煩的好員工呢?
3、4 月份,Camel、AutoGPT、BabyAGI、西部世界小鎮等多個 AI Agents 集中爆發,似乎讓人們看到了這樣的可能。
自 3 月份,Significant Gravitas 將 AutoGPT 開源后,發布時間不到 2 個月,AutoGPT 在 GitHub 上獲得的 star 數量已經達到 13 萬,成為史上 star 數量增長最快的開源項目。
斯坦福大學打造的西部世界小鎮(圖源:論文《Generative Agents: Interactive Simulacra of Human Behavior》)
Andrej Karpathy 就曾在 Twitter 上表示:" 提示工程(prompt engineering)的下一個前沿是 AutoGPTs"。截至目前,AutoGPT 在代碼托管平臺 Github 上已經獲得超過 14 萬 star,排名歷史第 25 位。
OpenAI 聯合創始人兼 CEO Sam Altman 曾在多個場合表示,構建龐大 AI 模型的時代已經結束,智能體才是挑戰。
在一篇介紹自主智能體的文章中,作者 Octane AI(一家數據營銷平臺提供商)聯合創始人兼 CEO Matt Schlicht 收集了來自業界、學術界、投資界等上百余人的觀點和看法,有來自 Meta、Nvidia、Stability AI 等大公司或 AI 初創公司的專家,也有斯坦福 CS 的教員和投資了包括 Hugging Face 在內的 AI 投資人,絕大多數都表達了對 AI Agents 潛能的期待和展望,甚至將其稱為 " 原始 AGI"。
接替大模型,AI Agents 似乎正在成為 AI 的下一個熱點。
但與此同時,反對的聲音也不絕于耳。
圖靈獎獲得者 Yoshua Bengio 在今年 5 月發布的博文《危害人類的 AI 是如何出現的》中就提及,人類能控制 AI Agents 總任務、總目標,并不意味著人類能控制 AI Agents 憑借自己的智慧分解出來的子任務、子目標,除非 AI 對齊(alignment)的研究取得突破,否則人類就沒有強有力的安全保障。
智能體的集體出現,大佬的追捧和質疑,AI Agents 的浪潮迅速且火熱。
然而,AI Agents 在人工智能的圈子內并不是一個新名詞。
2014 年,DeepMind 推出的圍棋 AI AlphaGo,其實就是 AI Agents 的一種。與之類似的還有 2017 年 OpenAI 推出的用于玩《Dota2》的 OpenAI Five,2019 年 DeepMind 公布用于玩《星際爭霸 2》的 AlphaStar。
當時的業界潮流是通過強化學習(reinforcement learning)的方法來訓練和改進 AI Agents,主要應用于游戲場景,特別是一些對抗性、具有明顯輸贏雙方的比賽中。但如果想要在真實世界中實現通用性,卻是一個懸而未決的問題。
之后的幾年,OpenAI 轉向大語言模型,GPT 系列的相繼推出,大模型成為各家科技廠商爭先涌入的賽道,也正是大模型的發展,讓 AI Agents 有了突破瓶頸、重新發展的契機。
相較于幾年前局限在游戲場景,在大模型的基礎上 AI Agents 可以實現什么?BV 百度風投 AI 應用賽道負責人,投資副總裁溫永騰向「甲子光年」表示:" 我們看到的不僅僅是技術進步使得 AI 在理解用戶意圖、收集信息以及執行任務的能力大大增強,更重要的是,AI Agents 完全有能力重構未來的應用生態 "。
在 AutoGPT 推出后不久,已經有不少網友使用 AutoGPT 來搭建自動化的個人助理。例如 FirstSales.io 的創始人兼 CEO Udit Goenka 發帖稱,他利用 AutoGPT 搭建了一個勘探引擎,可以搜索去年獲得種子輪投資的公司,并能描述創建列表的詳細信息。
google 軟件工程師 Yew Jin Lim 表示,他用 AutoGPT 創建了一個電子郵件助手,通過電子郵件向 AI Agents 發送任務詳情。
真格基金管理合伙人戴雨森告訴「甲子光年」:"Agent 是一個讓生產力真正能大幅提高的方向,因為如果還是人做事情,人總是有限的 "。
"AI Agents 將會成為日常生活和工作中的生產力工具。"Matt Schlicht 寫道," 從管理社交媒體賬號、投資市場,到出版最好的兒童讀物,AI Agents 將存在于各個行業和每一項可以被想象出的任務之中。" 例如 aomni,是一款可以在網絡上查找任何主題信息的 AI Agent,會通過創建列表,一項一項完成用戶的目標。
除了生產力需求之外,Inflection AI 的個人 AI Agent Pi 提供了另一個可能的應用方向。
不同于 ChatGPT、Claude 通用人工智能的定位,Pi 主打高情商、情感陪伴、提供情緒價值。Pi 還會記住和用戶的歷史對話,除了參與并輔助人們的工作與生活,還會學習聯系朋友和家人的方式與用戶建立聯結。目前 Inflection AI 已獲得超 15 億美元的投資,超越了 Anthropic,僅次于 OpenAI。
AI Agents 會是下一個風口嗎?
"Building a kind of JARVIS(構建類似于 JARVIS)",這是 Andrej Karpathy 在 Twitter 上最新更新的簡介,JARVIS 是漫威超級英雄鋼鐵俠的一位人工智能助手,具備獨立思考的能力,能幫主人處理各種事務,計算各種信息。
Karpathy 的簡介也意味著,AI Agents 賽道的發令槍已經打響。
外媒《The Information》指出,Sam Altman 曾在 5 月私下告訴部分開發者,OpenAI 希望將 ChatGPT 打造成個人工作助手,并有知情人士指出,OpenAI 一直在關注如何使用聊天機器人來創建自主的AI Agents,相關功能很有可能部署在 ChatGPT 助手中。
無獨有偶,Meta 也看到了 AI Agents 的機會。
早在 4 月,Zuckerberg 就曾對投資者表示,Meta 看到了 " 以有用且有意義的方式向數十億人介紹 AI Agents 的機會 ",但此時他并沒有說明具體的應用。
而在 6 月一次與員工舉行的全體會議上,Zuckerberg 宣布了一系列處于不同開發階段的技術,其中一個就是將帶來具有不同個性和能力的 AI Agnts 來提供幫助或娛樂,最初主要用于 Messenger 和 WhatsApp。
在國內,AI Agents相關的產品也相繼誕生。
在 7 月初的 WAIC 現場,阿里云就發布了旗下第一個智能體—— ModelScopeGPT,面向開發者群體,并將在未來推出一系列智能體以應對多種應用場景。
華為在該領域也有涉及,但更側重于具身智能(Embodied AI),即大模型與機器人的結合。
除了大廠,AI Agents 也是創業者們的機會。OpenAI 聯合創始人 Karpathy 特意在此前的演講中提到:" 普通人、創業者和極客在構建 AI Agents 方面相比 OpenAI 這樣的公司更有優勢。"
BV 百度風投 AI 應用賽道負責人,投資副總裁溫永騰表示,BV 團隊目前也對初創企業在 AI Agents 領域中的機會持樂觀態度。
" 未來的應用生態將是多元化的,而非由單一巨頭主導。AI Agents 的出現帶來了一次范式轉移的機會,許多傳統應用都面臨被顛覆改造的可能性。在這個過程中,初創公司有大量的機會去開墾新的領域。對于每一個特定的任務,AI Agents 都有大量的優化空間,包括特定算法與服務的構建、用戶數據以及產品設計等方面,都是初創公司可以建立差異化優勢的地方。"
" 此外,當前 AI Agents 的生態還不夠明確,這為初創企業提供了有利的發展機會,因為它們并不需要在一個已經確定的規則下進行競爭,從這個角度上來看,初創企業與大公司是站在同一起跑線上的,并且初創企業更為靈活,可以很快進行產品的調整。"
憑借在人工智能領域布局多年所積累的認知,BV 百度風投并不認為模型公司會壟斷應用層的機會。因為對于底層模型公司來說,構建生態的意義遠大于壟斷某一應用,如果底層模型公司采取排他性的策略來獲取應用層的競爭優勢,可能會對其自身的生態造成傷害。底層模型公司可能會在他們關注的一兩個領域構建強大的 AI Agents,但他們沒有必要在所有領域都與初創企業競爭。
尚未確定的生態,還未被制定規則的賽場,所有人又回到了同一起跑線上。
但不可否認的是,目前為止,除了許多演示之外,AI Agents 并沒有真正的產品出現。
真格基金管理合伙人戴雨森將 AI 和人類協作的程度類比為自動駕駛的不同階段,AI Agents 就好比自動駕駛的 L4 階段。但就如同 L4 一樣,AI Agents 容易想象、演示,卻難以實現,AI Agents 的真正應用還在不確定的未來。
將 AI 和人類協作的程度類比自動駕駛的不同階段(圖源:戴雨森即刻賬號 @yusen)
戴雨森強調,想要實現可用的 AI Agents,還需要大幅提高大模型的能力,即使是對處于頂層的 OpenAI 來說,在延遲、性能上也有很高的提升空間。
" 如果用蒸汽機來打比方的話,水燒到 100 度才能產生蒸汽,如果 AI Agents 的智力還沒有達到一定的程度,水只燒到了 50 度,即使已經花費了很多能源,依然無法產生蒸汽,依然是 0。"
AI Agents 賽道的發令槍已經打響,只不過,這絕對不是短短幾個月內的沖刺,而是注定要長達幾年,甚至跨越十年的長跑馬拉松。
來源:甲子光年