在ChatGPT問世后的第二年,人工智能領域正經歷一場新的變革。OpenAI及其國內同行正試圖超越現有的技術框架,探索大模型發展的新路徑。
隨著Scaling Law的局限性逐漸顯現,今年9月,OpenAI推出了全新系列模型o1,重新定義了“會思考的大模型”。OpenAI的CEO奧特曼對此信心滿滿,認為AI的發展不僅沒有放緩,反而預示著未來幾年內的重大突破。
受到o1發布的啟發,國內大模型廠商迅速行動,紛紛效仿并推出了各自的o1類深度思考模型。短短兩個多月內,kimi的k0 math、Deepseek的DeepSeek-R1-Lite以及昆侖萬維的“天工大模型4.0”o1版相繼問世,這些模型都著重強調了大模型的邏輯思考能力。
在沒有OpenAI公開o1具體技術細節的情況下,國內企業展現出了驚人的研發速度和技術實力。11月16日,月之暗面發布了k0 math,通過強化學習和思維鏈推理技術,顯著提升了數學推理能力。四天后,Deepseek推出了DeepSeek-R1-Lite,毫無保留地展示了模型的完整思考過程,其思維鏈長度可達數萬字,并在多項測試中超越了o1-Preview。
昆侖萬維也不甘落后,于11月27日發布了天工大模型4.0 o1版,成為國內首款實現中文邏輯推理的模型。該模型提供了三種版本,包括開源的Skywork O1 Open、優化中文支持能力的Skywork O1 Lite,以及完整展示模型思考過程的Skywork O1 Preview。
這些國產“o1”大模型不僅在數學和代碼能力上逼近甚至超過了o1,還學會了“慢思考”。通過引入思維鏈(CoT),大模型能夠將復雜問題拆解為多個小問題,模擬人類的逐步推理過程。這種能力使得大模型在解決一些往常無法回答的問題時,也能給出正確答案。
例如,Deepseek R1在面對“Responsibility中有幾個字母i?”的問題時,能夠拆解單詞并逐一比較字母,最終給出正確答案。昆侖萬維的大模型在面對陷阱問題時,也能通過思維鏈模式自行避開問題,找到準確的翻譯結果。
然而,慢思考模型也面臨著挑戰。雖然它們在一些特定學科上的表現大幅提升,但大量耗費tokens的方式卻未必能換來用戶需要的回報。在某些情況下,增加思維鏈的長度可以提高效率,但并不意味著在所有情況下都是最優解。因此,大模型需要學會對問題難度進行判別,從而決定是否采用深度思考模式。
從特定場景下的強化學習應用轉向通用模型,在訓練算力和成本的平衡上還存在一定難度。目前,國產慢思考大模型的開發主要基于規模較小的基座模型,如Skywork O1 Open基于Llama 3.1 8B的開源模型。這意味著在訓練RL階段,所需的算力可能并不比預訓練少。
盡管如此,大廠們仍將o1視為下一個必備項。在OpenAI和智譜給出的“通往AGI五階段”的定義中,o1的出現標志著大模型能力突破到了L2階段,開始真正擁有邏輯思維能力。國內廠商在同步跟進o1類產品的同時,已經開始思考如何將o1的能力與現有AI應用方向結合。
在數據枯竭的情況下,o1為Scaling Law提供了新的支撐。更多大模型公司的加入,將聯手探索出更大的可能性。同時,思維鏈的能力已經幫助提升了AI技術的使用效果。例如,智譜的“會反思的AI搜索”結合了思維鏈能力,能夠給出更加精準的答案。
當大模型開始學會“自我思考”,通往L3(Agent)的大門也正在被推開。然而,如何平衡大模型的推理進化和用戶對效率的需求,仍然是國內大模型廠商需要解決的問題。