在ChatGPT掀起人工智能浪潮的第二年,OpenAI與國內(nèi)的AI企業(yè)正悄然轉(zhuǎn)向,試圖超越這一里程碑式的產(chǎn)品。隨著關于Scaling Law能力上限的討論日益增多,今年9月,OpenAI帶著其全新系列模型o1震撼登場,再次將“會思考的大模型”推向了科技前沿。
OpenAI的首席執(zhí)行官奧特曼對o1的發(fā)布充滿信心,他堅信這一模型不僅證明了AI的發(fā)展并未放緩,反而預示著未來幾年內(nèi),AI領域?qū)⒂瓉硇碌耐黄婆c成就。在國內(nèi),眾多大模型廠商迅速響應,紛紛加入到對o1的學習與超越的行列中。
僅僅兩個月后,國內(nèi)的大模型市場便涌現(xiàn)出了一批各具特色的o1類深度思考模型。從kimi的k0 math到Deepseek的DeepSeek-R1-Lite,再到昆侖萬維推出的“天工大模型4.0”o1版,這些模型無一不強調(diào)著邏輯思考能力的重要性,標志著國內(nèi)AI大模型在這一領域的深入探索。
在OpenAI未公開o1具體技術細節(jié)的情況下,國內(nèi)大模型企業(yè)憑借敏銳的洞察力和強大的研發(fā)實力,僅用了兩個月的時間便跟上了這一前沿趨勢。11月16日,月之暗面發(fā)布了k0 math模型,通過強化學習和思維鏈推理技術,實現(xiàn)了對人類思考和反思過程的模擬,極大地提升了數(shù)學推理能力。
緊接著,四天后,Deepseek推出了DeepSeek-R1-Lite模型。與OpenAI的o1相比,R1毫無保留地展示了其完整的思考過程,思維鏈長度可達數(shù)萬字。在AIME(美國數(shù)學競賽)和部分編程比賽的測試中,R1的表現(xiàn)甚至超越了o1-Preview。Deepseek還在官網(wǎng)上提供了測試版,允許用戶每天體驗50次對話。
隨后,昆侖萬維也推出了具有復雜思考推理能力的天工大模型4.0 o1版(Skywork o1),并宣布它是國內(nèi)首款實現(xiàn)中文邏輯推理的模型。Skywork o1提供了三種版本,包括開源的Skywork O1 Open、優(yōu)化中文支持能力的Skywork O1 Lite,以及完整展現(xiàn)模型思考過程的Skywork O1 Preview。
這些國產(chǎn)“o1”大模型并非簡單的復刻,而是通過引入思維鏈(CoT)技術,將復雜問題拆解為多個小問題,模擬人類逐步推理的過程。強化學習使大模型能夠嘗試多種解題方法,并根據(jù)反饋調(diào)整策略,從而實現(xiàn)了自我學習和反思的能力。這種“慢思考”模式讓大模型在一些往常無法解決的問題上也能給出正確答案。
然而,“慢思考”模型也面臨著挑戰(zhàn)。雖然它們在特定學科上的表現(xiàn)突飛猛進,但大量耗費tokens的方式未必能換來用戶期望的回報。在某些情況下,增加思維鏈的長度可以提高效率,但并不意味著在所有情況下都是最優(yōu)解。因此,大模型需要學會對問題難度進行判別,從而決定是否采用深度思考模式回答對應問題。
從特定場景下的強化學習應用轉(zhuǎn)向通用模型,在訓練算力和成本的平衡上還存在一定難度。目前,“慢思考”類大模型開發(fā)的基座模型參數(shù)普遍不大,還需要一定時間才能跑出真正能夠釋放思維鏈能力的模型。
盡管如此,大廠們?nèi)詫1視為下一個必備項。在OpenAI和智譜給出的“通往AGI五階段”的定義中,o1的出現(xiàn)標志著大模型能力從L1階段(多模態(tài)和大語言模型能力)突破到了L2階段(邏輯思維能力)。國內(nèi)廠商在同步跟進o1類產(chǎn)品的同時,已經(jīng)開始思考如何將o1的能力與現(xiàn)有AI應用方向結(jié)合,探索更大的可能性。