【ITBEAR】近日,上海AI Lab團(tuán)隊發(fā)布了一項(xiàng)引人注目的開源項(xiàng)目——LLaMA版o1,該項(xiàng)目在人工智能領(lǐng)域引起了廣泛關(guān)注。據(jù)悉,這一項(xiàng)目是對OpenAI的o1推理大模型進(jìn)行復(fù)刻的成果,展示了開源界在AI方面的最新進(jìn)展。
據(jù)了解,LLaMA版o1項(xiàng)目采用了多種先進(jìn)技術(shù),包括蒙特卡洛樹搜索、Self-Play強(qiáng)化學(xué)習(xí)、PPO算法,以及借鑒自AlphaGo Zero的雙重策略范式。這些技術(shù)的運(yùn)用使得模型在數(shù)學(xué)能力上有了顯著提升,尤其是在解決復(fù)雜的數(shù)學(xué)問題時表現(xiàn)出色。
團(tuán)隊在o1發(fā)布之前就開始探索蒙特卡洛樹搜索在提升大模型數(shù)學(xué)能力方面的應(yīng)用,并積累了一定的經(jīng)驗(yàn)。此次開源的LLaMA版o1項(xiàng)目正是基于這些探索的成果,進(jìn)一步推動了AI領(lǐng)域的發(fā)展。
LLaMA版o1項(xiàng)目不僅在技術(shù)上有所突破,還在開發(fā)者社區(qū)中引發(fā)了熱烈討論。許多開發(fā)者對項(xiàng)目的開源表示贊賞,并期待能夠在其基礎(chǔ)上進(jìn)行更多的創(chuàng)新和應(yīng)用。
上海AI Lab團(tuán)隊還專注于數(shù)學(xué)奧賽問題的研究,致力于將LLaMA版o1打造成一個在數(shù)學(xué)領(lǐng)域具有強(qiáng)大推理能力的模型。通過采用成對優(yōu)化等技術(shù)手段,團(tuán)隊成功提高了模型在解決數(shù)學(xué)奧賽問題時的準(zhǔn)確率。
在最新的測試中,優(yōu)化后的LLaMA版o1模型在AIME2024基準(zhǔn)測試的30道題中做對了8道,相較于原版LLaMA-3.1-8B-Instruct的2道正確答案,有了顯著提升。這一成績甚至超過了除o1-preview和o1-mini之外的其他商業(yè)閉源方案。
團(tuán)隊宣布,在復(fù)刻OpenAI o1的過程中取得了重大進(jìn)展,模型已經(jīng)能夠在與搜索樹的交互中獲得高級思維能力,而無需依賴人工標(biāo)注。這一突破性的成果為AI領(lǐng)域的發(fā)展注入了新的活力。
目前,LLaMA版o1項(xiàng)目已經(jīng)開源了預(yù)訓(xùn)練數(shù)據(jù)集、預(yù)訓(xùn)練模型以及強(qiáng)化學(xué)習(xí)訓(xùn)練代碼。其中,OpenLongCoT-Pretrain數(shù)據(jù)集包含了大量長思維鏈數(shù)據(jù),為模型的進(jìn)一步訓(xùn)練提供了豐富的資源。同時,團(tuán)隊還推薦使用LLaMaFactory進(jìn)行預(yù)訓(xùn)練代碼的替代。
盡管項(xiàng)目名為LLaMA-O1,但團(tuán)隊提供的預(yù)訓(xùn)練模型卻是基于谷歌的Gemma 2。在此基礎(chǔ)上,開發(fā)者可以繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,通過蒙特卡洛樹搜索等技術(shù)手段不斷提升模型的性能。
總的來說,LLaMA版o1項(xiàng)目的開源為AI領(lǐng)域帶來了新的機(jī)遇和挑戰(zhàn)。上海AI Lab團(tuán)隊的這一成果展示了開源界在推動AI技術(shù)發(fā)展方面的強(qiáng)大實(shí)力和無限潛力。