昆侖萬維在人工智能領(lǐng)域邁出了重要一步,正式推出了其最新力作——「天工大模型4.0」o1版,命名為Skywork o1。這款模型以其獨(dú)特的復(fù)雜思考推理能力,在國內(nèi)首次實(shí)現(xiàn)了中文邏輯推理o1模型的突破。
Skywork o1不僅僅是對(duì)OpenAI o1模型的簡(jiǎn)單復(fù)現(xiàn),它在模型輸出中內(nèi)嵌了思考、計(jì)劃、反思等高級(jí)能力。經(jīng)過標(biāo)準(zhǔn)評(píng)測(cè)集的驗(yàn)證,與普通模型相比,Skywork o1的推理能力顯著提升,真正實(shí)現(xiàn)了通過思考和反思來增強(qiáng)推理能力的目標(biāo)。昆侖萬維團(tuán)隊(duì)通過獨(dú)特的技術(shù)路線,成功將初始推理能力較弱的基座模型提升到了生態(tài)位的頂尖水平。
此次發(fā)布的Skywork o1系列包含三款模型,旨在滿足不同用戶的需求:
第一款是Skywork o1 Open,基于Llama 3.1 8B的開源模型,它在同生態(tài)位的開源模型中評(píng)測(cè)指標(biāo)大幅提升,達(dá)到了SOTA水平,并成功解鎖了許多輕量級(jí)模型無法完成的復(fù)雜數(shù)學(xué)任務(wù)。Skywork o1 Open的發(fā)布,將加速國內(nèi)開源社區(qū)復(fù)現(xiàn)o1模型的進(jìn)程。
第二款是Skywork o1 Lite,這款模型具備完整的思考能力,尤其在中文支持和推理速度上表現(xiàn)優(yōu)異。在數(shù)學(xué)、中文邏輯和推理類問題上,Skywork o1 Lite展現(xiàn)出了出色的性能。
第三款是Skywork o1 Preview,作為本次發(fā)布的完整版推理模型,它配備了自研的線上推理算法,相比Skywork o1 Lite,擁有更多樣和深入的思考過程,以及更完善和高質(zhì)量的推理能力。
Skywork o1 Open在各項(xiàng)數(shù)學(xué)和代碼指標(biāo)上的表現(xiàn)均大幅提高,不僅超越了同生態(tài)位的Llama-3.1-8B模型,還解鎖了諸如GPT 4o等較大量級(jí)模型無法完成的數(shù)學(xué)推理任務(wù),如24點(diǎn)計(jì)算。這為推理模型在輕量級(jí)設(shè)備上的部署提供了新的可能性。
昆侖萬維還開源了兩個(gè)推理任務(wù)的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B和Skywork o1 Open-PRM-7B。與之前的開源PRM相比,Skywork o1 Open-PRM能夠?qū)δP突卮鹬械拿總€(gè)步驟進(jìn)行打分,而不僅僅是對(duì)整個(gè)回答進(jìn)行評(píng)分。在大部分基準(zhǔn)測(cè)試中,Skywork o1 Open-PRM-1.5B的表現(xiàn)接近或超過了8B的開源模型,而Skywork o1 Open-PRM-7B則接近或超過了10倍量級(jí)的模型。
Skywork o1在邏輯推理任務(wù)上性能的大幅提升,得益于昆侖萬維自研的三階段訓(xùn)練方案。首先,通過自研的多智能體體系構(gòu)造高質(zhì)量的分步思考、反思和驗(yàn)證數(shù)據(jù),對(duì)基座模型進(jìn)行繼續(xù)預(yù)訓(xùn)練和監(jiān)督微調(diào)。其次,研發(fā)了適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM),有效捕捉到復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響。最后,基于自研的Q*線上推理算法,配合模型在線思考,尋找最佳推理路徑。
Skywork o1模型展現(xiàn)出了多項(xiàng)亮點(diǎn)功能,包括模型思考和規(guī)劃能力、自我反思能力和自我驗(yàn)證能力。在復(fù)雜問題分析、思考反思過程以及輸出答案質(zhì)量上,Skywork o1 Lite和Skywork o1 Preview線上版本均有大幅提升。例如,在面對(duì)難度較大的考研數(shù)學(xué)題時(shí),Skywork o1 Preview能夠一步步推理出正確結(jié)果。在解決比大小問題時(shí),其思考過程嚴(yán)謹(jǐn),邏輯清晰,準(zhǔn)確得出正確答案,并給出了差值計(jì)算。
Skywork o1在中文邏輯問題思考中也展現(xiàn)出了反思能力,能夠準(zhǔn)確識(shí)別并糾正錯(cuò)誤的讀音,給出后續(xù)對(duì)話建議。在“算24點(diǎn)”游戲中,Skywork o1不僅給出了正確答案,還進(jìn)行了自我驗(yàn)證,確認(rèn)過程和答案符合命題要求。在競(jìng)賽數(shù)學(xué)、密碼解密以及智力問答等復(fù)雜場(chǎng)景中,Skywork o1也表現(xiàn)出了優(yōu)異的性能。
昆侖萬維自2024年以來,持續(xù)在人工智能領(lǐng)域發(fā)力,陸續(xù)發(fā)布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及此次的「天工大模型4.0」o1版(Skywork o1)。這些舉措不僅貫徹了公司“All in AGI 與 AIGC”的戰(zhàn)略,也是構(gòu)建AI技術(shù)棧的重要一步。昆侖萬維將繼續(xù)秉持“實(shí)現(xiàn)通用人工智能,讓每個(gè)人更好地塑造和表達(dá)自我”的使命,從模型層、應(yīng)用層等全方位、多維度來構(gòu)建公司的技術(shù)競(jìng)爭(zhēng)力和生態(tài)矩陣。