【ITBEAR科技資訊】5月27日消息,近日火山引擎原動力大會上,豆包大模型正式亮相,不僅以驚人低價引領(lǐng)了大模型降價風(fēng)潮,更憑借其出色的模型能力成為業(yè)界焦點(diǎn)。
據(jù)豆包模型團(tuán)隊在火山引擎的產(chǎn)品資料中披露的一期內(nèi)部測試結(jié)果,Doubao-pro-4k在MMLU、BBH、GSM8K、Humaneval等11個業(yè)界主流的公開評測集上,以總分76.8分的優(yōu)異成績脫穎而出。相較于上一代模型云雀Skylark2的64.5分,豆包模型性能提升了高達(dá)19%,并且在同期測試的國產(chǎn)模型中表現(xiàn)最佳。
此次評測工作于今年5月圓滿結(jié)束,涵蓋了包括豆包通用模型-pro、云雀Skylark2在內(nèi)的九款國產(chǎn)頂尖大語言模型。評測過程中,除了云雀Skylark2,其余參評模型均為各廠商最新推出的高級版本,并通過API調(diào)用方式進(jìn)行了嚴(yán)格測試。
評測數(shù)據(jù)顯示,在評估代碼能力的Humaneval和MBPP兩個評測集上,豆包模型展現(xiàn)了驚人的實(shí)力,相較于上一代模型性能提升了約50%。同時,在專業(yè)知識和指令遵循的評測環(huán)節(jié)中,豆包分別斬獲了33%和24%的顯著性能提升,穩(wěn)坐國產(chǎn)模型榜首。
不僅如此,豆包在數(shù)學(xué)能力、語言理解能力,以及綜合評測集CMMLU和Ceval的評測中也取得了令人矚目的成績,綜合得分穩(wěn)居前三。在11個公開評測集上的總分達(dá)到76.8分,與OpenAI公布的GPT-4測試成績80.1分相比,雖仍有一定差距,但已足以彰顯豆包模型的強(qiáng)勁實(shí)力。
豆包模型于5月15日正式推出,雖然尚未參與第三方機(jī)構(gòu)的測試,但其在短短時間內(nèi)已經(jīng)吸引了大量關(guān)注。預(yù)計未來一兩個月內(nèi),多家第三方評測機(jī)構(gòu)將陸續(xù)發(fā)布對該模型的詳細(xì)評測報告。與此同時,與模型同名的AI對話助手“豆包”也備受矚目,官方數(shù)據(jù)顯示其月活用戶數(shù)已達(dá)2600萬,用戶可自由體驗測試該AI助手的各項功能。
此外,在智源研究院此前公布的全球91個語言模型評測報告中,云雀Skylark2在偏重考察中文能力的主觀評測中拔得頭籌,其中文能力甚至超越了GPT-4,展現(xiàn)了國產(chǎn)模型在中文處理領(lǐng)域的優(yōu)勢。
據(jù)ITBEAR科技資訊了解,豆包模型的優(yōu)異表現(xiàn)不僅體現(xiàn)了國內(nèi)AI技術(shù)的飛速發(fā)展,也為國產(chǎn)大模型在國際舞臺上贏得了一席之地。未來,隨著技術(shù)的不斷進(jìn)步和優(yōu)化,國產(chǎn)大模型有望在全球AI領(lǐng)域發(fā)揮更加重要的作用。