【ITBEAR】在近期公布的LLM基準(zhǔn)測(cè)試項(xiàng)目LiveBench的官方榜單上,中國(guó)大模型“六小虎”成員之一——階躍星辰的大語(yǔ)言模型step-2-16k-202411,以卓越表現(xiàn)奪得全球第五、國(guó)產(chǎn)第一的佳績(jī)。這一成就不僅標(biāo)志著中國(guó)AI技術(shù)的飛速進(jìn)步,也彰顯了階躍星辰在AI領(lǐng)域的深厚底蘊(yùn)。
▲LiveBench榜單總評(píng)分前15名
LiveBench項(xiàng)目,由Abacus.AI主導(dǎo),并吸引了圖靈獎(jiǎng)得主、meta首席AI科學(xué)家楊立昆的參與,因其嚴(yán)格的評(píng)測(cè)標(biāo)準(zhǔn)和每月更新的題庫(kù),被譽(yù)為“最難糊弄的LLMs基準(zhǔn)測(cè)試”。這一項(xiàng)目不僅要求大模型具備全面的能力,還強(qiáng)調(diào)測(cè)試的公正性和真實(shí)性,有效避免了測(cè)試集污染等問(wèn)題。
階躍星辰的step-2-16k-202411,在LiveBench的六類(lèi)別任務(wù)中,尤其在指令跟隨(IF Average)方面,以86.57的高分力壓群雄,甚至超過(guò)了OpenAI的o1-preview-2024-09-12。這一成績(jī)不僅體現(xiàn)了step-2-16k-202411在語(yǔ)言生成上的精準(zhǔn)控制力,更展示了其強(qiáng)大的理解和遵循人類(lèi)指令的能力。
▲LiveBench官網(wǎng)博客
階躍星辰的step-2-16k-202411,是該公司自研的萬(wàn)億參數(shù)MoE大語(yǔ)言模型。在設(shè)計(jì)過(guò)程中,階躍星辰放棄了upcycle(向上復(fù)用)路徑,選擇了從頭開(kāi)始訓(xùn)練的艱難道路。通過(guò)部分專(zhuān)家共享參數(shù)、異構(gòu)化專(zhuān)家設(shè)計(jì)等創(chuàng)新手段,階躍星辰成功構(gòu)建了Step-2 MoE架構(gòu),不僅提升了模型的性能,還確保了每個(gè)“專(zhuān)家模型”都能得到充分訓(xùn)練。
今年3月,Step-2預(yù)覽版發(fā)布,成為國(guó)內(nèi)首個(gè)由創(chuàng)業(yè)公司發(fā)布的萬(wàn)億參數(shù)MoE大語(yǔ)言模型。隨后,在7月的世界人工智能大會(huì)上,Step-2正式發(fā)布,其出色的數(shù)理邏輯、編程、世界知識(shí)、指令跟隨等能力,全面逼近GPT-4,引發(fā)了業(yè)界的廣泛關(guān)注。
階躍星辰的Step系列模型,除了萬(wàn)億MoE大語(yǔ)言模型Step-2外,還包括多模態(tài)理解大模型Step-1.5V、圖像生成模型Step-1X等,形成了全面的模型矩陣。同時(shí),階躍星辰還推出了C端應(yīng)用“躍問(wèn)”和“冒泡鴨”,將AI技術(shù)應(yīng)用于實(shí)際生活中,為用戶(hù)提供了更加便捷、智能的服務(wù)。
階躍星辰的成立時(shí)間雖短,但其在AI領(lǐng)域的深耕細(xì)作,使其在短時(shí)間內(nèi)取得了顯著的成果。此次在LiveBench榜單上的優(yōu)異表現(xiàn),不僅是對(duì)階躍星辰技術(shù)實(shí)力的肯定,更是對(duì)中國(guó)AI產(chǎn)業(yè)發(fā)展的鼓舞。在全球AI賽場(chǎng)上,國(guó)產(chǎn)大模型正逐漸嶄露頭角,展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力和發(fā)展?jié)摿Α?/p>