【ITBEAR】在近期公布的LLM基準測試項目LiveBench的官方榜單上,中國大模型“六小虎”成員之一——階躍星辰的大語言模型step-2-16k-202411,以卓越表現奪得全球第五、國產第一的佳績。這一成就不僅標志著中國AI技術的飛速進步,也彰顯了階躍星辰在AI領域的深厚底蘊。
▲LiveBench榜單總評分前15名
LiveBench項目,由Abacus.AI主導,并吸引了圖靈獎得主、meta首席AI科學家楊立昆的參與,因其嚴格的評測標準和每月更新的題庫,被譽為“最難糊弄的LLMs基準測試”。這一項目不僅要求大模型具備全面的能力,還強調測試的公正性和真實性,有效避免了測試集污染等問題。
階躍星辰的step-2-16k-202411,在LiveBench的六類別任務中,尤其在指令跟隨(IF Average)方面,以86.57的高分力壓群雄,甚至超過了OpenAI的o1-preview-2024-09-12。這一成績不僅體現了step-2-16k-202411在語言生成上的精準控制力,更展示了其強大的理解和遵循人類指令的能力。
▲LiveBench官網博客
階躍星辰的step-2-16k-202411,是該公司自研的萬億參數MoE大語言模型。在設計過程中,階躍星辰放棄了upcycle(向上復用)路徑,選擇了從頭開始訓練的艱難道路。通過部分專家共享參數、異構化專家設計等創(chuàng)新手段,階躍星辰成功構建了Step-2 MoE架構,不僅提升了模型的性能,還確保了每個“專家模型”都能得到充分訓練。
今年3月,Step-2預覽版發(fā)布,成為國內首個由創(chuàng)業(yè)公司發(fā)布的萬億參數MoE大語言模型。隨后,在7月的世界人工智能大會上,Step-2正式發(fā)布,其出色的數理邏輯、編程、世界知識、指令跟隨等能力,全面逼近GPT-4,引發(fā)了業(yè)界的廣泛關注。
階躍星辰的Step系列模型,除了萬億MoE大語言模型Step-2外,還包括多模態(tài)理解大模型Step-1.5V、圖像生成模型Step-1X等,形成了全面的模型矩陣。同時,階躍星辰還推出了C端應用“躍問”和“冒泡鴨”,將AI技術應用于實際生活中,為用戶提供了更加便捷、智能的服務。
階躍星辰的成立時間雖短,但其在AI領域的深耕細作,使其在短時間內取得了顯著的成果。此次在LiveBench榜單上的優(yōu)異表現,不僅是對階躍星辰技術實力的肯定,更是對中國AI產業(yè)發(fā)展的鼓舞。在全球AI賽場上,國產大模型正逐漸嶄露頭角,展現出強大的競爭力和發(fā)展?jié)摿Α?/p>