【ITBEAR科技資訊】5月11日消息,日本多家產學研機構組成的聯合研究團隊近日發布了一款名為 Fugaku-LLM 的大型語言模型。該模型獨具特色,因為它是在全球最快的Arm架構超級計算機“富岳”上進行訓練的,充分展現了日本在科技領域的創新實力。
據悉,Fugaku-LLM模型的開發工作于2023年5月正式啟動,由富士通、東京工業大學、日本東北大學和日本理化學研究所等核心機構共同負責。而在研發過程中,名古屋大學、CyberAgent公司及HPC-AI領域的創新企業Kotoba Technologies也于2023年8月加入了這一宏偉計劃。
研究團隊在新聞稿中自豪地表示,他們成功挖掘了富岳超級計算機的巨大潛能。通過優化算法和提升計算效率,團隊將矩陣乘法的計算速度提高了6倍,通信速度也實現了3倍的提升。這一重要突破證明了大型純CPU超級計算機在訓練大型語言模型方面的可行性。
Fugaku-LLM模型擁有龐大的參數規模,達到了130億,成為日本國內最大的大型語言模型。為了構建這一模型,研究團隊動用了富岳超算的13824個計算節點,在龐大的3800億個Token上進行了深入訓練。訓練資料中有60%是日語內容,其余40%則涵蓋了英語、數學、代碼等多個領域。
該模型在日語表達方面尤為出色,研究團隊宣稱Fugaku-LLM能夠在交流中自然運用日語敬語等特殊表達方式,這在國際范圍內都是罕見的。在日語MT-Bench模型基準測試中,Fugaku-LLM的平均得分高達5.5,位居基于日本語料資源的開放模型之首。在人文社科類別中,它更是斬獲了9.18的優異成績。
目前,這款杰出的Fugaku-LLM模型已經在GitHub和Hugging Face平臺上公開發布。外部研究人員和工程師在遵守相關許可協議的前提下,可將該模型廣泛應用于學術研究和商業領域。