9月24日消息,智譜AI推出數學模型MathGLM,以提升大語言模型的數學推理能力。它可以在不使用計算器工具的情況下,高效執行復雜算術運算,解答中文數學應用題,部分表現超過GPT4和ChatGPT,目前已在魔搭社區ModelScope全球首發上架。
過往研究認為,大語言模型并不能精確執行高位數的算數運算,尤其是涉及超過8位數的乘法運算以及涉及小數、分數的運算。但MathGLM的出現,足以打破這些偏見。
MathGLM包含10M、100M、500M、2B等多個參數版本,具備處理最多12位數字的運算能力。而且有測評結果顯示,通過充分的數據訓練,MathGLM-2B可以準確執行多位數的算術運算,準確率高達93.03%(接近100%),顯著超越GPT-4在相同測試數據上18.84%的準確率。10億參數版本的MathGLM-10B則在5000條中文數學應用題的測試數據集上實現了接近GPT-4的性能。
MathGLM出色的表現,離不開其在模型架構、數據集等方面的一系列創新。
針對算術任務,研發團隊采用Transformer的decoder架構,并使用自回歸目標在生成的算術數據集上從頭訓練。算術訓練數據集包含各類算術任務、各種運算符(含加法、減法、乘法、除法和求冪)、多種數字格式(含整數、小數、百分比、分數和負數)。研發團隊還采用分步計算策略對該數據集進行了重構,并且讓單個算術表達式由 2 到 10 個運算步驟組成,以方便MathGLM對每個中間結果進行準確計算,從而得到每個算術表達式的正確答案。
評測結果顯示,MathGLM在一個包含9592條測試用例、專門為算術任務量身定制的數據集上的表現,顯著優于GPT4和ChatGPT。
針對更復雜的數學問題——中文應用題,研發團隊微調了一系列以GLM為基座模型、用于解決數學應用題的MathGLM。
訓練過程中使用了一個包含21萬道中文小學數學題的高質量數據集Ape210K,但其不足之處在于每個題的答案都是直接計算得出,缺乏相應的計算過程。因此,研發團隊采用分步策略對Ape210K數據集進行了重構,方便MathGLM深入理解和學習潛在的計算邏輯和規則,逐步計算出每個數學問題的答案,提升最終答案的準確性。
此外,研發團隊還使用 ChatGLM-6B 和 ChatGLM2-6B 作為基座模型來訓練 MathGLM,賦予 MathGLM 基本的語言理解能力,使其能夠有效理解數學應用題中包含的語言信息。
在Ape210K數據集上進行測試的結果顯示,MathGLM模型在答案準確性方面已接近GPT-4。在一個包含1-6年級數學應用題的數據集K6上進行評測的結果顯示,MathGLM相比于其他中文模型(GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B等),呈現出了更強的數學推理能力。
為方便開發者快速上手體驗MathGLM,魔搭社區第一時間推出了模型體驗、推理實踐教程。
阿里云魔搭社區是國內規模最大、開發者最活躍的AI模型社區,擁有200多萬開發者,聚集了20多家頭部人工智能機構貢獻的1000多款優質AI模型,為開發者提供一站式的模型體驗、下載、推理、調優、定制等服務,社區模型累計下載量已突破7500萬次。“找大模型,上魔搭”正在成為開發者的共識。
附:
MathGLM模型地址:
https://modelscope.cn/models/ZhipuAI/MathGLM/summary
魔搭創空間MathGLM模型體驗鏈接:
https://www.modelscope.cn/studios/ZhipuAI/MathGLM-demo/summary
魔搭教程鏈接:
https://mp.weixin.qq.com/s?__biz=MzkxNTM5NTg2OA==&mid=2247486650&idx=1&sn=b1a729a720947a56a27d64dac1182519&chksm=c15e88c9f62901df978105f8ad084a72e651fbb97a7768b4159ecec751120c9772b795a41524#rd