【ITBEAR】9月19日消息,在2024年的云棲大會上,阿里云CTO周靖人揭曉了通義千問的新一代開源模型——Qwen2.5。這一全新模型系列覆蓋了多種尺寸的大語言模型、多模態模型、數學模型以及代碼模型,且每一尺寸模型都提供了基礎版、指令跟隨版及量化版,累計發布了超過100個模型。
值得一提的是,旗艦版模型Qwen2.5-72B在性能上已超越了擁有4050億參數的Llama 405B,展現了卓越的能力。在MMLU-rudex、MBPP及MATH三大基準測試中,Qwen2.5-72B分別取得了86.8、88.2和83.1的高分,顯示出其強大的通用知識、編程及數學能力。
據ITBEAR了解,與Qwen2相比,Qwen2.5系列的所有模型均在18T tokens的數據集上進行了預訓練,從而實現了整體性能18%以上的提升。這些模型不僅增強了知識儲備,還在編程和數學方面展現出更高的能力。特別是Qwen2.5-72B模型,其上下文長度可達128K,生成內容最多為8K,并支持包括中文、英文、法文等在內的29種以上語言。
在專項模型領域,Qwen2.5也取得了顯著進步。例如,專為編程設計的Qwen2.5-Coder在5.5T tokens的編程數據上進行了訓練,并開源了1.5B和7B兩個版本,未來計劃開源32B版本。同時,Qwen2.5-Math模型則能夠運用思維鏈和工具集成推理(TIR)解決中英雙語的數學問題,目前已開源了1.5B、7B、72B三個尺寸及一款數學獎勵模型Qwen2.5-Math-RM。
此外,阿里云還宣布開源了視覺語言模型Qwen2-VL-72B。該模型能夠識別各種分辨率和長寬比的圖片,理解超過20分鐘的長視頻,并具備操作手機和機器人的視覺智能體能力。
阿里云通過不斷創新和優化其AI模型,正逐步鞏固其在全球開源大模型領域的領先地位。Qwen2.5系列的推出,無疑為AI技術的發展注入了新的活力。
#阿里云# #Qwen2.5# #開源模型# #人工智能# #AI技術#