【ITBEAR】騰訊近日推出了業界領先的Hunyuan-Large大模型,該模型基于Transformer架構,并采用了MoE(Mixture of Experts)設計。據悉,這是目前業界已經開源的最大規模的MoE模型,擁有驚人的3890億總參數和520億激活參數。
騰訊在Hugging Face平臺上開源了Hunyuan-A52B的三個版本,包括預訓練版、指令版和指令版FP8,同時發布了詳盡的技術報告與操作手冊,供開發者深入了解模型的功能及操作方法。
Hunyuan-Large模型具備多項技術優勢,例如通過高質量合成數據增強訓練,使模型能夠學習到更為豐富的數據表示,有效處理長上下文輸入,并提升了對未見數據的泛化能力。模型還采用了創新的KV緩存壓縮技術,通過分組查詢注意力和跨層注意力策略,大幅降低了內存占用和計算成本,從而提高了推理效率。
該模型還引入了專家特定學習率縮放技術,為不同的專家子模型設定了差異化的學習率,確保了每個子模型都能從數據中高效學習,并為模型的整體性能作出貢獻。在長上下文處理能力方面,Hunyuan-Large也表現出色,其預訓練模型支持處理長達256K的文本序列,而指令版模型則支持128K的文本序列,顯著增強了處理長上下文任務的能力。
為了驗證模型的實際應用效果和安全性,騰訊在多種語言和任務上進行了廣泛的基準測試。測試結果充分證明了Hunyuan-Large模型的卓越性能和廣泛適用性。
對于想要深入了解Hunyuan-Large模型的開發者和研究者,騰訊提供了豐富的資源鏈接,包括論文、Github倉庫、Huggingface模型庫以及騰訊云上的相關產品頁面。