騰訊發(fā)布Hunyuan-Large大模型：389B總參數(shù)與52B激活參數(shù)，業(yè)界領(lǐng)先！-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52010
待審：74
小程序：12
文章：1158077
會(huì)員：789

首頁(yè) > 新聞資訊 > 手機(jī)數(shù)碼 >正文

騰訊發(fā)布Hunyuan-Large大模型：389B總參數(shù)與52B激活參數(shù)，業(yè)界領(lǐng)先！

發(fā)布時(shí)間：2024-11-05 17:14:18 作者：網(wǎng)友整理

【ITBEAR】騰訊近日推出了業(yè)界領(lǐng)先的Hunyuan-Large大模型，該模型基于Transformer架構(gòu)，并采用了MoE（Mixture of Experts）設(shè)計(jì)。據(jù)悉，這是目前業(yè)界已經(jīng)開源的最大規(guī)模的MoE模型，擁有驚人的3890億總參數(shù)和520億激活參數(shù)。

騰訊在Hugging Face平臺(tái)上開源了Hunyuan-A52B的三個(gè)版本，包括預(yù)訓(xùn)練版、指令版和指令版FP8，同時(shí)發(fā)布了詳盡的技術(shù)報(bào)告與操作手冊(cè)，供開發(fā)者深入了解模型的功能及操作方法。

Hunyuan-Large模型具備多項(xiàng)技術(shù)優(yōu)勢(shì)，例如通過高質(zhì)量合成數(shù)據(jù)增強(qiáng)訓(xùn)練，使模型能夠?qū)W習(xí)到更為豐富的數(shù)據(jù)表示，有效處理長(zhǎng)上下文輸入，并提升了對(duì)未見數(shù)據(jù)的泛化能力。模型還采用了創(chuàng)新的KV緩存壓縮技術(shù)，通過分組查詢注意力和跨層注意力策略，大幅降低了內(nèi)存占用和計(jì)算成本，從而提高了推理效率。

該模型還引入了專家特定學(xué)習(xí)率縮放技術(shù)，為不同的專家子模型設(shè)定了差異化的學(xué)習(xí)率，確保了每個(gè)子模型都能從數(shù)據(jù)中高效學(xué)習(xí)，并為模型的整體性能作出貢獻(xiàn)。在長(zhǎng)上下文處理能力方面，Hunyuan-Large也表現(xiàn)出色，其預(yù)訓(xùn)練模型支持處理長(zhǎng)達(dá)256K的文本序列，而指令版模型則支持128K的文本序列，顯著增強(qiáng)了處理長(zhǎng)上下文任務(wù)的能力。