11月5日,在騰訊混元大模型媒體溝通會上,騰訊混元宣布最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源。
本次開源是騰訊混元繼文生圖模型后持續開放的一大舉措。其中,騰訊混元Large是目前開源領域參數規模最大的MoE模型,在長文容量、專業度方面皆有所提升。另外,騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型,10s即可幫助用戶生成3D資產。目前,3D生成大模型已應用于騰訊地圖,使生成速度提升91%。
10s可生成3D資產,已應用于騰訊地圖
長期以來,對于游戲、工業建模、電商體驗等3D使用人群而言,傳統3D制作時多重挑戰,包括對設計師專業技能要求高、人才需求緊迫;3D制作周期長、單模型平均制作時長為1到7天;3D制作成本高、單模型成本百元至萬元等問題。
針對3D生成方面的現狀,溝通會上騰訊還宣布開源了混元3D生成大模型,并宣布首批開源模型包含輕量版和標準版,輕量版僅需10s即可生成高質量3D資產。該批開源模型包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。目前,騰訊混元Hunyuan3D-1.0 模型也已上架到騰訊云HAI。
騰訊混元Hunyuan3D-1.0 模型生成的3D圖片。
此次騰訊混元開源的3D生成大模型 Hunyuan3D-1.0 ,解決了現有的3D生成模型在生成速度和泛化能力上存在不足的問題,可以幫助 3D 創作者和藝術家自動化生產 3D 資產。該模型具有強大泛化能力和可控性,可重建各類尺度物體,大到建筑,小到工具花草。
應用上,3D生成相關技術已經開始應用于UGC 3D創作、商品素材合成、游戲3D資產生成等騰訊業務中。其中,騰訊地圖基于騰訊混元3D大模型,發布了自定義3D導航車標功能,支持用戶創作個性化的 3D 導航車標,相比傳統的3D車標重建方案,速度提升了91%。此前,騰訊元寶 APP 也上線了”3D 角色夢工廠“玩法,支持個性化的 UGC 3D 人物生成。
今年以來3D賽道迎來了更多玩家。南都記者關注到,除了騰訊以外,國內企業VAST以及AI教母李飛飛皆在加碼這個賽道。聚焦于AIGC 3D內容生成的VAST近期攜手高磚發布了全球首個3D積木生成大模型Tripo-Gobricks,用戶只需輸入文字描述或提供參考圖像,即可將其轉化為可構建的3D積木模型。另外,AI教母李飛飛首次創業成立的空間智能公司World Labs也著眼于3D生成世界,宣布長期目標是構建大世界模型(LWM)來感知、生成3D世界并與之交互。
談及在這個時候開源混元3D生成大模型,騰訊專家研究員、混元文生3D研發負責人郭春超對南都記者表示,一是騰訊業務非常豐富,從公司自身業務出發做3D生成是極其有必要的,無論是動漫、游戲、影視這種偏娛樂類的都離不開3D資產,另外混元的定位也是要回饋社區,所以在這個時間段選擇開源。
另外,郭春超還提到,目前3D生成還處于前半程發展階段,要進一步發展需要社區一起努力,需要有更好的模型、更強的生成能力釋放出來才能進一步助推這個領域的發展。
混元升級推出Large模型,長文容量、專業度增強
南都記者了解獲悉,此次騰訊最新發布的混元Large模型總參數量389B,激活參數量52B,上下文長度高達256K。此次在模型結構和訓練策略方面,騰訊混元Large全面探索了MoE ScalingLaw,進行了MoE共享專家路由、回收路由等策略上的創新,并引入了專家特化的學習率適配訓練策略,有效提升不同專家利用率和穩定性,帶來模型效果的提升。
這次開源的騰訊混元Large模型,與騰訊混元Pro、騰訊混元Turbo等不同尺寸的模型源于同一技術體系,已經在騰訊內部業務經過驗證和廣泛使用。據了解,騰訊元寶、微信公眾號、小程序、微信讀書、騰訊廣告、騰訊游戲、騰訊會議等近700個內部業務和場景,都應用了混元大模型的能力。
微信讀書中的ai問書能力。
MoE(Mixture of Experts)即混合專家模型,是目前國內外主流的大模型結構。2024年年初,騰訊混元宣布在國內率先采用MoE架構模型,總體性能比上一代Dense模型提升50%。此后在今年9月,騰訊混元推出基于 MoE 架構的多模態理解大模型以及基礎模型"混元turbo",在性能、效果、速度等多個領域表現優越,第三方測評居國內大模型第一。
公開測評結果顯示,目前騰訊混元Large 在CMMLU、MMLU、Ceval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等9大維度全面領先,超過Llama3.1、Mixtral等一流的開源大模型。
在長文本能力方面,騰訊混元Large模型專項提升的長文能力已經應用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當于一本《三國演義》的長度,可以一次性處理上傳最多10個文檔,并能夠一次性解析多個微信公眾號鏈接、網址,讓騰訊元寶具備獨有的深度解析能力。
數據方面,騰訊混元Large構建了覆蓋數十個類目,高質量、高多樣性、大量級的中英文合成數據,顯著提升模型效果,其中數學和代碼效果提升超過10%。 針對長文領域測評數據集缺乏,方法不夠客觀等問題,騰訊混元Large還基于公開數據,構建了一套完整覆蓋長文閱讀理解、多文檔摘要總結、長文邏輯推理等領域任務的數據集企鵝卷軸(PenguinScrolls),并將對外開放,助力大模型長文方向的技術研究。
采寫:南都記者 林文琪