騰訊混元宣布大語言模型和3D模型正式開源 ?
騰訊混元大模型正在加快開源步伐。
11月5日,騰訊混元宣布最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源,支持企業及開發者精調、部署等不同場景的使用需求,可在HuggingFace、Github等技術社區直接下載,免費可商用。
本次開源是騰訊混元繼文生圖模型后持續開放的一大舉措。其中,騰訊混元Large是目前開源領域參數規模最大、效果最好的MoE模型,而騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。兩個模型均屬騰訊自研,在架構、算法、數據等方面有獨特創新,填補了行業空白。目前,兩個模型均已經在騰訊業務場景中落地應用,經過實踐的檢驗,是面向實用場景的應用級大模型。
當天,騰訊云TI平臺和高性能應用服務HAI也開放接入這兩個模型,為模型的精調、API調用及私有化部署提供一站式服務。
堅持MoE架構,模型持續升級開放
騰訊混元Large模型總參數量 389B,激活參數量 52B ,上下文長度高達256K,公開測評結果顯示,騰訊混元Large 在CMMLU、MMLU、CEval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等9大維度全面領先,超過Llama3.1、Mixtral等一流的開源大模型。
騰訊混元Large 在各類測試集上得分領先現有主流開源模型
MoE(Mixture of Experts),即混合專家模型,是目前國內外主流的大模型結構。2024年年初,騰訊混元就宣布在國內率先采用MoE架構模型,總體性能比上一代Dense模型提升50%。此后,騰訊混元推出基于 MoE 架構的多模態理解大模型以及基礎模型"混元turbo",在性能、效果、速度等多個領域表現優越,第三方測評居國內大模型第一。
在模型結構和訓練策略方面,騰訊混元Large全面探索了MoE ScalingLaw,進行了MoE共享專家路由、回收路由等策略上的創新,并引入了專家特化的學習率適配訓練策略,有效提升不同專家利用率和穩定性,帶來模型效果的提升。
騰訊混元Large在Post-Train方面做了大量創新優化。面對SFT通用領域繁多,數學、代碼高質量指令數據獲取困難,業界廣泛采用的離線DPO,強化策略效果上限不高,泛化性弱等挑戰,騰訊混元Large模型分門別類提升數學、邏輯推理、代碼等能力,另外在一階段離線DPO的基礎上引入了二階段在線強化策略。
數據方面,騰訊混元Large構建了覆蓋數十個類目,高質量、高多樣性、大量級的中英文合成數據,顯著提升模型效果,其中數學和代碼效果提升超過10%。 針對長文領域測評數據集缺乏,方法不夠客觀等問題,騰訊混元Large還基于公開數據,構建了一套完整覆蓋長文閱讀理解、多文檔摘要總結、長文邏輯推理等領域任務的數據集企鵝卷軸(PenguinScrolls),并將對外開放,助力大模型長文方向的技術研究。
騰訊混元Large模型專項提升的長文能力已經應用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當于一本《三國演義》的長度,可以一次性處理上傳最多10個文檔,并能夠一次性解析多個微信公眾號鏈接、網址,讓騰訊元寶具備獨有的深度解析能力。
工程平臺方面,騰訊混元Large模型由騰訊自研,其訓練和推理均基于騰訊Angel機器學習平臺。其中,針對 MoE 模型通信效率問題,Angel訓練加速框架AngelPTM實現了多項技術優化,性能是主流開源框架DeepSpeed的2.6倍;針對模型推理加速,騰訊Angel機器學習平臺和騰訊云智能聯合研發 AngelHCF-vLLM框架,在最大限度保障精度的條件下,可節省50%以上顯存,相比于業界主流的框架BF16吞吐提升1倍以上。
騰訊混元Large 模型已同步上架騰訊云 TI平臺。TI 平臺具備實戰型大模型精調工具鏈,提供靈活的大模型訓練數據標注能力和開源的數據構建Pipeline,內置 Angel訓練和推理加速能力,支持一鍵啟動混元Large精調,幫助用戶訓練出真正滿足業務需求的專屬大模型,提升研發效率。
同時,騰訊混元大模型 PaaS平臺開放支持包含混元 Large 模型在內的十余種混元API 服務調用,可滿足文生文、圖生文、文生圖等不同模態以及角色扮演、FunctionCall、代碼等不同專項的模型需求。
業界首個同時支持文字、圖像生成3D的開源大模型
騰訊混元3D生成大模型首批開源模型包含輕量版和標準版,輕量版僅需10s即可生成高質量3D資產,目前已在技術社區公開發布,包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。
騰訊混元Hunyuan3D-1.0 模型也已上架到騰訊云HAI,通過HAI上更高性價比的GPU算力、模型一鍵部署能力和可視化圖形界面WebUI,有效降低模型開放和部署門檻。
此次騰訊混元開源的3D生成大模型 Hunyuan3D-1.0 ,解決了現有的3D生成模型在生成速度和泛化能力上存在不足的問題,可以幫助 3D 創作者和藝術家自動化生產 3D 資產。該模型具有強大泛化能力和可控性,可重建各類尺度物體,大到建筑,小到工具花草。經過定性、定量多個維度的評估,騰訊混元3D生成大模型的生成質量已達到開源模型的先進水平。
在兩個公開的3D數據集 GSO 與 OmniObject3D 上,騰訊混元Hunyuan3D-1.0 效果優于主流開源模型,整體能力屬于國際領先水平。從定性角度評估,Hunyuan3D-1.0 與行業領先的開源模型的 3D 生成效果表現對比也顯示出較高水平,包括幾何細節、紋理細節、紋理-幾何一致性、3D合理性、指令遵循等評價維度。
應用上,3D生成相關技術已經開始應用于UGC 3D創作、商品素材合成、游戲3D資產生成等騰訊業務中。其中,騰訊地圖基于騰訊混元3D大模型,發布了自定義3D導航車標功能,支持用戶創作個性化的 3D 導航車標,相比傳統的3D車標重建方案,速度提升了91%。此前,騰訊元寶 APP 也上線了”3D 角色夢工廠“玩法,支持個性化的 UGC 3D 人物生成。
隨著自研大模型技術強大的和應用實踐經驗的豐富,開源已經成為騰訊混元大模型的一個戰略選擇,未來,騰訊混元也將繼續帶來更多模態、更多尺寸的開源模型,將更多經過騰訊業務場景打磨和檢驗的模型開源,促進大模型技術進步和行業生態繁榮。
附:騰訊混元Large訪問地址
官網地址:https://llm.hunyuan.tencent.com/
Github地址:
https://github.com/Tencent/Tencent-Hunyuan-Large
Hugging Face 地址:
https://huggingface.co/tencent/Tencent-Hunyuan-Large
附:騰訊3D模型訪問地址
官網地址:https://3d.hunyuan.tencent.com/
Github 地址:https://github.com/Tencent/Hunyuan3D-1
Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1