媲美DeepSeek！騰訊開源新版混元模型：AI Agent強(qiáng)化，超30種智能體指令

2025-06-30 09:04:00

Hunyuan-A13B特意針對AI Agent進(jìn)行了強(qiáng)化，打造了應(yīng)對不同場景變化的?“自適應(yīng)大腦”，設(shè)計(jì)超過30種智能體指令，并組合工具、動(dòng)作、響應(yīng)的格式變化，創(chuàng)造出20000?種格式組合。

騰訊開源了混元大模型的最新版本Hunyuan-A13B。

Hunyuan-A13B是一個(gè)專家混合模型，擁有800億參數(shù)，其中130億參數(shù)處于激活狀態(tài)。支持快、慢兩種思考模式：快速思維模式，提供簡潔高效的輸出，適用于高效、簡單的日常任務(wù)；慢速思維模式，支持更深層次的推理步驟包含反思和回溯，生成更長的思維鏈，提升復(fù)雜任務(wù)的準(zhǔn)確性。

值得一提的是，Hunyuan-A13B特意針對AI Agent進(jìn)行了強(qiáng)化，打造了應(yīng)對不同場景變化的 “自適應(yīng)大腦”，設(shè)計(jì)超過30種智能體指令，并組合工具、動(dòng)作、響應(yīng)的格式變化，創(chuàng)造出20000 種格式組合。

開源地址：https://huggingface.co/tencent/Hunyuan-A13B-Instruct

github：https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

根據(jù)騰訊公布的測試數(shù)據(jù)顯示，在數(shù)學(xué)AIME2024、AIME2025測試中， Hunyuan-A13B分別拿下了87.3、76.8的高分，超過了DeepSeek-R1的79.8、70分，同時(shí)也大幅度超過了OpenAI的o1模型。

在科研、代碼、推理的測試中，Hunyuan-A13B與DeepSeek-R1的測試結(jié)果幾乎差不多。

而在Agent智能體BFCL-V3、ComplexBench、C-TurcBench測試中，Hunyuan-A13B分別拿下78.3、61.2、63.5的高分，全部大幅度超過了DeepSeek-R1的56.9、41.1、55.3。

在架構(gòu)設(shè)計(jì)方面，Hunyuan-A13B 由 1 個(gè)共享專家和 64 個(gè)細(xì)粒度非共享專家組成，所有專家的中間維度相同。在訓(xùn)練階段，共享專家始終處于激活狀態(tài)，而非共享專家中只有 8 個(gè)會(huì)同時(shí)被激活。

為了進(jìn)一步提升模型的性能，Hunyuan-A13B 在激活函數(shù)上采用了 SWiGLU，這與 Hunyuan-Large 和 Hunyuan-TurboS 保持一致。此外，模型在注意力層中引入了 Grouped-Query Attention顯著提高了 KV 緩存的內(nèi)存效率，使得 Hunyuan-A13B 在處理復(fù)雜任務(wù)時(shí)能夠更加高效地利用計(jì)算資源。

在推理過程中，Hunyuan-A13B 還采用了雙模式推理鏈框架，這一框架允許模型根據(jù)任務(wù)的復(fù)雜性和用戶需求動(dòng)態(tài)調(diào)整推理深度。

快速思考模式旨在為簡單任務(wù)提供快速、高效的解決方案。在這種模式下，模型會(huì)生成簡潔的輸出，以最小的計(jì)算開銷滿足用戶的需求。這種模式特別適合那些對速度要求較高的場景，例如，實(shí)時(shí)問答或簡單的信息檢索任務(wù)。通過快速思考模式，Hunyuan-A13B 能夠在極短的時(shí)間內(nèi)給出答案，來提高用戶體驗(yàn)。

慢速思考模式，這種模式適用于更復(fù)雜的任務(wù)，如多步推理問題。在這種模式下，模型會(huì)進(jìn)行更深入、更全面的推理過程，包括但不限于反思和回溯等步驟。這使得模型能夠生成更長的推理鏈，從而提高在處理復(fù)雜問題時(shí)的準(zhǔn)確性和魯棒性。

在后訓(xùn)練階段，Hunyuan-A13B 采用了結(jié)構(gòu)化的多階段方法，旨在全面提升模型在各個(gè)維度的性能。這一階段包括推理導(dǎo)向的監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）階段，以及全場景監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段。

在推理導(dǎo)向的 SFT 階段，模型專注于加強(qiáng)在復(fù)雜推理導(dǎo)向任務(wù)方面的專業(yè)能力，例如，數(shù)學(xué)推理、邏輯推理、代碼生成和科學(xué)分析等。這一階段使用了精心策劃的指令 - 響應(yīng)數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)，這些數(shù)據(jù)集包含了明確的推理過程和詳細(xì)的推理解決方案。

在強(qiáng)化學(xué)習(xí)階段，模型進(jìn)一步增強(qiáng)了推理能力。這一階段利用了兩種類型的獎(jiǎng)勵(lì)機(jī)制：結(jié)果獎(jiǎng)勵(lì)模型和沙箱反饋。結(jié)果獎(jiǎng)勵(lì)模型是一種輕量級的語言模型基礎(chǔ)驗(yàn)證器，用于評估生成的最終答案與參考答案之間的一致性，并據(jù)此給出二元獎(jiǎng)勵(lì)。

沙箱反饋則通過一個(gè)多語言代碼沙箱來提供實(shí)際的代碼執(zhí)行結(jié)果，從而為模型提供更準(zhǔn)確的反饋。這些獎(jiǎng)勵(lì)機(jī)制的結(jié)合，使得模型能夠在推理過程中不斷優(yōu)化和改進(jìn)。

在全場景監(jiān)督微調(diào)階段，模型的適應(yīng)性得到了進(jìn)一步的拓寬。這一階段涉及在多樣化指令 - 響應(yīng)數(shù)據(jù)集上的監(jiān)督微調(diào)，旨在提高模型在創(chuàng)意寫作、基于知識的問答、指令遵循以及多輪對話任務(wù)等多樣化實(shí)際場景中的表現(xiàn)。

與推理導(dǎo)向的微調(diào)階段不同，這一階段的強(qiáng)化學(xué)習(xí)采用了雙重信號優(yōu)化方法，不僅評估最終輸出的正確性，還通過一個(gè)大型語言模型作為智能體評估器來評估風(fēng)格質(zhì)量、連貫性和適應(yīng)性。這種全面的評估策略使得模型能夠在提高準(zhǔn)確性的同時(shí)，增強(qiáng)在不同應(yīng)用場景中的可用性。

為了進(jìn)一步提升模型在特定領(lǐng)域的表現(xiàn)，在全場景強(qiáng)化學(xué)習(xí)階段Hunyuan-A13B還引入了多個(gè)專門的獎(jiǎng)勵(lì)服務(wù)和數(shù)據(jù)構(gòu)建流程。這些服務(wù)和流程針對不同的能力領(lǐng)域進(jìn)行了優(yōu)化，確保模型在各個(gè)領(lǐng)域都能達(dá)到高標(biāo)準(zhǔn)的表現(xiàn)。例如，在文本理解領(lǐng)域，模型不僅需要能夠準(zhǔn)確回答問題，還需要在風(fēng)格和連貫性上符合語言習(xí)慣。為此，研究人員設(shè)計(jì)了專門的一致性模型和比較性 GRM，以確保模型輸出在客觀和主觀任務(wù)中都能保持高質(zhì)量。

在智能體任務(wù)中，模型需要能夠有效地調(diào)用工具，并根據(jù)工具的反饋進(jìn)行合理的決策。為此，研究人員構(gòu)建了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制，以確保模型在調(diào)用工具時(shí)能夠遵循正確的格式和邏輯。這種獎(jiǎng)勵(lì)機(jī)制的引入，使得模型在智能體任務(wù)中能夠更加高效地完成任務(wù)，并且在多輪對話中保持良好的連貫性和一致性。

在復(fù)雜指令任務(wù)中，模型需要能夠精確地理解和執(zhí)行多方面的指令。為此，研究人員將約束提取和滿足工具與通用批評和獎(jiǎng)勵(lì)模型相結(jié)合，確保模型在執(zhí)行復(fù)雜指令時(shí)能夠嚴(yán)格遵循指令要求，并且在多步推理過程中保持邏輯連貫性。

在安全領(lǐng)域，模型需要能夠識別和避免潛在的風(fēng)險(xiǎn)和不當(dāng)內(nèi)容。為此，研究人員使用分類器和拒絕啟發(fā)式方法來識別安全響應(yīng)對，并將安全對齊直接整合到偏好數(shù)據(jù)集中。這種整合方法使得模型在生成內(nèi)容時(shí)能夠更加注重安全性，從而降低風(fēng)險(xiǎn)。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)