成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

媲美DeepSeek!騰訊開源新版混元模型:AI Agent強(qiáng)化,超30種智能體指令

人工智能 新聞
Hunyuan-A13B特意針對AI Agent進(jìn)行了強(qiáng)化,打造了應(yīng)對不同場景變化的?“自適應(yīng)大腦”,設(shè)計(jì)超過30種智能體指令,并組合工具、動(dòng)作、響應(yīng)的格式變化,創(chuàng)造出20000?種格式組合。

騰訊開源了混元大模型的最新版本Hunyuan-A13B。

Hunyuan-A13B是一個(gè)專家混合模型,擁有800億參數(shù),其中130億參數(shù)處于激活狀態(tài)。支持快、慢兩種思考模式:快速思維模式,提供簡潔高效的輸出,適用于高效、簡單的日常任務(wù);慢速思維模式,支持更深層次的推理步驟包含反思和回溯,生成更長的思維鏈,提升復(fù)雜任務(wù)的準(zhǔn)確性。

值得一提的是,Hunyuan-A13B特意針對AI Agent進(jìn)行了強(qiáng)化,打造了應(yīng)對不同場景變化的 “自適應(yīng)大腦”,設(shè)計(jì)超過30種智能體指令,并組合工具、動(dòng)作、響應(yīng)的格式變化,創(chuàng)造出20000 種格式組合。

圖片

圖片

開源地址:https://huggingface.co/tencent/Hunyuan-A13B-Instruct

githubhttps://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

根據(jù)騰訊公布的測試數(shù)據(jù)顯示,在數(shù)學(xué)AIME2024、AIME2025測試中, Hunyuan-A13B分別拿下了87.3、76.8的高分,超過了DeepSeek-R1的79.8、70分,同時(shí)也大幅度超過了OpenAI的o1模型。

在科研、代碼、推理的測試中,Hunyuan-A13B與DeepSeek-R1的測試結(jié)果幾乎差不多。

而在Agent智能體BFCL-V3、ComplexBench、C-TurcBench測試中,Hunyuan-A13B分別拿下78.3、61.2、63.5的高分,全部大幅度超過了DeepSeek-R1的56.9、41.1、55.3。

圖片

在架構(gòu)設(shè)計(jì)方面,Hunyuan-A13B 由 1 個(gè)共享專家和 64 個(gè)細(xì)粒度非共享專家組成,所有專家的中間維度相同。在訓(xùn)練階段,共享專家始終處于激活狀態(tài),而非共享專家中只有 8 個(gè)會(huì)同時(shí)被激活。

為了進(jìn)一步提升模型的性能,Hunyuan-A13B 在激活函數(shù)上采用了 SWiGLU,這與 Hunyuan-Large 和 Hunyuan-TurboS 保持一致。此外,模型在注意力層中引入了 Grouped-Query Attention顯著提高了 KV 緩存的內(nèi)存效率,使得 Hunyuan-A13B 在處理復(fù)雜任務(wù)時(shí)能夠更加高效地利用計(jì)算資源。

圖片

在推理過程中,Hunyuan-A13B 還采用了雙模式推理鏈框架,這一框架允許模型根據(jù)任務(wù)的復(fù)雜性和用戶需求動(dòng)態(tài)調(diào)整推理深度。

快速思考模式旨在為簡單任務(wù)提供快速、高效的解決方案。在這種模式下,模型會(huì)生成簡潔的輸出,以最小的計(jì)算開銷滿足用戶的需求。這種模式特別適合那些對速度要求較高的場景,例如,實(shí)時(shí)問答或簡單的信息檢索任務(wù)。通過快速思考模式,Hunyuan-A13B 能夠在極短的時(shí)間內(nèi)給出答案,來提高用戶體驗(yàn)。

慢速思考模式,這種模式適用于更復(fù)雜的任務(wù),如多步推理問題。在這種模式下,模型會(huì)進(jìn)行更深入、更全面的推理過程,包括但不限于反思和回溯等步驟。這使得模型能夠生成更長的推理鏈,從而提高在處理復(fù)雜問題時(shí)的準(zhǔn)確性和魯棒性。

在后訓(xùn)練階段,Hunyuan-A13B 采用了結(jié)構(gòu)化的多階段方法,旨在全面提升模型在各個(gè)維度的性能。這一階段包括推理導(dǎo)向的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)階段,以及全場景監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段。

在推理導(dǎo)向的 SFT 階段,模型專注于加強(qiáng)在復(fù)雜推理導(dǎo)向任務(wù)方面的專業(yè)能力,例如,數(shù)學(xué)推理、邏輯推理、代碼生成和科學(xué)分析等。這一階段使用了精心策劃的指令 - 響應(yīng)數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào),這些數(shù)據(jù)集包含了明確的推理過程和詳細(xì)的推理解決方案。

圖片

在強(qiáng)化學(xué)習(xí)階段,模型進(jìn)一步增強(qiáng)了推理能力。這一階段利用了兩種類型的獎(jiǎng)勵(lì)機(jī)制:結(jié)果獎(jiǎng)勵(lì)模型和沙箱反饋。結(jié)果獎(jiǎng)勵(lì)模型是一種輕量級的語言模型基礎(chǔ)驗(yàn)證器,用于評估生成的最終答案與參考答案之間的一致性,并據(jù)此給出二元獎(jiǎng)勵(lì)。

沙箱反饋則通過一個(gè)多語言代碼沙箱來提供實(shí)際的代碼執(zhí)行結(jié)果,從而為模型提供更準(zhǔn)確的反饋。這些獎(jiǎng)勵(lì)機(jī)制的結(jié)合,使得模型能夠在推理過程中不斷優(yōu)化和改進(jìn)。

在全場景監(jiān)督微調(diào)階段,模型的適應(yīng)性得到了進(jìn)一步的拓寬。這一階段涉及在多樣化指令 - 響應(yīng)數(shù)據(jù)集上的監(jiān)督微調(diào),旨在提高模型在創(chuàng)意寫作、基于知識的問答、指令遵循以及多輪對話任務(wù)等多樣化實(shí)際場景中的表現(xiàn)。

與推理導(dǎo)向的微調(diào)階段不同,這一階段的強(qiáng)化學(xué)習(xí)采用了雙重信號優(yōu)化方法,不僅評估最終輸出的正確性,還通過一個(gè)大型語言模型作為智能體評估器來評估風(fēng)格質(zhì)量、連貫性和適應(yīng)性。這種全面的評估策略使得模型能夠在提高準(zhǔn)確性的同時(shí),增強(qiáng)在不同應(yīng)用場景中的可用性。

圖片

為了進(jìn)一步提升模型在特定領(lǐng)域的表現(xiàn),在全場景強(qiáng)化學(xué)習(xí)階段Hunyuan-A13B還引入了多個(gè)專門的獎(jiǎng)勵(lì)服務(wù)和數(shù)據(jù)構(gòu)建流程。這些服務(wù)和流程針對不同的能力領(lǐng)域進(jìn)行了優(yōu)化,確保模型在各個(gè)領(lǐng)域都能達(dá)到高標(biāo)準(zhǔn)的表現(xiàn)。例如,在文本理解領(lǐng)域,模型不僅需要能夠準(zhǔn)確回答問題,還需要在風(fēng)格和連貫性上符合語言習(xí)慣。為此,研究人員設(shè)計(jì)了專門的一致性模型和比較性 GRM,以確保模型輸出在客觀和主觀任務(wù)中都能保持高質(zhì)量。

在智能體任務(wù)中,模型需要能夠有效地調(diào)用工具,并根據(jù)工具的反饋進(jìn)行合理的決策。為此,研究人員構(gòu)建了基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制,以確保模型在調(diào)用工具時(shí)能夠遵循正確的格式和邏輯。這種獎(jiǎng)勵(lì)機(jī)制的引入,使得模型在智能體任務(wù)中能夠更加高效地完成任務(wù),并且在多輪對話中保持良好的連貫性和一致性。

在復(fù)雜指令任務(wù)中,模型需要能夠精確地理解和執(zhí)行多方面的指令。為此,研究人員將約束提取和滿足工具與通用批評和獎(jiǎng)勵(lì)模型相結(jié)合,確保模型在執(zhí)行復(fù)雜指令時(shí)能夠嚴(yán)格遵循指令要求,并且在多步推理過程中保持邏輯連貫性。

在安全領(lǐng)域,模型需要能夠識別和避免潛在的風(fēng)險(xiǎn)和不當(dāng)內(nèi)容。為此,研究人員使用分類器和拒絕啟發(fā)式方法來識別安全響應(yīng)對,并將安全對齊直接整合到偏好數(shù)據(jù)集中。這種整合方法使得模型在生成內(nèi)容時(shí)能夠更加注重安全性,從而降低風(fēng)險(xiǎn)。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-12-11 08:28:15

2024-11-06 09:47:00

2024-05-22 18:10:38

2022-04-29 16:47:57

AI騰訊

2024-09-05 16:37:37

2025-02-17 10:36:00

微軟開源模型

2024-06-21 11:44:17

2025-05-21 13:03:52

2025-06-10 09:28:31

智能體開發(fā)工具

2025-03-13 06:59:30

JavaAPI騰訊

2023-09-06 18:25:32

2024-06-06 14:27:21

2025-02-05 12:53:21

2024-05-17 14:06:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品久久久久永久免费观看 | 欧美影院久久 | 99久久婷婷国产综合精品电影 | 久久免费视频观看 | 一区二区三区欧美在线观看 | 狠狠色综合久久丁香婷婷 | 五月激情综合 | 欧美精品一区二区三区在线播放 | 久久国产亚洲 | 最近中文字幕在线视频1 | 日韩成人专区 | 国产精品国产馆在线真实露脸 | av手机在线免费观看 | 在线看片国产 | 夫妻午夜影院 | www.久久 | 97国产精品视频人人做人人爱 | www312aⅴ欧美在线看 | 欧美在线国产精品 | av在线一区二区三区 | 成人在线观看免费视频 | 国产精品二区三区 | 天堂一区在线观看 | 日韩欧美在线视频观看 | 久久久久久久综合 | 涩涩99 | 国产激情视频网站 | 大陆一级毛片免费视频观看 | 国产精品日韩欧美一区二区三区 | 日韩中文字幕 | 久久99精品视频 | 免费精品在线视频 | 日本综合在线观看 | 国产精品揄拍一区二区 | 国产福利在线视频 | 国产免费一区二区三区最新6 | 国产一区二区毛片 | 国产精品麻| 国产精品一区三区 | 国产亚洲欧美另类一区二区三区 | 91精品久久久久久久久 |