成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o

發(fā)布于 2025-5-27 07:00
瀏覽
0收藏

引言:重新定義工具使用型語言模型的訓(xùn)練范式

大型語言模型(LLM)的工具使用能力已成為擴(kuò)展其功能邊界的關(guān)鍵戰(zhàn)略。傳統(tǒng)方法通常依賴監(jiān)督微調(diào)(SFT)來確保工具調(diào)用的正確性,或從更強(qiáng)大的模型中提煉推理軌跡。然而,這些方法各有局限:要么完全忽略推理過程,要么產(chǎn)生僅能模仿表面模式的偽推理,限制了模型的泛化能力。

近日,NVIDIA研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——Nemotron-Research-Tool-N1(簡稱Tool-N1),這是一系列基于強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。該研究受到DeepSeek-R1通過規(guī)則基礎(chǔ)的強(qiáng)化學(xué)習(xí)成功引出推理能力的啟發(fā),采用類似的訓(xùn)練范式,通過二元獎(jiǎng)勵(lì)機(jī)制來評(píng)估工具調(diào)用的結(jié)構(gòu)有效性和功能正確性,而無需標(biāo)注的推理軌跡。

這種輕量級(jí)的監(jiān)督方式使模型能夠自主內(nèi)化推理策略,在BFCL和API-Bank基準(zhǔn)測試中,基于Qwen-2.5-7B/14B-Instruct構(gòu)建的Tool-N1-7B和Tool-N1-14B取得了令人矚目的成果,超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基線模型。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

工具學(xué)習(xí)的問題定義

在正式介紹Tool-N1之前,我們首先明確工具學(xué)習(xí)的問題定義。考慮一個(gè)大型語言模型(LLM)和一組外部工具集合??={zi},模型可以訪問這些工具。每個(gè)工具zi可以表示為一個(gè)三元組(ni,di,ki),包含工具使用的基本信息:ni表示工具的名稱,di提供工具的自然語言描述,ki指定工具的輸入?yún)?shù)說明。

模型的目標(biāo)是根據(jù)策略π響應(yīng)用戶查詢。為實(shí)現(xiàn)這一目標(biāo),LLM可能在交互過程中發(fā)出多個(gè)帶有適當(dāng)參數(shù)的工具調(diào)用。在任何決策步驟t,LLM接收兩種類型的輸入:(1)歷史上下文ct,由所有前面的工具調(diào)用和觀察對(duì)組成;(2)當(dāng)前可用的工具集??。然后,LLM必須決定下一步行動(dòng)。

形式上,決策過程定義為:

π(ct,??~)→at, s.t. at???

其中at表示在步驟t選擇的操作,對(duì)應(yīng)從可訪問工具子集??~中抽取的一個(gè)或多個(gè)工具調(diào)用。ct表示歷史上下文。具體來說:

{ at={z0(p0),…,zm(pm)}, ct=(a0,o0,…,at,ot) }

其中每個(gè)zm表示調(diào)用的第m個(gè)工具,pm是其對(duì)應(yīng)的參數(shù)。m的值表示在時(shí)間t進(jìn)行的工具調(diào)用數(shù)量。ot表示采取操作at后的觀察結(jié)果。工具學(xué)習(xí)的最終目標(biāo)是使LLM具備一個(gè)泛化策略π,通過產(chǎn)生一系列連貫的操作-觀察對(duì)(at,ot)來有效解決用戶查詢。

Nemotron-Research-Tool-N1的創(chuàng)新方法

Nemotron-Research-Tool-N1是一個(gè)基于R1風(fēng)格強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)的通用工具使用型語言模型。Tool-N1構(gòu)建于GRPO強(qiáng)化學(xué)習(xí)算法之上,旨在提高模型在復(fù)雜場景中的工具調(diào)用能力,特別是在LLM需要使用一組可訪問工具解決查詢的情況下。

形式上,給定歷史上下文ct和當(dāng)前可用工具集??,模型生成一組候選響應(yīng)[O1,O2,...,O?]。每個(gè)響應(yīng)包含(1)文本推理和(2)相關(guān)聯(lián)的操作an。這些響應(yīng)使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估,產(chǎn)生一個(gè)獎(jiǎng)勵(lì)集{r?,r?,...,r?}。然后使用GRPO算法估計(jì)優(yōu)勢并更新策略模型,受KL散度約束。第i個(gè)響應(yīng)的相對(duì)優(yōu)勢Ai計(jì)算如下:

Ai = (ri - mean({r?,r?,...,r?})) / std({r?,r?,...,r?})

其中mean和std分別表示獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差。

數(shù)據(jù)準(zhǔn)備

許多先前的工作集中于收集大規(guī)模工具調(diào)用軌跡,然后通過監(jiān)督微調(diào)(SFT)來提高LLM的工具使用能力。這些數(shù)據(jù)集通常由自然語言用戶查詢Q和一系列地面真實(shí)工具調(diào)用步驟(a?,o?,...,a?,o?)組成。然后訓(xùn)練模型根據(jù)觀察到的軌跡預(yù)測每個(gè)后續(xù)操作at。然而,SFT往往表現(xiàn)出有限的泛化能力,因?yàn)槟P蛢A向于記憶訓(xùn)練軌跡,而不是發(fā)展穩(wěn)健的內(nèi)在推理能力。

為充分利用社區(qū)中可用的SFT數(shù)據(jù),研究團(tuán)隊(duì)統(tǒng)一并預(yù)處理了來自xLAM和ToolACE子集的數(shù)據(jù),這些數(shù)據(jù)提供了單輪和多輪合成工具調(diào)用軌跡。由于這些數(shù)據(jù)集是由潛在不穩(wěn)定的LLM生成的,它們通常包含不一致性和不適合GRPO訓(xùn)練的非結(jié)構(gòu)化格式。研究團(tuán)隊(duì)通過過濾掉包含無效工具調(diào)用的樣本來標(biāo)準(zhǔn)化數(shù)據(jù)集,特別是那些涉及候選工具列表中不存在的工具的樣本。

可用工具從系統(tǒng)提示中提取,候選工具和地面真實(shí)工具調(diào)用都解析為結(jié)構(gòu)化字典格式。丟棄了JSON解析失敗或包含格式不一致的實(shí)例。這種預(yù)處理產(chǎn)生了適合強(qiáng)化學(xué)習(xí)的干凈一致的數(shù)據(jù)集。對(duì)于來自ToolACE子集的多輪數(shù)據(jù),研究團(tuán)隊(duì)進(jìn)一步將每個(gè)軌跡分割成多個(gè)單步預(yù)測實(shí)例,其中每個(gè)實(shí)例包含一個(gè)目標(biāo)工具調(diào)用,前面的步驟被視為上下文。使用R1風(fēng)格的GRPO訓(xùn)練LLM,根據(jù)這些上下文信息和提供的工具預(yù)測每個(gè)工具調(diào)用步驟。

思考模板

遵循Guo等人(2025)的方法,研究團(tuán)隊(duì)采用了一個(gè)輕量級(jí)提示模板來引出LLM的工具調(diào)用。該提示明確指示模型在<think>...</think>標(biāo)簽內(nèi)生成中間推理,然后在<tool_call>...</tool_call>標(biāo)簽內(nèi)封裝工具調(diào)用。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

這個(gè)模板背后的設(shè)計(jì)理念是最小化對(duì)過于僵化格式規(guī)則的依賴,這可以降低過擬合特定提示模式的風(fēng)險(xiǎn)。通過允許模型在表達(dá)其推理方面有更大的靈活性,目標(biāo)是促進(jìn)跨多樣化工具使用場景的更強(qiáng)泛化能力。此外,在訓(xùn)練期間使用這種輕量級(jí)提示設(shè)計(jì)使得生成的模型能夠更容易與更復(fù)雜的提示策略集成。

獎(jiǎng)勵(lì)建模

按照數(shù)據(jù)準(zhǔn)備中描述的方法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集,其中每個(gè)地面真實(shí)工具調(diào)用表示為結(jié)構(gòu)化字典。這種格式使得在強(qiáng)化學(xué)習(xí)過程中能夠可靠地驗(yàn)證工具名稱和參數(shù)-值對(duì),而不僅僅是簡單的字符串匹配。利用這種結(jié)構(gòu),研究團(tuán)隊(duì)定義了一個(gè)R1風(fēng)格的二元獎(jiǎng)勵(lì)函數(shù),共同評(píng)估推理格式的正確性和工具調(diào)用的準(zhǔn)確性,包括其名稱和參數(shù)。

格式檢查:遵循先前的工作,研究團(tuán)隊(duì)在訓(xùn)練期間納入格式檢查,以驗(yàn)證模型的輸出是否符合預(yù)期的結(jié)構(gòu)約定——具體來說,推理是否封裝在<think>...</think>標(biāo)簽內(nèi),工具調(diào)用是否正確放置在<tool_call>...</tool_call>標(biāo)簽內(nèi)。這種結(jié)構(gòu)約束鼓勵(lì)模型在工具調(diào)用之前進(jìn)行明確的推理,而不是直接跳到最終答案。通過強(qiáng)制格式遵守,目標(biāo)是培養(yǎng)模型的內(nèi)在推理能力,這可能潛在地有助于改善泛化——特別是對(duì)于分布外輸入。

工具調(diào)用檢查:研究團(tuán)隊(duì)還檢查工具調(diào)用本身的正確性。工具調(diào)用輸出被解析為字典,使得能夠與地面真實(shí)調(diào)用進(jìn)行精確匹配。這涉及檢查預(yù)測的工具名稱是否與地面真實(shí)相匹配,以及所有必需的參數(shù)是否存在且值正確。這種嚴(yán)格的匹配標(biāo)準(zhǔn)確保模型學(xué)習(xí)生成功能精確且可執(zhí)行的工具調(diào)用。與SFT中的下一個(gè)標(biāo)記預(yù)測邏輯相比,這種基于字典的匹配引入了更大的靈活性。它允許參數(shù)順序變化而不受懲罰,鼓勵(lì)模型關(guān)注工具調(diào)用的底層語義,而不是表面級(jí)記憶。這種設(shè)計(jì)促進(jìn)了對(duì)工具使用的更深入理解,并支持更好的泛化。

二元獎(jiǎng)勵(lì)定義:給定上下文ct和預(yù)測操作at,研究團(tuán)隊(duì)定義了一個(gè)二元獎(jiǎng)勵(lì)函數(shù)r(ct,at)∈{0,1},當(dāng)滿足以下兩個(gè)條件時(shí),分配獎(jiǎng)勵(lì)1:(1)格式正確性:模型輸出符合結(jié)構(gòu)格式,即包含<think>...</think>和<tool_call>...</tool_call>標(biāo)簽;(2)工具調(diào)用正確性:預(yù)測的工具調(diào)用at在工具名稱和所有參數(shù)鍵值對(duì)方面與地面真實(shí)調(diào)用at*完全匹配。

r(ct,at) = { 1, 如果 FormatCorrect(at) ∧ ToolCallMatch(at,at*) 0, 否則 }

其中FormatCorrect(at)在輸出正確包裝在兩個(gè)所需標(biāo)簽中時(shí)返回true,ToolCallMatch(at,at*)在at在結(jié)構(gòu)和內(nèi)容上與地面真實(shí)工具調(diào)用at*完全匹配時(shí)返回true。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)進(jìn)行了廣泛實(shí)驗(yàn),證明了所提方法的優(yōu)越性。實(shí)驗(yàn)主要在BFCL和API-Bank兩個(gè)典型基準(zhǔn)測試上進(jìn)行評(píng)估。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:主要使用ToolACE和xLAM的子集作為訓(xùn)練數(shù)據(jù)集。ToolACE涵蓋了廣泛的工具調(diào)用場景,包括具有多個(gè)候選工具和并行函數(shù)調(diào)用的示例,覆蓋了26,507個(gè)多樣化工具的池。相比之下,xLAM專注于單輪函數(shù)調(diào)用,包含通過APIGen收集的60,000個(gè)實(shí)例。

模型:除非另有說明,研究團(tuán)隊(duì)使用Qwen2.5-7B/14B-Instruct作為主要骨干模型。為評(píng)估方法的泛化能力,還對(duì)替代骨干模型進(jìn)行了評(píng)估,包括來自LLaMA家族的多個(gè)變體。實(shí)驗(yàn)中,研究團(tuán)隊(duì)與通用開源模型(如GPT系列和Gemini-2.0)以及專門的工具調(diào)用模型(包括ToolACE-8B、xLAM-2和Hammer2.1)進(jìn)行了比較。

基準(zhǔn)測試:主要評(píng)估單輪工具調(diào)用查詢的性能。在幾個(gè)代表性基準(zhǔn)測試上評(píng)估了方法,包括Berkeley Function Call Leaderboard (BFCL)和API-Bank。對(duì)于BFCL,在Non-live和Live子集上進(jìn)行了評(píng)估,分別對(duì)應(yīng)合成和真實(shí)世界數(shù)據(jù)。每個(gè)子集包括四個(gè)類別:Simple、Multiple、Parallel和Parallel Multiple。Simple和Multiple場景都涉及單個(gè)工具的調(diào)用,Multiple類別具有多個(gè)候選工具。相比之下,Parallel和Parallel Multiple場景需要同時(shí)調(diào)用多個(gè)工具。對(duì)于API-Bank,排除了多輪案例。所有基準(zhǔn)測試的性能都以準(zhǔn)確率報(bào)告。

其他實(shí)現(xiàn)細(xì)節(jié):所有實(shí)驗(yàn)使用開源強(qiáng)化學(xué)習(xí)庫Verl進(jìn)行。訓(xùn)練使用1024的批量大小和1×10??的學(xué)習(xí)率。溫度固定在0.7。熵系數(shù)設(shè)置為0,因?yàn)橛^察到引入熵對(duì)訓(xùn)練期間的探索產(chǎn)生負(fù)面影響。KL散度損失系數(shù)在所有實(shí)驗(yàn)中設(shè)置為1×10?3。所有訓(xùn)練運(yùn)行在由4個(gè)節(jié)點(diǎn)組成的集群上執(zhí)行,每個(gè)節(jié)點(diǎn)配備8個(gè)NVIDIA H100 80GB GPU。

主要結(jié)果

BFCL基準(zhǔn)測試結(jié)果:實(shí)驗(yàn)結(jié)果清楚地表明,所有Tool-N1-7B/14B模型都取得了最佳的總體性能,超過了最先進(jìn)的閉源模型(如GPT-4o)和專門的微調(diào)模型(包括xLAM-2-70B和ToolACE-8B)。值得注意的是,訓(xùn)練的工具調(diào)用推理模型顯著優(yōu)于在相同數(shù)據(jù)源上訓(xùn)練的監(jiān)督微調(diào)基線(即ToolACE和xLAM系列)。結(jié)果證明,與標(biāo)準(zhǔn)監(jiān)督微調(diào)相比,R1風(fēng)格的強(qiáng)化學(xué)習(xí)為增強(qiáng)LLM的工具調(diào)用能力提供了更有效的范式。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

API-Bank基準(zhǔn)測試結(jié)果:為提供更全面的評(píng)估,研究團(tuán)隊(duì)還在API-Bank基準(zhǔn)測試上進(jìn)行了實(shí)驗(yàn)。Tool-N1-7B和Tool-N1-14B模型在大多數(shù)情況下都始終優(yōu)于基線。值得注意的是,Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高4.12%和5.03%,清楚地證明了該方法的有效性。

深入分析

可擴(kuò)展性和泛化能力

可擴(kuò)展性:擴(kuò)展定律,它描述了模型大小和性能之間的關(guān)系,在理解訓(xùn)練方法的有效性方面起著關(guān)鍵作用。研究團(tuán)隊(duì)通過評(píng)估一系列模型大小來評(píng)估所提訓(xùn)練方法的擴(kuò)展行為,包括來自Qwen2.5-Instruct系列的0.5B、1.5B、3B、7B和14B。為進(jìn)行比較,還報(bào)告了沒有任何額外訓(xùn)練的原始指令調(diào)整模型的性能。

研究團(tuán)隊(duì)報(bào)告了BFCL基準(zhǔn)測試的Live和Non-Live類別的平均性能。如預(yù)期的那樣,較大的模型在兩種評(píng)估設(shè)置中始終優(yōu)于較小的模型。值得注意的是,對(duì)于較小的模型(0.5B和1.5B),后訓(xùn)練的性能改進(jìn)有限,而較大的模型表現(xiàn)出顯著的增益。這些發(fā)現(xiàn)表明,R1風(fēng)格的訓(xùn)練方法隨著模型大小的增加而更有效地?cái)U(kuò)展。

泛化能力:研究團(tuán)隊(duì)進(jìn)一步評(píng)估了不同骨干LLM的影響,以研究所提訓(xùn)練方法的泛化能力。除了Qwen系列,還包括使用基于LLaMA的模型的實(shí)驗(yàn):LLaMA3-8B-Instruct和LLaMA3.1-8B-Instruct。這些評(píng)估在BFCL基準(zhǔn)測試上進(jìn)行。研究發(fā)現(xiàn),在相同的模型規(guī)模下,Qwen2.5-Instruct顯著優(yōu)于兩種LLaMA變體。這種優(yōu)勢可能是由于Qwen固有的更強(qiáng)推理能力,正如Gandhi等人(2025)先前觀察到的那樣。因此,R1風(fēng)格的訓(xùn)練范式能夠在應(yīng)用于Qwen時(shí)引出更好的性能。

消融研究

獎(jiǎng)勵(lì)設(shè)計(jì)的消融:為評(píng)估獎(jiǎng)勵(lì)粒度如何影響模型行為,研究團(tuán)隊(duì)在兩種獎(jiǎng)勵(lì)方案下評(píng)估了Tool-N1-7B:細(xì)粒度和二元。細(xì)粒度設(shè)置提供部分獎(jiǎng)勵(lì),即使最終函數(shù)調(diào)用不正確,正確的推理格式也提供0.2的獎(jiǎng)勵(lì),匹配函數(shù)名稱再提供0.2的額外獎(jiǎng)勵(lì)。相比之下,二元設(shè)置僅在所有組件都正確時(shí)給予1.0的獎(jiǎng)勵(lì),包括推理、函數(shù)名稱和參數(shù)。Tool-N1在二元獎(jiǎng)勵(lì)下始終取得更好的性能,特別是在Live子集上(80.38%對(duì)76.61%),這涉及更現(xiàn)實(shí)的輸入。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

研究團(tuán)隊(duì)將這歸因于減少了獎(jiǎng)勵(lì)黑客行為:在細(xì)粒度方案下,模型可能過度擬合表面線索,如格式化或部分匹配,而不確保完全執(zhí)行正確性。此外,在二元設(shè)置中,觀察到移除推理格式約束顯著損害了性能(從80.38%下降到76.24%)。這突顯了結(jié)構(gòu)化推理在引導(dǎo)Tool-N1-7B實(shí)現(xiàn)可靠和可泛化工具使用方面的關(guān)鍵作用,特別是在復(fù)雜的真實(shí)世界場景中。

訓(xùn)練數(shù)據(jù)組成的消融:研究團(tuán)隊(duì)還調(diào)查了不同數(shù)據(jù)組成策略如何影響B(tài)FCL基準(zhǔn)測試的性能。實(shí)驗(yàn)使用Tool-N1-7B模型進(jìn)行。主要發(fā)現(xiàn)如下:(1)與原始模型(Qwen2.5-7B-Instruct)相比,R1風(fēng)格的訓(xùn)練顯著增強(qiáng)了工具調(diào)用能力;(2)ToolACE數(shù)據(jù)在實(shí)時(shí)設(shè)置中產(chǎn)生了特別強(qiáng)的改進(jìn);(3)與使用相同數(shù)據(jù)進(jìn)行SFT訓(xùn)練的模型相比,R1風(fēng)格的訓(xùn)練始終產(chǎn)生更好的性能。具體來說,僅在xLAM數(shù)據(jù)上訓(xùn)練的Tool-N1-7B模型比xLAM-8B SFT模型表現(xiàn)好6.36%,僅在ToolACE子集上訓(xùn)練的Tool-N1-7B模型比ToolACE-8B SFT模型表現(xiàn)好1.62%,盡管只使用了數(shù)據(jù)的一個(gè)子集。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

SFT還是RL?:研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)系統(tǒng)研究,比較了純RL、監(jiān)督微調(diào)(SFT)和常用的SFT-then-RL流程。使用5,518個(gè)提煉的推理軌跡進(jìn)行分析,發(fā)現(xiàn):(1)盡管在許多領(lǐng)域,對(duì)推理軌跡進(jìn)行SFT然后進(jìn)行RL的組合通常被認(rèn)為是最佳實(shí)踐,但在相等的數(shù)據(jù)預(yù)算下,在工具調(diào)用設(shè)置中沒有觀察到性能改進(jìn);(2)在相等的數(shù)據(jù)預(yù)算下,純RL優(yōu)于Reason-SFT和No-Reason SFT;(3)有趣的是,No-Reason SFT的表現(xiàn)僅比Reason-SFT略差,表明在SFT期間提供推理軌跡提供的額外好處有限。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

結(jié)論與未來展望

Nemotron-Research-Tool-N1引入了一系列使用基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。與依賴監(jiān)督微調(diào)的先前方法不同,Nemotron-Research-Tool-N1利用僅監(jiān)督最終答案和推理結(jié)構(gòu)格式的獎(jiǎng)勵(lì)函數(shù)。這使模型能夠在不需要注釋推理軌跡的情況下學(xué)習(xí)有效的推理策略。

實(shí)驗(yàn)結(jié)果表明,Nemotron-Research-Tool-N1在多個(gè)基準(zhǔn)測試中始終優(yōu)于現(xiàn)有基線,包括BFCL和API-Bank。此外,當(dāng)在相同數(shù)據(jù)上訓(xùn)練時(shí),使用R1風(fēng)格強(qiáng)化學(xué)習(xí)的模型比其SFT訓(xùn)練的對(duì)應(yīng)物實(shí)現(xiàn)了更優(yōu)越的性能,肯定了基于強(qiáng)化的訓(xùn)練相對(duì)于SFT的好處。

這項(xiàng)研究為工具使用型語言模型的訓(xùn)練提供了一個(gè)新的范式,強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在培養(yǎng)模型推理能力方面的潛力。未來的研究方向可能包括探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)、集成多模態(tài)工具和擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域。

論文:???https://arxiv.org/abs/2505.00024v1???

GitHub:???https://github.com/NVlabs/Tool-N1??

本文轉(zhuǎn)載自???頓數(shù)AI???,作者:蔥蔥

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 中文字幕视频网 | 国产在线精品一区 | 久久综合婷婷 | 亚洲视频免费在线观看 | 在线国产一区 | 久久久久久久一区二区三区 | 国产高清视频一区 | 国产午夜精品视频 | 国产婷婷色一区二区三区 | xxx视频 | 亚洲精品区 | 欧美日韩一卡二卡 | 久久免费精品视频 | 本道综合精品 | 伊人91在线 | 久久99久久99精品免视看婷婷 | 黄色毛片在线看 | 8x国产精品视频一区二区 | 成人国产精品久久 | 少妇精品亚洲一区二区成人 | 综合久久久 | 黄色电影在线免费观看 | 一级毛片视频 | 国产黄色在线观看 | 日韩久久精品电影 | 国产欧美精品在线观看 | 一区二区三区四区不卡视频 | 黄色大全免费看 | 欧美激情精品久久久久久变态 | 日韩免费av | 91精品一区二区三区久久久久久 | 国产精品女人久久久 | 亚洲欧洲视频 | 日韩精品一区在线 | 91久久精品国产 | 国产免费看 | 欧美日韩国产在线 | av在线视 | 男女羞羞的网站 | 午夜伊人 | 亚洲国产精品成人无久久精品 |