跨領域強化學習樣本數據集;符號表達的分層推理基準
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
2025-06-18|MSRC-UK, Microsoft Research India|ICML 2025|??2
??http://arxiv.org/abs/2506.15455v1???
???https://huggingface.co/papers/2506.15455??
研究背景與意義
- 問題定義與現狀
當前大型語言模型(LLMs)在多種推理基準測試中表現出較高準確率,但仍存在爭議,即這些結果是否源自真正的推理能力,還是僅僅是訓練數據的統計記憶。推理作為一種認知過程,涉及基于事實或前提進行推斷,區別于簡單的模式匹配。
- 挑戰與目標
現有推理評估多依賴固定基準,且通常缺乏系統性和可擴展性,難以全面反映模型的推理層級和泛化能力。本文旨在構建一個基于符號表達的分層推理評估框架——RE-IMAGINE,系統化地生成多層次、可擴展的推理問題變體,進而揭示和量化LLMs的真實推理能力和局限。
研究方法與創新
- 技術描述
RE-IMAGINE框架基于Pearl的因果推理階梯理論,提出三層推理層級:“觀察”(Observe)、“變異”(Mutate)和“想象”(Imagine),分別對應模型對原始問題的解答能力、對問題變體的泛化能力以及對新邏輯整合的能力。框架設計了自動化的符號表示轉換和變異生成流水線,支持從自然語言問題到符號代碼的雙向轉換,并通過符號計算圖進行多種變異操作。
- 創新點
統一分層推理體系:首次將推理能力劃分為三層,系統整合了之前零散的變異測試方法,明確區分了不同推理能力的評估目標。
可擴展自動變異流水線:實現了跨多個領域(數學、因果推理、代碼理解等)的自動化、可執行的符號變異生成,極大提升了評估規模和多樣性,降低了人工干預。
結合因果推理度量:引入了基于二元反事實的因果一致性指標(必要性和充分性不一致率),豐富了推理能力的定量評估手段。
- 優勢與對比相較于以往依賴手工設計模板或固定基準的評估,RE-IMAGINE能夠生成海量“未見過”的問題變體,避免訓練數據泄露帶來的記憶偏差,更全面地考察模型的推理泛化和創新能力。其自動化流水線和統一層級框架為未來推理評估樹立了標準。
實驗設計與結果分析
- 實驗設計
- 選取四個主流推理基準:GSM8K(數學)、CLadder(因果推理)、CRUXEval和Loop(代碼理解)。
- 對原始問題進行三層次變異,生成大量自動標注的變體問題。
- 測試多款主流LLM(包括GPT系列、Llama、Phi等),采用8-shot鏈式思考提示。
- 評估指標包括準確率、反事實推理一致性指標(N-IR、S-IR)等。
- 主要結果
- 模型在原始問題(Level-1)上表現較好,準確率普遍較高。
- Level-2變異(輕微修改問題參數或添加無關信息)導致模型性能明顯下降,揭示模型對簡單變異的泛化能力有限。
- Level-3變異(引入新邏輯或反事實條件)對模型構成更大挑戰,性能大幅下滑,表明模型難以有效整合和推理復雜新信息。
- 反事實指標顯示,盡管部分模型如GPT-4o表現較優,但整體仍存在因果推理能力不足問題。
- 代碼理解任務中,盡管變異設計盡量保持代碼復雜度不變,模型表現仍顯著下降,表明記憶與泛化之間的權衡問題普遍存在。
- 引入變異樣例作為上下文示例能有效提升模型對變異問題的適應能力,說明訓練和提示策略對推理泛化影響顯著。
- 統計顯著性與多場景表現
- 通過多組樣本和多模型驗證,結果具有統計顯著性,且跨數學、因果和代碼領域均表現一致,表明RE-IMAGINE框架的通用性和有效性。
結論與展望
- 總結貢獻
RE-IMAGINE實現了對LLMs推理能力的系統、層級化評估,明確揭示了當前模型在面對復雜變異時的性能瓶頸和記憶依賴問題。該框架推動了推理評估從靜態基準向動態、多樣化、因果邏輯驅動的方向轉變。
- 局限分析
- 當前變異主要基于符號代碼層面,部分自然語言表達的復雜性和多樣性尚未充分覆蓋。
- 評估集中于數學、因果和代碼領域,尚需擴展到更多推理類型和實際應用場景。
- 反事實推理指標計算成本較高,限制了大規模應用。
- 未來展望
- 推動RE-IMAGINE向更廣泛的推理任務和多模態場景擴展,提升評估的全面性。
- 結合模型訓練過程,探索如何利用變異生成技術提升模型的推理泛化能力。
- 優化因果推理指標的計算效率,促進其在實際評估中的廣泛應用。
- 利用該框架促進開發更具魯棒性和真正推理能力的AI系統,推動AI安全和可信賴性研究。
綜上,RE-IMAGINE為理解和提升大型語言模型的推理能力提供了堅實的理論基礎和實踐工具,具有重要的學術價值和應用前景。
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
2025-06-17|UC San Diego, MBZUAI, Carnegie Mellon U, Purdue U|??31
??http://arxiv.org/abs/2506.14965v1???
???https://huggingface.co/papers/2506.14965???
???https://github.com/LLM360/Reasoning360??
研究背景與意義
- 研究背景
近年來,強化學習(RL)被廣泛應用于提升大型語言模型(LLM)的推理能力,尤其在數學和編程領域取得顯著進展。然而,現有研究多聚焦于這兩個狹窄領域,限制了對RL在更廣泛推理任務中適用性的理解。跨領域推理的RL研究受到缺乏可靠且可擴展的獎勵信號的制約,導致模型在多樣推理任務中的表現和泛化能力受限。
- 研究意義
本研究提出了GURU數據集——一個涵蓋數學、代碼、科學、邏輯、模擬和表格六大推理領域的92K條經嚴格篩選和驗證的強化學習訓練樣本。GURU不僅彌補了多領域推理訓練數據的缺失,也為系統研究RL在不同推理領域的適用性和機制提供了基礎。通過此數據集,研究者能夠更全面地理解RL如何促進LLM的推理技能提升,推動通用推理能力的發展。
研究方法與創新
- 數據集構建與創新
研究團隊設計了嚴謹的數據處理流水線,包括多源數據采集、去重、領域特定獎勵函數設計、啟發式及模型驅動的過濾,以及難度過濾,確保訓練樣本的高質量和獎勵信號的準確性。創新點在于跨領域覆蓋廣泛,獎勵設計多樣(規則匹配、代碼執行驗證、模型判別驗證),有效解決了多領域推理中獎勵信號不足和數據噪聲問題。
- 強化學習訓練策略
基于GURU數據集,作者對Qwen系列模型(7B與32B參數規模)進行了單領域與混合領域的強化學習訓練。通過系統性對比,揭示了RL在不同領域的表現差異,首次明確了預訓練覆蓋度對RL跨領域轉移能力的影響:數學、代碼、科學領域因預訓練數據豐富,能通過跨領域訓練快速提升;而邏輯、模擬、表格等領域因預訓練覆蓋不足,需依賴領域內訓練實現實質性技能增長。
- 理論貢獻與優勢
本研究突破了以往只關注數學和代碼領域的局限,提出了多領域RL訓練的新范式,強調了領域特異性和跨領域數據混合訓練的重要性。通過細致的獎勵設計與數據篩選,提升了RL訓練的穩定性和效果,促進了模型對復雜推理任務的適應能力。相比現有方法,GURU及其訓練策略顯著提高了模型的通用推理性能和泛化能力。
實驗設計與結果分析
- 實驗設計
實驗采用GURU數據集中的單領域3K樣本和混合領域18K樣本,分別對Qwen2.5-7B和32B基模型進行RL訓練。評估涵蓋17個任務,跨六大推理領域,綜合考察模型在本領域和跨領域的表現。訓練過程中監控獎勵信號和響應長度變化,分析訓練難度對性能的影響。
- 結果分析
- 跨領域轉移能力差異顯著:數學、代碼、科學領域表現出強烈的跨領域轉移能力,訓練于任一領域均有助于提升其他兩個領域的性能;而邏輯、模擬、表格領域僅在本領域訓練時表現明顯提升,表明這些領域需要專門的領域內訓練來獲得技能增長。
- 混合領域訓練效果優異:將所有領域樣本混合訓練,模型表現達到或超過單領域訓練效果,顯示多領域數據的融合能夠促進模型獲得更廣泛的推理能力。
- 獎勵與響應長度動態:不同領域RL訓練對響應長度的影響存在差異,部分領域如數學和科學傾向于生成更長答案,而代碼和邏輯領域則可能縮短輸出,說明RL訓練調整了模型的表達策略以適應任務需求。
- 訓練難度過濾的雙刃劍效應:針對數學領域,篩選高難度樣本提升了本領域性能,但對跨領域簡單任務產生負面影響,提示訓練數據難度的平衡對于提升泛化能力至關重要。
- 統計顯著性與多場景表現GURU-7B和GURU-32B模型在17個任務上的平均準確率分別領先最優公開基線7.9%和6.7%。尤其在復雜且預訓練中較少出現的任務(如ZebraPuzzle)中,模型表現出顯著提升,驗證了RL訓練擴展模型推理邊界的能力。
結論與展望
- 總結貢獻
本研究首次構建了涵蓋六大推理領域的高質量強化學習數據集GURU,系統揭示了RL訓練在不同推理領域的表現差異和機制,提出了多領域混合訓練的有效策略,顯著提升了開放模型的通用推理能力。GURU-7B/32B模型刷新了公開數據訓練模型的性能紀錄,推動了LLM推理研究的多領域發展。
- 局限性分析
盡管GURU數據集廣泛且精細,但仍存在領域覆蓋不全、獎勵設計依賴預定義規則或判別模型的局限。此外,混合領域訓練的長期影響及多領域間潛在的干擾效應尚需進一步探究,尤其在更多領域和更大規模模型上的適用性有待驗證。
- 未來展望
未來研究可聚焦于:
- 設計更為靈活和自適應的獎勵機制,提升開放式推理任務的評價準確性和多樣性;
- 探索更精細的領域平衡和樣本難度調控策略,優化跨領域知識遷移和泛化;
- 擴展GURU數據集覆蓋更多推理類型和實際應用場景,推動RL在LLM推理中的普適性提升;
- 結合其他訓練范式(如監督學習、對比學習)與RL融合,構建更強大的通用推理模型。
本研究為多領域強化學習推動LLM推理能力提供了堅實基礎,期待后續工作在理論和應用層面持續深化和拓展。
本文轉載自??AI研究前瞻??,作者:胡耀淇
