無需人工標注!AI自生成訓練數據,靠「演繹-歸納-溯因」解鎖推理能力
當AI試圖破解數學、編程與科學的難題時,它常常像一位靈感乍現的天才,卻又難以穩定發揮。
新加坡國立大學、清華大學和Salesforce AI Research的研究者,提出了一種革命性的訓練框架——元能力對齊,賦予模型穩健的推理能力,讓頓悟成為常態。
論文鏈接:https://arxiv.org/abs/2505.10554
他們提出了一項使大型推理模型的能力變得更加可控和可靠的訓練方法,能夠高效地系統化培養大模型的數學,編程和科學問題上的基本推理能力。
要理解其突破,需要知道何為啊哈時刻,這里指的是在使用純強化學習訓練大模型的時候,大模型偶然展現出的高級推理行為,如自我糾正、回溯和驗證等。
DeepSeek-R1的成功表明,從預訓練基礎模型或指令微調模型開始,基于規則的純強化學習能夠自發地涌現出長鏈式思維推理、自我糾正、自我反思等高級行為。
然而,這些涌現行為的頻率和一致性,卻始終不可預測且無法控制,這就限制了大模型的推理能力的可擴展性和可靠性。
實驗方法:模仿心理學,
讓大模型穩定地涌現出推理能力
要想做到超越「頓悟時刻」就需要借助于心理學家皮爾斯提出的經典推理三元組,該理論指出人類的推理能力,可以分為三個組件間的組合,分別是假設,觀察和規則,根據任意兩個,可以得出第三個。
例如根據觀察和假設,通過歸納得到可泛化的規則;而基于規則和假設,能根據演繹推斷出未來可能的觀察結果;至于基于規則和觀察,得到假設的過程,稱之為溯因。
圖1:皮爾斯提出的推理元能力三元組
有了這樣的分類,研究者據此構建了一個程序,能自動化生成上述三類推理的實例,用于大模型的訓練,并對大模型輸出的結果自動進行驗證,程序生成的任務,是由常見數據組合而成,但又不再訓練數據集中的,由此可訓練模型的元推理能力。
例如,在演繹推理(H+R?O)中,模型被給定一組邏輯規則R和一個候選真值賦值H作為假設,必須驗證整體觀察結果O(即所有公式為真)是否成立。
而在歸納推理(H+O?R)中,模型被提供可觀察項O和不完整輸入H,必須抽象出底層生成規則R;在溯因推理(O+R?H)中,模型被給定觀察結果O和一個規則圖R ,必須反向追蹤以恢復能夠邏輯解釋結論的最小隱藏假設集H。
下面是作者給出的一個訓練數據的例子,以提示詞及正確回復的方式出現。
每個訓練實例由自動化生成器產生,并由驗證器篩選,從而生成大規模、自我校驗的訓練數據,完全無需人工標注。
圖2:模型訓練的三階段流程概述:對演繹、歸納和溯因專家進行對齊,在參數空間中合并它們,并持續使用強化學習訓練統一模型到下游領域
具體來看,該架構下的大模型,可視為一個類似混合專家模型的架構,每類專家拿到的訓練數據后,先各自提升自己的能力,演繹推理的「專家」,會在訓練后產生假設生成、邏輯推論傳播、經驗一致性檢測和糾錯。
歸納專家增強了模型在抽象和泛化方面的基本能力;而溯因專家從目標開始,以假設最小支持性為前提,對照已知事實,高效地進行目標導向的假設形成、驗證和修訂的重復循環,相當于對因果圖進行剪枝。
這些能力是跨領域進行穩健推理的必要組成部分。
之后研究者會后通過參數空間融合,將這些專家合并,然后在數學,編程和社交互動這三種場景上分別使用強化學習訓練專家模型(稱之為Domain-RL-Meta特定領域元強化學習),之后再對訓練好的模型進行融合。
這種訓練方法,被稱為元能力對齊。
實驗結果
高效且可擴展的訓練方式
對于上述三類任務,該研究對問題難度進行了分級,并采用循序漸進的學習策略,從易到難逐級訓練模型。
按照這個計劃,7B模型在2級問題時性能收斂,并且在使用更高級別的訓練數據集時,不再提升性能,32B模型偶爾受益于3級難度的訓練數據,但獎勵曲線不穩定,因此該研究中也沒有采用。
研究者在訓練過程中,對于7B模型,每個任務每個級別實驗200個實例,對于32B模型,每個任務每個級別適應2000個實例。
結果顯示:相比指令微調基線(Qwen-2.5),基于元能力對齊的訓練方法使模型在數學,編程和科學問題的7個模型從沒有見過的基準測試上的準確率提高了10%以上,并通過特定領域強化學習獲得進一步增益。
在7B和32B規模下,元能力對齊和合并的模型始終優于指令微調的基線模型,合并后的模型取得了最高增益。
在7B規模模型上,數學問題的平均分從基準的38.8%提升到Domain-RL-Meta的43.0%;而沒有經過元能力對齊,只是進行特定領域的強化學習,訓練后的表現只有41.2%。
參數量擴展至32B時,數學問題上的表現從46.9升至50.3(特定領域強化學習)再升至52.3(元能力對齊+特定領域強化學習),整體平均分從44.6升至47.4再升至48.8。
對比7B和32B參數量的提升,可看出元能力對齊帶來的收益隨模型規模增加而擴展,顯著提升了各項任務的性能上限,尤其是在數學任務上,合并三種推理模式后,訓練好的模型性能提升了11.1%。
表1:不同參數量下,適應元能力對齊訓練的大模型在數學和編程問題上的性能
這說明該框架為在數學、編程和科學領域提升推理能力提供了一種可擴展、可推廣且可控的方法,有助于構建可解釋且魯棒的推理模型。
這種模塊化的訓練方式,借鑒了混合專家模型,同時使用來自心理學對人類推理本質的洞見,讓大模型的每個專家進行專業分工,擅長一種推理方式,從而能夠用小數據集完成快速的性能提升。
這就如同學生學到了能駕馭各家功夫的小無相功后,能夠在各種問題上游刃有余。