o1推理框架最新成果：斯坦福&伯克利提出元鏈式思維，升級模型推理能力

作者：量子位 2025-01-20 13:08:25

人工智能新聞

在最新的一篇長達100頁的論文中，他們將o1模型背后的推理機制提煉成了一個通用的框架——元鏈式思維（Meta-CoT）。

o1背后的推理原理，斯坦福和伯克利幫我們總結好了！

在最新的一篇長達100頁的論文中，他們將o1模型背后的推理機制提煉成了一個通用的框架——元鏈式思維（Meta-CoT）。

這個元鏈式思維（Meta-CoT）到底是什么意思呢？

簡單來說，它可以讓模型在推理過程中反思推理任務——

這樣不僅能得出結論，它還可以幫助我們找到更多新的研究思路和方法。

比如在經典的24點問題中，傳統的CoT雖然也能得出正確的結論，但是Meta-CoT在推理過程中不止會關注輸入的問題，而是在推理過程中思考更多的子問題并進行嘗試：

這也是o1模型可以在HARP等數學基準中大幅領先的原因：

SynthLabs公司的CEO Nathan Lile還自信地表示：

元鏈式思維（Meta-CoT）是通往超級智能（Superintelligence）的正確道路。下一波人工智能就是元鏈式思維（Meta-CoT）循環(huán)。

元鏈式思維(Meta-CoT)框架

為什么傳統CoT不管用了

在提出新框架之前，我們先要理解一個問題：為什么傳統模型經常在高級推理任務中“卡殼”。

其實啊，主要原因在于大語言模型的預訓練和指令調整語料庫數據中，不包含真實數據生成過程。

以數學問題為例，網上和教科書中雖有會有解答，但對于錯誤的論證方法為何失效，卻很少有相關的資料，

如此一來，在遇到復雜推理問題時，被中間環(huán)節(jié)困住的模型就很難調整到正確的思考方向。

而在全新的高中奧數水平數學基準測試中，OpenAI的o1模型系列表現出眾，不僅遠超以往的模型，而且問題越難優(yōu)勢越明顯。

從生成tokens數量看，其他大語言模型生成的解決方案長度與人類相近，這也就是說明，它們只是在搜索匹配訓練數據。

而o1模型在簡單問題上生成的tokens數與人類相當，在高難度問題上，生成tokens數則大幅增加，與傳統模型拉開差距。

這表明o1模型的CoT覆蓋范圍更廣，能更好地接近真實數據生成過程。

Meta-CoT的主要思想

我們先來看一道2011年國際數學奧林匹克競賽的 “風車問題”：

平面上有至少兩個點的有限集合，假設任意三點不共線，從過其中一點的直線開始，讓直線繞該點順時針旋轉，碰到集合中另一點時，新點成為旋轉軸繼續(xù)旋轉，此過程無限持續(xù)。能否選一個點和過該點的直線，讓集合中每個點都無限次成為旋轉軸呢？

官方給出的解答如下：

這道題的解答雖然很簡短，不依賴先驗知識，但卻是競賽中最難的題之一，600 多名參賽者中只有少數人答對。

主要難點在于，它的解答過程不是線性的。很多人會選擇用凸包構造或哈密頓圖論方法，最終都會失敗。

而答對的人主要是依靠大量幾何探索和歸納推理，才最終找到了答案。

也就是說，這個解答過程不是從左到右按部就班生成的。

從潛在變量過程角度看，經典思維鏈是對潛在推理鏈進行邊緣化，得出最終答案的概率。

但對于復雜問題，真實解答生成過程應該是解答的聯合概率分布，取決于潛在生成過程。

這就是團隊所說的元思維鏈（Meta - CoT）過程，使用這個思路，就可以大大提升大語言模型在復雜問題上的推理能力。

內部化搜索過程

Meta-CoT的一個重要步驟是，在面對高級推理問題時，大語言模型會努力提高搜索的效率。

以前模型通常會使用Best-of-N方法，也就是獨立生成多個完整答案，然后挑出最好的，但這個方法比較耗時。

在Meta-CoT中，研究人員把推理過程想象成一個“步步走”的游戲，也就是馬爾可夫決策過程（MDP）。

在這個過程里，他們還引入一個過程獎勵模型（PRM），它可以用來評估中間步驟能能否得出正確答案。

如果發(fā)現某個解答方向沒希望，模型就會盡快停下，回到可能成功的中間狀態(tài)，重新尋找解決方案。

這種樹搜索方法在簡單推理任務里已經顯出明顯的優(yōu)勢，在實際應用中也有成功案例。

論文的主要作者之一Rafael Rafailov是斯坦福畢業(yè)的博士，也參加過很多數學競賽，他表示這個新的搜索過程和他自己解答題目時的狀態(tài)也是一樣的：

評估解決方案的潛在方法、修剪沒有取得進展的方向、探索其他可能的分支主張、嘗試根據直覺構建通往最終目標的路徑

合成元鏈式思維

另外一個挑戰(zhàn)在于，大模型通常會使用強化學習方法從過去經驗里學習好的推理策略，但當遇到新領域的推理問題時，用傳統RL訓練出來的策略就不太好用了。

為了提高大模型解決不熟悉領域問題的能力，研究人員嘗試在Meta-CoT中讓大模型把推理過程當成一場“冒險游戲”，也就是部分可觀測馬爾可夫決策過程（POMDP），非常適合用來升級模型。

在這個過程中，模型可以根據不同情況調整策略。

以下圖中的迷宮游戲為例，模型一開始可以隨意行走，但慢慢地，通過將不同的頂點加入到路徑數據集或刪除數據集中，就會逐漸找到正確的方向。

而且，通過過程監(jiān)督，模型能及時得到反饋，知道自己是否走在正確的解答道路上。

研究人員還發(fā)現，讓模型主動探索不同的推理路徑，能大大提升它的表現。在實驗里，模型會努力嘗試各種方法，結果在解決復雜問題時，答對的概率也提高了很多。

論文還探討了通過搜索算法（如下圖中的蒙特卡羅樹搜索（MCTS）和A*搜索）生成合成訓練數據的更多方法，這些方法可以幫助模型在上下文中學習并執(zhí)行復雜的搜索策略。

使用新框架的LLM表現全面提升

那么相比原始的CoT，使用Meta-CoT新框架的LLM性能到底變強了多少呢？下面一起來看看論文中的實驗部分。

實驗設計

在數據收集方面，本論文主要使用了多個數學問題數據集，包括HARP、NuminaMath、Omni-MATH和OpenMathInstruct-2。通過對這些數據集進行過濾和處理，生成了適合訓練的合成數據。

實驗中的模型包括當前主流的多個LLM，包括Llama 3.1 8B、70B和GPT-4o等。

實驗設計包括指令調優(yōu)和強化學習后訓練兩個階段。指令調優(yōu)階段使用線性化的搜索軌跡進行訓練，強化學習后訓練階段使用E-RL2目標進行訓練。

在指令調優(yōu)階段，團隊使用了多種優(yōu)化目標，包括標準過程克隆方法和元鏈式思維優(yōu)化目標。

在強化學習后訓練階段，他們使用了不同的折扣率和優(yōu)化算法，如PPO和REINFORCE。

結果與分析

小規(guī)模的實驗結果：在小規(guī)模實驗中，使用MCTS和A*搜索算法生成的合成數據顯著提高了模型在復雜數學問題上的表現。

上下文探索的實驗結果：在上下文探索實驗中，模型在數學問題上的表現隨著上下文探索序列長度的增加而提高。然而，過長的序列長度也會導致性能下降，這也提醒我們需要在探索和推理之間找到平衡。

回溯實驗結果：在回溯實驗中，o1、DeepSeek-R1、Gemini 2.0 Flash Thinking等模型在解答數學題的過程中，在復雜數學問題上的表現都隨著回溯次數的增加而提高。這表明回溯是一種有效的錯誤糾正機制。

綜合實驗結果：綜合實驗結果表明，使用元鏈式思維框架可以顯著提高LLMs在復雜推理任務上的表現。例如，使用 E-RL² 目標訓練的模型在HARP數學基準測試中的表現比基線模型提高了約25%。

團隊還在規(guī)劃更多數學研究

論文提出的通過自教推力器、A*算法等方法進行合成的元鏈式思維（Meta-CoT）的框架，通過顯式建模推理過程和搜索過程，使得LLMs在各項常見的實驗任務中進行復雜推理的表現都有所提升。

團隊成員也表示，未來會進一步驗證所提出方法效率的必要性，開發(fā)出更有效的過程監(jiān)督和驗證技術。

此外，針對當前LLM普遍在數學問題等邏輯性較強的任務上表現不佳的現象，他們還正在構建大數學（Big Math） 項目。

這個項目的目標是聚合超過50萬個高質量、可驗證的數學問題，并最終完全開源！

對相關項目感興趣的朋友們可以點擊下面的鏈接了解更多內容～

責任編輯：張燕妮來源：量子位

模型 AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看