OpenAI最大秘密，竟被中國研究者破解？復旦等驚人揭秘o1路線圖

作者：新智元 2025-01-06 08:30:00

人工智能新聞

OpenAI o1和o3模型的秘密，竟傳出被中國研究者「破解」？今天，復旦等機構的這篇論文引起了AI社區的強烈反響，他們從強化學習的角度，分析了實現o1的路線圖，并總結了現有的「開源版o1」。

就在今天，國內的一篇論文，引得全球AI學者震驚不已。

推上多位網友表示，OpenAI o1和o3模型背后究竟是何原理——這一未解之謎，被中國研究者「發現」了！

注：作者是對如何逼近此類模型進行了理論分析，并未聲稱已經「破解」了這個問題

實際上，在這篇長達51頁的論文中，來自復旦大學等機構的研究人員，從強化學習的角度分析了實現o1的路線圖。

其中，有四個關鍵部分需要重點關注：策略初始化、獎勵設計、搜索和學習。

此外，作為路線圖的一部分，研究者還總結出了現有的「開源版o1」項目。

論文地址：https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括來說，像o1這樣的推理模型，可以被認為是LLM和AlphaGo這類模型的結合。

首先，模型需要通過「互聯網數據」進行訓練，使它們能夠理解文本，并達到一定的智能水平。

然后，再加入強化學習方法，讓它們「系統地思考」。

最后，在尋找答案的過程中，模型會去「搜索」解決方案空間。這種方法既用于實際的「測試時」回答，也用于改進模型，即「學習」。

值得一提的是，斯坦福和谷歌在2022年的「STaR: Self-Taught Reasoner」論文中提出，可以利用LLM在回答問題之前生成的「推理過程」來微調未來的模型，從而提高它們回答此類問題的能力。

STaR讓AI模型能夠通過反復生成自己的訓練數據，自我「引導」到更高的智能水平，理論上，這種方法可以讓語言模型超越人類水平的智能。

因此，讓模型「深入分析解決方案空間」的這一理念，在訓練階段和測試階段都扮演著關鍵角色。

在這項工作中，研究者主要從以下四個層面對o1的實現進行了分析：策略初始化、獎勵設計、搜索、學習。

策略初始化

策略初始化使模型能夠發展出「類人推理行為」，從而具備高效探索復雜問題解空間的能力。

海量文本數據預訓練
指令微調
問題分析、任務分解和自我糾正等學習能力

獎勵設計

獎勵設計則通過獎勵塑造或建模提供密集有效的信號，指導模型的學習和搜索過程。

結果獎勵（基于最終結果）
過程獎勵（基于中間步驟）

結果獎勵（左）和過程獎勵（右）

搜索

搜索在訓練和測試中都起著至關重要的作用，即通過更多計算資源可以生成更優質的解決方案。

MCTS等樹搜索方法探索多種解決方案
連續修訂迭代改進答案
結合兩種方法可能是最佳選擇

搜索過程中使用的指導類型：內部指導、外部指導，以及兩者的結合

學習

從人工專家數據中學習需要昂貴的數據標注。相比之下，強化學習通過與環境的交互進行學習，避免了高昂的數據標注成本，并有可能實現超越人類的表現。

政策梯度方法，如PPO和DPO
從高質量搜索解決方案克隆行為
迭代搜索和學習周期

綜上，正如研究者們在2023年11月所猜測的，LLM下一個突破，很可能就是與谷歌Deepmind的Alpha系列（如AlphaGo）的某種結合。

對此，有網友表示，這項研究的意義絕不僅僅是發表了一篇論文，它還為大多數模型打開了大門，讓其他人可以使用RL來實現相同的概念，提供不同類型的推理反饋，同時還開發了AI可以使用的劇本和食譜。

「開源版o1」

研究者總結道，盡管o1尚未發布技術報告，但學術界已經提供了多個o1的開源實現。

此外，工業界也有一些類似o1的模型，例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1：這項研究可能是最早嘗試重新實現o1的項目。
Thinking Claude：與g1類似，但它通過更復雜和細粒度的操作來提示LLM。
Open-o1：項目提出了一個SFT數據集，其中每個響應都包含CoT。研究者推測，這些數據可能來自人類專家或一個強大的LLM。
o1 Journey：通過兩篇技術報告中進行了詳細描述。第一部分通過束搜索生成的樹數據進行遍歷，特定節點由GPT-4優化后用于SFT，這一策略可以被描述為專家迭代。第二部分則嘗試對o1-mini進行蒸餾，并通過prompt來恢復隱藏的CoT過程。
Open-Reasoner：框架類似于AlphaGo，通過強化學習提升模型性能。
慢思考與LLM：研究同樣分為兩篇技術報告。第一部分與Open-Reasoner類似，結合了強化學習和測試時的搜索。第二部分從QwQ和Deepseek-R1中蒸餾，并嘗試了兩種強化學習方法。
Marco-o1：項目將Open-o1的數據與模型自身通過MCTS算法生成的數據結合，用于SFT訓練。
o1-coder：項目嘗試在代碼生成領域重新實現o1。

不同開源o1項目在策略初始化、獎勵設計、搜索和學習領域的方法對比

策略初始化

在強化學習中，策略定義了智能體如何根據環境狀態選擇行動。

其中，LLM的動作粒度分為三種級別：解決方案級別、步驟級別和Token級別。

智能體與環境在LLM強化學習中的交互過程

對于LLM的初始化過程，主要包括兩個階段：預訓練和指令微調。

在預訓練階段，模型通過大規模網絡語料庫的自監督學習，發展出基本的語言理解能力，并遵循計算資源與性能之間的既定冪律規律。

在指令微調階段，則是將LLM從簡單的下一個Token預測，轉變為生成與人類需求一致的響應。

對于像o1這樣的模型，融入類人推理行為對于更復雜的解決方案空間探索至關重要。

預訓練

預訓練通過大規模文本語料庫的接觸，為LLM建立基本的語言理解和推理能力。

對于類似o1的模型，這些核心能力是后續學習和搜索中發展高級行為的基礎。

語言理解與生成：語言理解是分層次發展的——句法模式較早涌現，而邏輯一致性和抽象推理則在訓練的后期階段逐步形成。因此除了模型規模外，訓練時長和數據組成也至關重要。
世界知識獲取與存儲：知識存儲具有高效的壓縮和泛化特性，而抽象概念相比事實性知識需要更廣泛的訓練。
基礎推理能力：預訓練通過多樣化的推理模式發展了基礎推理能力，后者以從簡單推斷到復雜推理的層次結構逐步涌現。

指令微調

指令微調通過在多領域的指令-響應對上進行專門訓練，將預訓練語言模型轉變為面向任務的智能體。

這一過程將模型的行為從單純的下一個Token預測，轉變為具有明確目的的行為。

效果主要取決于兩個關鍵因素：指令數據集的多樣性和指令-響應對的質量。

類人推理行為

盡管經過指令微調的模型展現了通用任務能力和用戶意圖理解能力，但像o1這樣的模型，需要更復雜的類人推理能力來充分發揮其潛力。

如表1所示，研究者對o1的行為模式進行了分析，識別出六種類人推理行為。

問題分析：問題分析是一個關鍵的初始化過程，模型在解決問題前會先重新表述并分析問題。
任務分解：在面對復雜問題時，人類通常會將其分解為若干可管理的子任務。
任務完成：之后，模型通過基于明確問題和分解子任務的逐步推理，生成解決方案。
替代方案：當面臨推理障礙或思路中斷時，生成多樣化替代解決方案的能力尤為重要。如表1所示，o1在密碼破解中展現了這一能力，能夠系統性地提出多個選項。
自我評估：任務完成后，自我評估作為關鍵的驗證機制，用于確認所提解決方案的正確性。
自我糾正：當推理過程中出現可控錯誤時，模型會采用自我糾正行為來解決這些問題。在o1的演示中，當遇到諸如「No」或「Wait」之類的信號時，會觸發糾正過程。

關于o1策略初始化的推測

策略初始化在開發類似o1的模型中起到了關鍵作用，因為它建立了影響后續學習和搜索過程的基礎能力。

策略初始化階段包括三個核心組成部分：預訓練、指令微調以及類人推理行為的開發。

盡管這些推理行為在指令微調后的LLM中已隱性存在，但其有效部署需要通過監督微調或精心設計的提示詞來激活。

長文本生成能力：在推理過程中，LLM需要精細的長文本上下文建模能力。
合理塑造類人推理行為：模型還需要發展以邏輯連貫方式，有序安排類人推理行為的能力。
自我反思：自我評估、自我糾正和替代方案提議等行為，可視為模型自我反思能力的表現。

獎勵設計

在強化學習中，智能體從環境中接收獎勵反饋信號，并通過改進策略來最大化其長期獎勵。

獎勵函數通常表示為r(st, at)，表示智能體在時間步t的狀態st下執行動作at所獲得的獎勵。

獎勵反饋信號在訓練和推理過程中至關重要，因為它通過數值評分明確了智能體的期望行為。

結果獎勵與過程獎勵

結果獎勵是基于LLM輸出是否符合預定義期望來分配分數的。但由于缺乏對中間步驟的監督，因此可能會導致LLM生成錯誤的解題步驟。

與結果獎勵相比，過程獎勵不僅為最終步驟提供獎勵信號，還為中間步驟提供獎勵。盡管展現了巨大的潛力，但其學習過程比結果獎勵更具挑戰性。

獎勵設計方法

由于結果獎勵可以被視為過程獎勵的一種特殊情況，許多獎勵設計方法可以同時應用于結果獎勵和過程獎勵的建模。

這些模型常被稱為結果獎勵模型（Outcome Reward Model，ORM）和過程獎勵模型（Process Reward Model，PRM）。

來自環境的獎勵：最直接的獎勵設計方法是直接利用環境提供的獎勵信號，或者學習一個模型來模擬環境中的獎勵信號。
從數據中建模獎勵：對于某些環境，環境中的獎勵信號無法獲取，也無法進行模擬。相比直接提供獎勵，收集專家數據或偏好數據更為容易。通過這些數據，可以學習一個模型，從而提供有效的獎勵。

獎勵塑造

在某些環境中，獎勵信號可能無法有效傳達學習目標。

在這種情況下，可以通過獎勵塑造（reward shaping）對獎勵進行重新設計，使其更豐富且更具信息量。

然而，由于價值函數依賴于策略π，從一種策略估計的價值函數可能并不適合作為另一種策略的獎勵函數。

關于o1獎勵設計的推測

鑒于o1能夠處理多任務推理，其獎勵模型可能結合了多種獎勵設計方法。

對于諸如數學和代碼等復雜的推理任務，由于這些任務的回答通常涉及較長的推理鏈條，更可能采用過程獎勵模型（PRM）來監督中間過程，而非結果獎勵模型（ORM）。

當環境中無法提供獎勵信號時，研究者推測，o1可能依賴于從偏好數據或專家數據中學習。

根據OpenAI的AGI五階段計劃，o1已經是一個強大的推理模型，下一階段是訓練一個能夠與世界交互并解決現實問題的智能體。

為了實現這一目標，需要一個獎勵模型，為智能體在真實環境中的行為提供獎勵信號。

獎勵集成：為通用任務構建獎勵信號的一種直觀方式是通過特定領域的獎勵集成。
世界模型：世界模型不僅能夠提供獎勵信號，還可以預測下一狀態。有研究認為，視頻生成器可以作為一種世界模型，因為它能夠預測未來時間步的圖像。

搜索

對于像o1這樣旨在解決復雜推理任務的模型，搜索可能在訓練和推理過程中都發揮重要作用。

搜索指導

基于內部指導的搜索不依賴于來自外部環境或代理模型的真實反饋，而是通過模型自身的狀態或評估能力來引導搜索過程。

外部指導通常不依賴于特定策略，僅依賴于與環境或任務相關的信號來引導搜索過程。

同時，內部指導和外部指導可以結合起來引導搜索過程，常見的方法是結合模型自身的不確定性與來自獎勵模型的代理反饋。

搜索策略

研究者將搜索策略分為兩種類型：樹搜索和序列修正。

樹搜索是一種全局搜索方法，同時生成多個答案，用于探索更廣泛的解決方案范圍。

相比之下，序列修正是一種局部搜索方法，基于先前結果逐步優化每次嘗試，可能具有更高的效率。

樹搜索通常適用于復雜問題的求解，而序列修正更適合快速迭代優化。

搜索在o1中的角色

研究者認為，搜索在o1的訓練和推理過程中，都起著至關重要的作用。

他們將這兩個階段中的搜索，分別稱為訓練時搜索（training-time search）和推理時搜索（test-time search）。

在訓練階段，在線強化學習中的試錯過程也可以被視為一種搜索過程。

在推理階段，o1表明，通過增加推理計算量和延長思考時間可以持續提高模型性能。

研究者認為，o1的「多思考」方式可以被視為一種搜索，利用更多的推理計算時間來找到更優的答案。

關于o1搜索的推測

訓練階段搜索：在訓練過程中，o1更可能采用樹搜索技術，例如BoN或樹搜索算法，并主要依賴外部指導。
推理階段搜索：在推理過程中，o1更可能使用序列修正，結合內部指導，通過反思不斷優化和修正其搜索過程。

從o1博客中的示例可以看出，o1的推理風格更接近于序列修正。種種跡象表明，o1在推理階段主要依賴內部指導。

學習

強化學習通常使用策略對軌跡進行采樣，并基于獲得的獎勵來改進策略。

在o1的背景下，研究者假設強化學習過程通過搜索算法生成軌跡，而不僅僅依賴于采樣。

基于這一假設，o1的強化學習可能涉及一個搜索與學習的迭代過程。

在每次迭代中，學習階段利用搜索生成的輸出作為訓練數據來增強策略，而改進后的策略隨后被應用于下一次迭代的搜索過程中。

訓練階段的搜索與測試階段的搜索有所不同。

研究者將搜索輸出的狀態-動作對集合記為D_search，將搜索中最優解決方案的狀態-動作對集合記為D_expert。因此，D_expert是D_search 的一個子集。

學習方法

給定D_search，可通過策略梯度方法或行為克隆來改進策略。

近端策略優化（PPO）和直接策略優化 DPO）是LLM中最常用的強化學習技術。此外，在搜索數據上執行行為克隆或監督學習也是常見做法。

研究者認為，o1的學習可能是多種學習方法結合的結果。

在這一框架中，他們假設o1的學習過程從使用行為克隆的預熱階段開始，當行為克隆的改進效果趨于穩定后，轉向使用PPO或DPO。

這一流程與LLama2和LLama3中采用的后訓練策略一致。

強化學習的Scaling Law

在預訓練階段，損失、計算成本、模型參數和數據規模之間的關系，是遵循冪律Scaling Law的。那么，對于強化學習，是否也會表現出來呢？

根據OpenAI的博客，推理性能與訓練時間計算量，確實呈對數線性關系。然而，除了這一點之外，相關研究并不多。

為了實現像o1這樣的大規模強化學習，研究LLM強化學習的Scaling Law至關重要。

責任編輯：張燕妮來源：新智元

3D 模型數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI最大秘密，竟被中國研究者破解？復旦等驚人揭秘o1路線圖

探索OpenAI的「AGI之迷」

策略初始化

獎勵設計

搜索

學習

「開源版o1」

策略初始化

預訓練

指令微調

類人推理行為

關于o1策略初始化的推測

獎勵設計

獎勵設計方法

獎勵塑造

關于o1獎勵設計的推測

搜索

搜索指導

搜索策略

搜索在o1中的角色

關于o1搜索的推測

學習

學習方法

強化學習的Scaling Law