解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀

發布于 2024-11-27 15:04

瀏覽

0收藏

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區

研究背景

? 研究問題：這篇文章要解決的問題是如何在大規模推理模型（LRM）中實現開放式推理，特別是在沒有明確標準和難以量化的獎勵的情況下。具體來說，研究了如何使o1模型能夠有效地泛化到沒有明確標準的更廣泛領域。

? 研究難點：該問題的研究難點包括：在沒有明確標準的情況下進行推理，獎勵的量化挑戰，以及如何在復雜現實世界問題解決任務中優化模型的性能。

? 相關工作：該問題的研究相關工作包括OpenAI的o1模型，它在AIME和CodeForces等平臺上的出色表現。本文受到OpenAI o1的啟發，旨在進一步推動大型語言模型（LLM）在推理能力方面的邊界。

OpenAI推出的o1模型具有卓越的推理能力，在AIME和CodeForces等平臺上表現出色，超越了其他領先模型。受其啟發，Marco - o1旨在進一步突破界限，增強推理能力以應對復雜的現實挑戰。Marco - o1借助思維鏈（CoT）微調、蒙特卡洛樹搜索（MCTS）、反思機制和創新推理策略，提升模型在復雜現實問題中的解決能力。

研究方法

這篇論文提出了Marco-o1模型，用于解決大規模推理模型中的開放式推理問題。具體來說，

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區

1. Chain-of-Thought (CoT) Fine-Tuning：首先，使用過濾后的Open-O1 CoT數據集、Marco-o1 CoT數據集和Marco-o1指令數據集對Qwen2-7B-Instruct模型進行全參數微調。這些數據集幫助模型采用結構化的推理模式。

2. Monte Carlo Tree Search (MCTS)：其次，將LLMs與MCTS集成，使用模型的輸出置信度來指導搜索并擴展解決方案空間。每個節點代表問題解決過程中的一個推理狀態，可能的動作是LLM生成的輸出。通過計算每個token的置信度分數來評估推理路徑的質量。

解讀 Marco - o1：邁向開放式推理模型的探索與實踐-AI.x社區

3. Reasoning Action Strategy：此外，實現了新的推理動作策略和反思機制。包括在MCTS框架內探索不同動作粒度（step和mini-step），并提示模型自我反思，從而顯著提高模型解決復雜問題的能力。

4. 翻譯任務應用：首次探討了LRM在機器翻譯任務中的應用，研究了多語言和翻譯領域的推理時間擴展規律。

Marco推理數據集

為增強Marco - o1模型的推理能力，采用監督微調（SFT）策略，使用多種數據集，包括Open - O1 CoT數據集（經過啟發式和質量過濾）、Marco - o1 CoT數據集（通過MCTS生成）和Marco指令數據集，以提升模型的結構化推理、復雜推理和指令執行能力，總樣本數達60,266個。

數據集	樣本數量
Open - O1 CoT數據集（過濾后）	45,125
Marco - o1 CoT數據集（合成）	10,000
Marco指令數據集	5,141
總計	60,266

實驗設置與結果

4.1 實驗設置

基于Qwen2 - 7B - Instruct模型，使用訓練數據進行監督微調創建Marco - o1 - CoT，在MCTS樹搜索框架內進行實驗，包括“Marco - o1 - MCTS（step）”“Marco - o1 - MCTS（mini-step of 64 tokens）”“Marco - o1 - MCTS（mini-step of 32 tokens）”三種配置，并在MGSM數據集的英文和中文子集上進行測試，每個模型使用CoT提示以確保推理過程一致。

4.2 主要結果

在MGSM - en數據集中，Marco - o1 - CoT相比Qwen2 - 7B - Instruct有優勢，但在MGSM - zh數據集中，由于微調數據為英文，性能有所下降。三種MCTS增強模型均比Marco - o1 - CoT有改進，但樹搜索結果有隨機性，目前無法確定最佳行動策略，不過MCTS在較低猜測次數下（Test@1）已顯示出優勢。

模型	MGSM - En（Acc.）	MGSM - Zh（Acc.）
Qwen2 - 7B - Instruct	84.00%	76.80%
Marco - o1 - CoT	85.60%	71.20%
Marco - o1 - MCTS（step）	90.40%	80.00%
Marco - o1 - MCTS（mini-step of 64 tokens）	88.40%	80.40%
Marco - o1 - MCTS（mini-step of 32 tokens）	87.60%	82.40%

模型	MGSM - En	MGSM - Zh
	Test@1 Acc.	Test@8 Acc.
Qwen2 - 7B - Instruct	84.00%	89.60%
Marco - o1 - CoT	85.60%	97.60%
Marco - o1 - MCTS（step）	90.40%	99.20%
Marco - o1 - MCTS（mini-step of 64 tokens）	88.40%	98.40%
Marco - o1 - MCTS（mini-step of 32 tokens）	87.60%	98.80%

翻譯任務案例研究

在翻譯任務中，Marco - o1在處理口語和俚語表達時表現出色，能夠準確理解上下文和細微差別，提供比谷歌翻譯更準確、自然的翻譯，展示了其在復雜翻譯任務中的高級理解和推理能力。

翻譯任務案例對比（中文到英文）

案例一

?原文：這個鞋擁有踩屎感，很舒服，推薦購買

?Marco - o1翻譯：This shoe has a comfortable sole. It is very comfortable and recommended for purchase.

?谷歌翻譯：This shoe has a feeling of stepping on poop, very comfortable, recommended to buy.

案例二

?原文：美到我心巴上了，上身真的很韓，穿上軟乎乎毛茸茸的厚度也剛好，里面搭配了打底衫，小特別且日常的穿搭

?Marco - o1翻譯：It's so beautiful that it's captivating, the upper part has a distinctly Korean style, the soft and fluffy material is perfectly thick, and it's complemented by a base layer, creating a unique and everyday - wear outfit.

?谷歌翻譯：It's so beautiful that I'm attracted to it. The upper body is really Korean. It's soft and fluffy and the thickness is just right. It's paired with a base shirt. It's a little special and daily outfit.