解讀 Marco - o1:邁向開放式推理模型的探索與實踐
研究背景
? 研究問題:這篇文章要解決的問題是如何在大規模推理模型(LRM)中實現開放式推理,特別是在沒有明確標準和難以量化的獎勵的情況下。具體來說,研究了如何使o1模型能夠有效地泛化到沒有明確標準的更廣泛領域。
? 研究難點:該問題的研究難點包括:在沒有明確標準的情況下進行推理,獎勵的量化挑戰,以及如何在復雜現實世界問題解決任務中優化模型的性能。
? 相關工作:該問題的研究相關工作包括OpenAI的o1模型,它在AIME和CodeForces等平臺上的出色表現。本文受到OpenAI o1的啟發,旨在進一步推動大型語言模型(LLM)在推理能力方面的邊界。
OpenAI推出的o1模型具有卓越的推理能力,在AIME和CodeForces等平臺上表現出色,超越了其他領先模型。受其啟發,Marco - o1旨在進一步突破界限,增強推理能力以應對復雜的現實挑戰。Marco - o1借助思維鏈(CoT)微調、蒙特卡洛樹搜索(MCTS)、反思機制和創新推理策略,提升模型在復雜現實問題中的解決能力。
研究方法
這篇論文提出了Marco-o1模型,用于解決大規模推理模型中的開放式推理問題。具體來說,
1. Chain-of-Thought (CoT) Fine-Tuning:首先,使用過濾后的Open-O1 CoT數據集、Marco-o1 CoT數據集和Marco-o1指令數據集對Qwen2-7B-Instruct模型進行全參數微調。這些數據集幫助模型采用結構化的推理模式。
2. Monte Carlo Tree Search (MCTS):其次,將LLMs與MCTS集成,使用模型的輸出置信度來指導搜索并擴展解決方案空間。每個節點代表問題解決過程中的一個推理狀態,可能的動作是LLM生成的輸出。通過計算每個token的置信度分數來評估推理路徑的質量。
3. Reasoning Action Strategy:此外,實現了新的推理動作策略和反思機制。包括在MCTS框架內探索不同動作粒度(step和mini-step),并提示模型自我反思,從而顯著提高模型解決復雜問題的能力。
4. 翻譯任務應用:首次探討了LRM在機器翻譯任務中的應用,研究了多語言和翻譯領域的推理時間擴展規律。
Marco推理數據集
為增強Marco - o1模型的推理能力,采用監督微調(SFT)策略,使用多種數據集,包括Open - O1 CoT數據集(經過啟發式和質量過濾)、Marco - o1 CoT數據集(通過MCTS生成)和Marco指令數據集,以提升模型的結構化推理、復雜推理和指令執行能力,總樣本數達60,266個。
數據集 | 樣本數量 |
Open - O1 CoT數據集(過濾后) | 45,125 |
Marco - o1 CoT數據集(合成) | 10,000 |
Marco指令數據集 | 5,141 |
總計 | 60,266 |
實驗設置與結果
4.1 實驗設置
基于Qwen2 - 7B - Instruct模型,使用訓練數據進行監督微調創建Marco - o1 - CoT,在MCTS樹搜索框架內進行實驗,包括“Marco - o1 - MCTS(step)”“Marco - o1 - MCTS(mini-step of 64 tokens)”“Marco - o1 - MCTS(mini-step of 32 tokens)”三種配置,并在MGSM數據集的英文和中文子集上進行測試,每個模型使用CoT提示以確保推理過程一致。
4.2 主要結果
在MGSM - en數據集中,Marco - o1 - CoT相比Qwen2 - 7B - Instruct有優勢,但在MGSM - zh數據集中,由于微調數據為英文,性能有所下降。三種MCTS增強模型均比Marco - o1 - CoT有改進,但樹搜索結果有隨機性,目前無法確定最佳行動策略,不過MCTS在較低猜測次數下(Test@1)已顯示出優勢。
模型 | MGSM - En(Acc.) | MGSM - Zh(Acc.) |
Qwen2 - 7B - Instruct | 84.00% | 76.80% |
Marco - o1 - CoT | 85.60% | 71.20% |
Marco - o1 - MCTS(step) | 90.40% | 80.00% |
Marco - o1 - MCTS(mini-step of 64 tokens) | 88.40% | 80.40% |
Marco - o1 - MCTS(mini-step of 32 tokens) | 87.60% | 82.40% |
模型 | MGSM - En | MGSM - Zh |
Test@1 Acc. | Test@8 Acc. | |
Qwen2 - 7B - Instruct | 84.00% | 89.60% |
Marco - o1 - CoT | 85.60% | 97.60% |
Marco - o1 - MCTS(step) | 90.40% | 99.20% |
Marco - o1 - MCTS(mini-step of 64 tokens) | 88.40% | 98.40% |
Marco - o1 - MCTS(mini-step of 32 tokens) | 87.60% | 98.80% |
翻譯任務案例研究
在翻譯任務中,Marco - o1在處理口語和俚語表達時表現出色,能夠準確理解上下文和細微差別,提供比谷歌翻譯更準確、自然的翻譯,展示了其在復雜翻譯任務中的高級理解和推理能力。
翻譯任務案例對比(中文到英文)
案例一
?原文:這個鞋擁有踩屎感,很舒服,推薦購買
?Marco - o1翻譯:This shoe has a comfortable sole. It is very comfortable and recommended for purchase.
?谷歌翻譯:This shoe has a feeling of stepping on poop, very comfortable, recommended to buy.
案例二
?原文:美到我心巴上了,上身真的很韓,穿上軟乎乎毛茸茸的厚度也剛好,里面搭配了打底衫,小特別且日常的穿搭
?Marco - o1翻譯:It's so beautiful that it's captivating, the upper part has a distinctly Korean style, the soft and fluffy material is perfectly thick, and it's complemented by a base layer, creating a unique and everyday - wear outfit.
?谷歌翻譯:It's so beautiful that I'm attracted to it. The upper body is really Korean. It's soft and fluffy and the thickness is just right. It's paired with a base shirt. It's a little special and daily outfit.
案例三
?原文:太太太太好看了!而且價格這么便宜,超級板正不卷邊,都買它,買它
?Marco - o1翻譯:It's so beautiful! And it's so cheap, super straight and doesn't curl. Buy it, buy it!
?谷歌翻譯:Madam, madam, you are so beautiful! And the price is so cheap, the super board is not curled, everyone buys it, buys it.
通過這些案例可以看出,Marco - o1在處理口語化、具有文化特色的表達時,能夠更好地理解語義并給出更符合語境的翻譯。
本文轉載自 ??AI論文解讀??,作者:柏企
