OpenAI o1：用內部思維鏈進行復雜推理原創精華

發布于 2024-10-16 10:21

瀏覽

0收藏

?本篇將介紹OpenAI o1。

OpenAI o1，這是一種新的大型語言模型，經過強化學習訓練，可以執行復雜的推理。O1 在回答之前會思考 - 在響應用戶之前，它可以產生一個很長的內部思維鏈。

OpenAI o1 在競爭性編程問題（Codeforces）中排名89百分位，在美國數學奧林匹克競賽（AIME）資格賽中躋身美國前 500 名學生之列，在物理、生物和化學問題的基準（GPQA）上超過了人類博士水平的準確性。

OpenAI的大規模強化學習算法教會模型如何在高度數據高效的訓練過程中使用其思維鏈進行高效思考。OpenAI發現，隨著強化學習（訓練時計算）的增加和思考時間的增加（測試時計算），o1 的性能會不斷提高。擴展這種方法的限制與 LLM 預訓練的限制有很大不同。

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

訓練時計算和測試時計算增加都有助于提升o1表現

評測

通過大范圍的測試可以證明o1的推理能力顯著強于GPT-4o

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

在許多推理密集型基準測試中，o1 的性能可與人類專家的性能相媲美。AIME 是一項旨在挑戰美國最聰明的高中數學學生的考試。在 2024 年 AIME 考試中，GPT-4o 只解決了 12% （1.8/15）的問題。O1 平均 74% （11.1/15），每個問題只有一個樣本；在 64 個樣本中達成一致時，o1達到83% （12.5/15）；在使用一個習得的評價函數給 1000 個樣本時重排序時，能達到93% （13.9/15）。13.9 分的成績躋身全國前 500 名學生之列，高于美國數學奧林匹克競賽的分數線。

OpenAI 還在 GPQA 上評估了 o1，這是一個困難的智力基準，用于測試化學、物理和生物學方面的專業知識。為了將模型與人類進行比較，OpenAI 聘請了具有博士學位的專家來回答 GPQA 問題。OpenAI 發現 o1 的性能超過了那些人類專家，成為第一個在此基準測試中做到這一點的模型。這些結果并不意味著 o1 在所有方面都比博士更有能力——只是說該模型更擅長解決一些博士應該解決的問題。在其他幾個 ML 基準測試中，o1 的改進超過了最先進的。開啟視覺感知能力后，o1 在 MMMU 上的得分為 78.2%，成為首個與人類專家競爭的模型。在 57 個 MMLU 子類別中，它還在 54 個子類別中的表現優于 GPT-4o。

CoT

類似于人類在回答困難問題之前可能會思考很長時間，o1 在嘗試解決問題時使用思維鏈(CoT)。通過強化學習，o1 學會磨練其思維鏈并改進它使用的策略。它學會識別和糾正錯誤。它學會了將棘手的步驟分解為更簡單的步驟。它學會了在當前方法不起作用時嘗試不同的方法。此過程顯著提高了模型的推理能力。

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

o1在回答時自帶內部思維鏈

編程

OpenAI訓練了一個在 2024 年國際信息學奧林匹克競賽（IOI）中獲得 213 分并排名第 49 個百分位的模型，這個模型從 o1 初始化并進行訓練，以進一步提高編程技能。該模型在與人類參賽者相同的條件下參加了 2024 年 IOI 的比賽。它有 10 個小時來解決 6 個具有挑戰性的算法問題，每個問題允許提交 50次。

對于每個問題，OpenAI的系統對許多候選提交的內容進行了抽樣，并根據測試時選擇策略提交了其中的 50 個。提交的內容是根據 IOI 公共測試用例、模型生成的測試用例和學習的評分函數的性能來選擇的。如果OpenAI隨機提交，OpenAI平均只會得到 156 分，這表明在比賽限制下，這種策略值近 60 分。

在寬松的提交約束下，OpenAI發現模型性能顯著提高。當每個問題允許提交 10,000 次時，該模型獲得了 362.14 分——高于金牌閾值——即使沒有任何測試時間選擇策略。

OpenAI模擬了由 Codeforces 主辦的競爭性編程競賽，以展示該模型的編碼技能。OpenAI的評估與比賽規則非常匹配，并允許 10 份提交。GPT-4o 獲得 Elo 評級的 808 ，位于人類競爭對手的第 11 個百分位。該模型遠遠超過了 GPT-4o 和 o1——它的 Elo 評分為 1807，表現優于 93% 的競爭對手。

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

人類偏好評估

除了考試和學術基準之外，還評估了人類對 o1-preview 與 GPT-4o 在廣泛領域中具有挑戰性的開放式提示的偏好。在這項評估中，人類培訓師對來自 o1-preview 和 GPT-4o 的提示進行了匿名響應，并投票選出他們更喜歡哪種響應。O1-Preview 在數據分析、編碼和數學等推理密集型類別中比 GPT-4O 更受歡迎。但是，在某些自然語言任務中，o1-preview 不是首選，這表明它并不適合所有用例。

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

安全

思維鏈推理為對齊和安全提供了新的機會。OpenAI發現，將模型行為政策整合到推理模型的思維鏈中是穩健地教授人類價值觀和原則的有效方法。通過向模型傳授OpenAI的安全規則以及如何在上下文中對其進行推理，OpenAI發現了推理能力直接有利于模型穩健性的證據：o1-preview 在關鍵越獄評估和評估模型安全拒絕邊界的最難的內部基準上實現了顯著提高的性能。OpenAI相信，使用思維鏈為安全性和一致性提供了重大進步，因為（1）它使OpenAI能夠以清晰的方式觀察模型思維，以及（2）關于安全規則的模型推理對于分布外場景更加穩健。

為了對OpenAI的改進進行壓力測試，OpenAI在部署前根據OpenAI的準備框架進行了一系列安全測試. OpenAI發現，思維鏈推理有助于評估中的能力改進。

OpenAI o1：用內部思維鏈進行復雜推理-AI.x社區

隱藏思維鏈

OpenAI相信，隱藏的思維鏈為監控模型提供了獨特的機會。假設它是忠實且清晰的，隱藏的思維鏈使OpenAI能夠“讀取模型的思想”并理解其思維過程。例如，將來OpenAI可能希望監控思路是否有操縱用戶的跡象。然而，要做到這一點，模型必須能夠自由地以不變的形式表達其想法，因此OpenAI不能將任何政策合規性或用戶偏好訓練到思維鏈上，也不想讓用戶直接看到一個不對齊的思路。

因此，在權衡了包括用戶體驗、競爭優勢和追求思維鏈監控選項在內的多種因素后，OpenAI決定不向用戶展示原始思維鏈。它承認此決定有缺點，努力通過教模型在答案中重現思維鏈中的任何有用想法來部分彌補它。對于 o1 模型系列，OpenAI展示了模型生成的思路鏈摘要。

文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/n_cHpeUGJXOfsgQhO4Ka9A??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

OpenAI o1

大型語言模型

贊

回復