OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說原創

發布于 2024-9-13 13:59

瀏覽

0收藏

編輯 | 言征、伊風

出品 | 51CTO技術棧（微信號：blog51cto）

在炒作將近9個月后，OpenAI代號“草莓”的模型o1終于深夜突然亮相，一時間具備試用資格的大牛紛紛開始了測評，業內許多AI項目、公司的大佬如英偉達高級研究經理JimFan、Devin的DeepWisdom創始人紛紛發表了自己對于o1的使用感受。

整體上看分兩派：一派認為o1代表著Scaling Law以外的新賽道的開啟，另一派則認為——

“炒作大于實際”、“有坑”、“很難說”。

這里不再花篇幅去介紹這款主打“慢思考”的模型的官宣能力。僅僅長話短說地列舉開發者最關心的幾個信息。

一、開啟復雜任務推理新賽道

通用模型GPT5發布前，開啟復雜推理模型賽道OpenAI o1。o1在回答前，會反復的思考、拆解、理解、推理，然后給出最終答案。

通過Self-play RL，o1學會了回溯、打磨自己的思維鏈并完善所使用的策略，學會了將復雜步驟拆解為更簡單的子步驟，并能識別和糾正自己的錯誤。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區 o1工作原理：先思考，再總結輸出圖源：賽博禪心

二、兩款：preview主打強推理，mini主打代碼

o1-preview：預覽版具有很強的推理能力和廣闊的世界知識，但還沒有達到滿血o1的性能，還會持續更新和改進；

o1-mini：更快、更便宜（o1-mini 比 o1-preview 便宜 80%），在代碼方面特別有效，特別適合開發人員使用。

三、速率限制和價格

不過主打“慢思考”的草莓，OpenAI對外開放的相當吝嗇：竟然以周為單位來計算對話條數：

o1-preview 的每周速率限制為 30 條消息
o1-mini 的每周速率限制為 50 條消息

而對于開發者而言，只面向Tier5級別（付費超過1000美元）的用戶開放，每分鐘并發限制20次。

不過，價格上面卻是個令人頭疼的家伙。

API的價格上，o1預覽版每百萬輸入15美元，每百萬輸出60美元，o1-mini會便宜一些，每百萬輸入3美元，每百萬輸出12美元。

而對于這個價格，賽博禪心認為這個模型有坑：在正常使用中，o1 的開銷，會比 4o 貴百倍！因為，從 pricing table 上看，o1 的價格是 4o 的 6 倍，但這是有迷惑性的！o1 計費并不按最終輸出，其中間思考過程所消耗的 token，并被視作 output tokens，這意味著 100 tokens 的內容輸出，可能會被按 10000 tokens 計費。

這一點也得了“NLP工作站”博主劉聰NLP的認證：內在思維鏈比思維鏈長的多。

o1展示的外部思維鏈：

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

但內部隱藏的未對齊的思維鏈卻非常長：

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

四、幕后團隊

可以看到在基礎貢獻一欄里，大佬Ilya赫然在列。完整表單見：

??https://openai.com/openai-o1-contributions/??

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

此次，OpenAI還特別發布了一支幕后團隊的特別短片，來聊聊他們對o1的想法。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

第一個發言的男生就是華人面孔，領導了整個o1研發的Mark Chen，他解釋了o1的命名背后的原因：“與GPT-4o等以前的型號相比，您可能會感到不同。正如其他人稍后會解釋的那樣，o1是一個推理模型，因此它會思考更多。”

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區

他從麻省理工大學畢業，已經在OpenAI工作了6年之久，現任研究副總裁一職。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

五、網友實測

1.9.8和9.11的無限反思

小紅書網友@小水剛醒反饋，“一上難度就崩潰……讓模型比較9.8和9.11的大小，結果無限循環發瘋般CoT”

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

另一位網友@ChRlesWaa在評論區吐槽o1依舊沒主見，“很垃圾，和以前一樣一反問就改答案”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

2.卡茲克：“中秋國慶調休”問題沒有翻車

“這是中國2024年9月9日（星期一）開始到10月13日的放假調休安排:上6休3上3休2上5休1上2休7再上5休1。

請你告訴我除了我本來該休的周末，我因為放假多休息了幾天？”

在o1思考了整整30秒以后，給出了一天不差的極度精準的答案。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

不過據小編觀察，卡茲克這次的提問應該有運氣的成分，因為有其他博主測試了同樣的問題，翻車了：最后的回答是多休了2天~

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

3.賽博禪心：有坑，更像是工程優化

賽博禪心隨后進行了與其說是模型優化，不如說是工程優化

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

因為他從訓練數據和訓練時間發現，o1的截止時間是2023年10月，而GPT-4-turbo的時間則更晚是2023年12月，新舊立見了~ GPT-4在o1之后。

此外，o1與4o的輸出語言風格高度類似，可以猜測是草莓視4o進行對齊之后的agent版本。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

4.預訓練工程師：小修小補，很難說是突破

小紅書上的一位大模型預訓練算法工程師，則發表了更為消極的看法，“深夜看到o1發布，感覺我的職業生涯結束了”，他認為o1實際還在做“小修小補”，并且也將難以看到范式上的其他突破了。他說，未來的方向也許是“功能專精模型和多模態真正融合”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

六、Devin：自我反思與傳統提示詞的革新時刻

過去幾周跟OpenAI有密切合作的Cognition團隊也第一時間對o1的推理能力進行了測試。

團隊使用簡化版本的Devin進行了測試，與4o相比，o1具有驚人的反思和分析能力。它通常會回溯并考慮不同的選擇，然后才能得出正確的答案，并且產生幻覺或自信的錯誤的概率也很低。

并透露：使用o1-preview時，Devin更容易正確診斷問題的根本原因，而不是解決問題的癥狀。

并舉了一個例子：Devin遇到了一個錯誤，o1就像人類一樣搜索互聯網，并經過幾步后找到了與其問題相關的Github問題。

但是，o1需要的提示詞明顯更加密集，對混亂和不必要的token也會更加敏感。傳統的提示詞方法通常會有冗余，這會對o1的性能造成負面影響。

不過關于這一點，有人士發表了不同的看法，AI沃茨體驗o1后表示：以前的提示詞模版還能繼續沿用幾個月。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

七、JimFan：o1的飛躍不再是Scaling Law，而是搜索

英偉達大佬Jim Fan透露o1的重點從此前的“學習”轉向了“搜索”，也就是說，此次讓o1能力飛躍的不再是scaling law了。他的完整貼文翻譯如下：

OpenAI Strawberry (o1) 發布了！我們終于看到推理時間縮放的范式在生產中流行并得到部署。正如Sutton在《苦澀的教訓》中所說，只有兩種技術可以無限擴展計算：學習和搜索。現在是轉向后者的時候了。

1.你不需要一個巨大的模型來進行推理。很多參數都專門用來記憶事實，以便在像智力問答這樣的基準測試中表現良好。可以將推理與知識分開，即一個小的“推理核心”，它知道如何調用瀏覽器和代碼驗證器等工具。預訓練的計算量可以減少。

2.大量的計算資源轉移到了服務推理，而不是預/后訓練。LLMs是基于文本的模擬器。通過在模擬器中推出許多可能的策略和情景，模型最終會收斂到良好的解決方案。這個過程就像AlphaGo的蒙特卡洛樹搜索(MCTS)一樣，是一個被廣泛研究的問題。

3.OpenAI 很久以前就已經掌握了推理縮放定律，而學術界最近才剛剛發現。上個月Arxiv上相隔一周發表了兩篇論文：

大語言猴子：使用重復采樣擴展推理計算。Brown等人發現DeepSeek-Coder在SWE-Bench上從一個樣本增加到250個樣本時，性能從15.9%提升到56%，超過了Sonnet-3.5。有關論文可以移步：

?? https://arxiv.org/abs/2407.21787v1??

在推理時最優地擴展LLM的計算比擴展模型參數更有效。Snell等人發現，在MATH上，PaLM 2-S 在測試時搜索上擊敗了一個體積大14倍的模型。

4.將 o1 投入生產要比達到學術基準更加困難。對于野外的推理問題，如何決定何時停止搜索？獎勵函數是什么？成功標準是什么？何時調用代碼解釋器等工具？如何考慮這些CPU進程的計算成本？他們的研究文章中沒有分享太多相關信息。

5.Strawberry 很容易變成一個數據的飛輪。如果答案是正確的，整個搜索跟蹤就成為一個小型的訓練樣本數據集，其中包含正面和負面的獎勵。這反過來會改進未來版本的GPT的推理核心，就像AlphaGo的價值網絡——用來評估每個棋盤位置的質量——隨著MCTS生成越來越精細的訓練數據而改進一樣。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

八、MetaGPT創始人吳承霖：沒有其他秘密，最簡單的自我博弈

DeepWisdom公司CEO吳承霖深夜發出了自己的想法：（裸推理極限）

1.self-play 可行，設計空間也不大

2.OpenAI 只做了最簡單的 self-play

3.記憶模塊仍然沒有任何突破

4.思維模式仍然難以琢磨，很難說 o1 是好的思維模式

5.沒有其他秘密，這就是現在的裸推理極限，所以 OpenAI 核心成員都去了其他公司

self-play是一種強化學習手段，可以理解為：智能體通過與自身副本或歷史版本進行自我博弈而進行演化的方法。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

九、寫在最后

其實，就連奧特曼自己也承認o1并非完美之作。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

不過，當人們實際上手o1時，巨大的落差感可能在所難免。

在OpenAI官方的演示視頻中，o1已經在玩量子物理、奧賽數學了，但在實際的測評中，面對9.11和9.8哪個大的“經典老題”時，o1依然自顧自的重復著“wait,9.8 is 9.80”……。不由得讓人長嘆，“理想很豐滿，現實很骨感”。

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說-AI.x社區圖片

這體現了模型能力發展中巨大的不平衡，也提醒著我們，即使AI已經看起來如此的聰明，但通往AGI的道路仍然撲朔迷離。

然而，OpenAI找到了一個尚可前進的方向。

在看到o1的命名法則時，有人調侃說，“原來GPT-5永遠不會來了”。但是，由o1生成數據進行訓練的下一代模型“獵戶座”，終將會與人們見面，不是嗎？

也許，科技最有魅力的地方，也許不是當下的成果有多么驚艷。而是告訴我們：邊界尚未抵達，這里仍有無限期待。

本文轉載自??51CTO技術棧??，作者：言征、伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

OpenAI

項目

已于2024-9-13 14:09:11修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

OpenAI草莓o1深夜炸場，一眾大佬博主熬夜實測：有坑，很難說原創

一、開啟復雜任務推理新賽道

二、兩款：preview主打強推理，mini主打代碼

三、速率限制和價格

四、幕后團隊