o3 pro一手真體驗！上下文喂到斷供！大神：o3 pro不會聊天，上帝渴望上下文，認(rèn)知能力降維打擊Gemini、Claude

原創(chuàng) 精選

作者：云昭 2025-06-11 12:44:40

人工智能

今天凌晨，Sam Altman 動作非常密集。先是宣布 o3 價格“截肢”（價格直接降至 1/5 ），緊接著不到 2 小時后就發(fā)布了 o3-pro。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

經(jīng)歷了 5 月份的“買買買”的節(jié)奏之后，6月的 OpenAI 終于開始對谷歌的Gemini 2.5 Pro 發(fā)起了反擊。

今天凌晨，Sam Altman 動作非常密集。先是宣布 o3 價格“截肢”（價格直接降至 1/5 ），緊接著不到 2 小時后就發(fā)布了 o3-pro。

圖片

那么，o3-pro 究竟怎么樣？

現(xiàn)在 OpenAI 放出來的各種測評評分顯示：o3-pro 是目前認(rèn)知能力、智商最高的 SOTA 模型，甚至超過了人類的平均水平。

一項 IQ 測試結(jié)果顯示，o3 的智商得分為 135，遠(yuǎn)高于人類 90-110 的平均水平。

其他高分產(chǎn)品包括 Anthropic 的 Claude-4 Sonnet（127 分）和 Google 的 Gemini 2.0 Flash（126 分）。

還有一位此前已經(jīng)“秘密測試”的大牛，進(jìn)行了經(jīng)典的“六角彈珠跳”測試，而且難度也升級了幾倍。最后呈現(xiàn)的結(jié)果非常驚艷、絲滑。

比 o1-pro 便宜得多、更快、更精確（而且使用 o3 和 o3-pro 進(jìn)行編碼簡直是天壤之別）即將進(jìn)行一些很酷的測試，首先是（當(dāng)然）更堅固的六角彈跳球 o3-pro 是第一個能夠近乎完美地處理球與墻壁之間真實碰撞的模型。

當(dāng)然，沒有完美的模型。更好的智慧往往也伴隨著更慢的思考。已經(jīng)有手快的網(wǎng)友對 o3-pro 的速度表示汗顏。

在 X 上，Hyerbolic Labs 聯(lián)合創(chuàng)始人兼首席技術(shù)官 Yuchen Jin發(fā)布了他使用 o3-pro 的幾張截圖，結(jié)果就簡單一句“Hi，I'm Sam Altman”，結(jié)果就浪費(fèi)了他 3 分鐘和價值 80 美元的token。

只能說，推理王者，恐怖如斯，氪金更如斯，這跟進(jìn)了大觀園的劉姥姥吃鴿子蛋一樣，一不留神，一兩銀子一個的鴿子蛋就掉地上了。

圖片

但，提前對 o3-pro 進(jìn)行“秘密測試”不止上面那位，接下來才是重頭戲。

Altman 在接下來的推文中引用這樣一段用戶的評論——

“o3 給我們的計劃是可行的、合理的；但 o3 Pro 給我們的計劃是具體的、根深蒂固的，它實際上改變了我們對未來的看法。”

圖片

這句評論深得 Altman 的贊同。而這篇文章就出自一位大神，Raindrop.ai 聯(lián)合創(chuàng)始人 Ben Hylak，博文的名字：《God is hungry for Context: First thoughts on o3 pro》。

圖片

這篇博文篇幅不長，但非常具有啟發(fā)性，甚至可以說是：細(xì)思極恐。

比如 Hylak 指出：這不是大模型在「回答問題」，這是它在「接管問題」。

再比如：我們遇到的瓶頸不再是模型太笨，而是它們太聰明，卻還不能真正“落地”。

與 Claude、Gemini相比，它的認(rèn)知水平像是換了一個維度（降維打擊）！

Hylak 還給出了創(chuàng)作者一個實用的建議：多喂給 o3-pro 上下文！

o3 Pro 不適合做「碎片問題」處理器，而是做「背景清晰的執(zhí)行者」。
想讓它出彩？你需要給它足夠多的背景信息、清晰目標(biāo)、甚至系統(tǒng)級提示（system prompt），然后看它如何把碎片拼成答案。

好話不多說，這就幫大家奉上這篇干貨。建議大家收藏細(xì)讀。

o3-pro 版本的威力

正如「泄露」的一樣，OpenAI 今天將 o3 的價格大砍 80%（從每百萬 token $10/$40 降到 $2/$8，和 GPT-4.1 持平！），為 o3-pro 的發(fā)布鋪平了道路（定價為 $20/$80）。這個定價也支持了社區(qū)的一種未經(jīng)證實的猜測：-pro 版本相當(dāng)于「10 倍調(diào)用基礎(chǔ)模型 + 多數(shù)表決」的組合，在 OpenAI 的論文和我們 Chai 節(jié)目中都有提及。

根據(jù) OpenAI 提供的數(shù)據(jù)，o3-pro 在人類測試者中的勝率為 64%，在 4 項穩(wěn)定性測試中也略優(yōu)于 o3。但正如 Sam Altman 所說，當(dāng)你「以不同方式」使用它時，才能真正看到它的能力擴(kuò)展。

圖片

我在過去一周里拿到了 o3 pro 的早期訪問權(quán)限，以下是我的一些初步看法：

上帝渴望上下文

我們正處在「任務(wù)特化模型」的時代。一方面，是像 GPT-3.5 Sonnet、GPT-4o 這樣的“普通”模型——我們像朋友一樣和它們聊天，它們幫我們寫東西、回答日常問題；另一方面，是那些龐大、緩慢、昂貴、智商拉滿的推理模型，我們會在需要深度分析、解決復(fù)雜問題、探索智力邊界時調(diào)用它們（它們擅長批判性思維）。

關(guān)注我 X（推特）的人知道，我與 o 系列推理模型的關(guān)系是一段旅程。o1/o1-pro 初體驗其實挺差的，但看著大家都在贊美它，我硬著頭皮堅持用了一陣，才意識到——原來是我用錯了方式。

我寫了篇總結(jié)，被 @sama ratio（按）了，還被 @gdb 轉(zhuǎn)推。

關(guān)鍵在于：不要「聊天」，而要把它當(dāng)作「報告生成器」來用。給它足夠多的上下文、設(shè)定清晰目標(biāo)，然后放手讓它去跑。

而這正是我現(xiàn)在使用 o3 的方式。

注：這里的“報告生成器”，其實是我們在 AINews、Deep Research、Brightwave 中最常見的 LLM 用法。

o3 pro 更聰明，真的更聰明——但你得喂它很多上下文

問題也正出在這里：它確實更聰明，但你必須給它大量上下文才能看到。我?guī)缀跻焉舷挛奈沟綌喙?/p>

沒有那種“問它一個問題就被震撼到”的瞬間。

但我換了種方式。

我和我的聯(lián)合創(chuàng)始人 Alexis 把我們所有的公司會議記錄、目標(biāo)設(shè)定歷史，甚至語音備忘錄統(tǒng)統(tǒng)整理出來，打包喂給 o3-pro，然后讓它制定一個規(guī)劃方案。

結(jié)果令人震撼：它給出的計劃不僅具體、合理，而且包含了關(guān)鍵指標(biāo)、時間線、優(yōu)先級排序、哪些事情該砍，全部都有——這正是我一直希望 LLM 能做出來的東西。

o3 給的是「合理」的建議，o3 pro 給的是「扎實具體，足以改變我們未來規(guī)劃思路」的方案。

這種能力，在評測表格上是體現(xiàn)不出來的。

融入真實世界，是下一個挑戰(zhàn)

使用 o3 pro 讓我意識到：模型的“單兵作戰(zhàn)”能力已經(jīng)太強(qiáng)，我們幾乎要用光「標(biāo)準(zhǔn)測試題」了。

接下來的挑戰(zhàn)，不是它聰不聰明，而是它能不能真正融入世界。就像一個 IQ 超高的 12 歲少年要上大學(xué)：再聰明也沒用，如果沒法融入社會，還是無法工作。

目前這種「融入」主要靠工具調(diào)用：模型能不能和人協(xié)作、能不能接入外部數(shù)據(jù)、能不能與其他 AI 協(xié)同？

o3 pro 在這方面確實邁出了一大步。它明顯比 o3 更擅長感知自己的環(huán)境、準(zhǔn)確知道自己有哪些工具、什么信息需要去問外部、該怎么選對工具來完成任務(wù)。

如下圖左側(cè)所示：o3 pro 對自己處境的理解，明顯比 o3 要準(zhǔn)確得多。

圖片

不足之處

在早期使用中，我也注意到：

如果不給足夠上下文，它會有點“過度思考”。它在分析方面很強(qiáng)，使用工具執(zhí)行任務(wù)也很棒，但“直接動手做”的能力反而不如 o3。

比如有些關(guān)于 ClickHouse SQL 的問題，反而是 o3 表現(xiàn)更好。

你的使用體驗可能會有所不同（YMMV）。

圖片

與其他模型相比

o3 pro 給人的感覺和 Claude Opus、Gemini 2.5 Pro 完全不同。

Claude Opus 讓人覺得「很大」，但我從沒真正感受到它的“大”體現(xiàn)在哪。而 o3 pro 的回答就是比別人好，它的認(rèn)知水平像是換了一個維度。

OpenAI 現(xiàn)在顯然在深耕“垂直強(qiáng)化學(xué)習(xí)”（Vertical RL）這條路，比如 Deep Research、Codex——不僅是讓模型會用工具，而是要讓它學(xué)會「何時」用工具、為什么用工具。

結(jié)語：上下文仍是王道

推理模型的最佳提示方式，其實沒變。我之前寫的 o1 提示指南依然有效。

上下文就像是喂給餅干怪獸的餅干：這是種“人肉加持的記憶體系”，但它很有效，因為它是有目標(biāo)的。

系統(tǒng)提示（System Prompt）現(xiàn)在也變得非常重要，模型已經(jīng)非常可塑，提示詞、工具、記憶這些組成的“harness”（約束機(jī)制）決定了最終產(chǎn)品的好壞。

像 Cursor 之所以好用，就是 harness 設(shè)計得好。

作者最后還附加了一些其他雜項觀察，比如：

系統(tǒng)提示對模型行為的塑造，遠(yuǎn)比 o3 時代更強(qiáng)。
與 Claude Opus、Gemini 相比，o3 pro 是「質(zhì)的飛躍」。
OpenAI 真正在做的是：不是教模型“怎么做”，而是教它“什么時候做、是否該做”。

好了，文章到這里結(jié)束了。

多說一嘴，蘋果前不久還炮轟了各種推理大模型，說大模型壓根不會推理，所謂的深度推理不過是另一種形式的模式匹配而已。

大家如何看待此次 OpenAI 新推理模型的發(fā)布呢？有沒有一種“天塌了”的感覺，小編認(rèn)為：或許，我們的確應(yīng)該重新思考一個問題——

我們繼續(xù)讓大模型聊天、回答問題，已經(jīng)不重要了！因為聰明不聰明已經(jīng)不重要了！畢竟智商都超過了人類，剩下的應(yīng)該問：

大模型「能不能融入現(xiàn)實」，真正成為生產(chǎn)力的人類參與者！

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

o3 pro Claude Gemini

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看