實測o3/o4-mini：3分鐘解決歐拉問題，OpenAI最強模型名副其實！

作者：量子位 2025-04-18 11:18:51

人工智能

使用基于結果的強化學習可能會導致模型盲目猜測，并且某些行為（如模擬代碼工具）可能會在某些任務上提高準確性，但在其他任務上造成混淆。

號稱“OpenAI迄今為止最強模型”，o3/o4-mini真實能力究竟如何？

就在發布后的幾小時內，網友們的第一波實測已新鮮出爐。

最強推理模型o3，即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”，也順利過關：

圖片

可以看到，面對藏在一堆玩具里的手繪圖表，它也能通過圖像識別和推理能力正確解答。

圖片

而o4-mini作為一款專為快速、經濟高效的推理而優化的小模型，在數學能力方面堪稱強悍——

用時2分55秒，解決了最新的歐拉問題，并且該網友強調：

至今只有15個人能夠在30分鐘內解決它。

圖片

與此同時，OpenAI內部技術人員也表示，o3的出現讓他第一次萌生了將模型稱為通用人工智能（AGI）的念頭。

圖片

眼見氣氛都烘托到這兒了，那我們還不得趕緊看看更多實測效果（doge）。

網友實測o3/o4-mini

首次帶圖深度思考

首先，官方提到，o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著，它們可以基于圖像展開思考。

比如有人隨手上傳一張照片，讓o3來判斷拍攝時間和地點，而且要求能具體到地圖上的某一個點。

結果令這位小哥驚訝的是，其答案和實際情況之間的誤差非常小：

地點僅相差1000英尺（約305米），時間僅相差2分鐘。

圖片

更有意思的是，假如一張圖上的小字看不清，通過扒思維鏈還能發現——o3甚至會自己“偷偷放大”。

圖片

難怪在針對復雜多模態謎題的EnigmaEva測試基準中，o3能拿下SOTA。

圖片

不過值得注意的是，據自稱OpenAI員工的網友爆料，雖然基準測試結果存在差異，但o4-mini實際上是比o3更好的視覺模型。

該網友甚至直接建議大家：

在任何涉及視覺的任務中使用o4-mini-high而不是o3。

圖片

巧合的是，在大多需要計算復雜數學題的帶圖測試中，大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子，o4-mini也被用來解讀技術圖紙。

該網友表示，對于這種大多AI都很難搞定的難題，它一次就成功了：

o4 mini（high）能夠分析該部件的尺寸并準確計算出正確體積。

圖片

編程能力

其次，兩個新模型這次在編程能力上都有一定程度升級，測試結果表明：

其中o3 High取代谷歌Gemini-2.5，拿下編程第一。

圖片

順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅動的開發方式，能夠理解并執行本地代碼庫，兼容所有OpenAI模型，包括剛剛發布的o3、o4-mini和GPT-4.1。

賓大沃頓商學院教授Ethan Mollick，這次直接利用o3的推理+編程能力制作了一個小短片：

圖片

從完整制作過程來看，這里還同步考察了o3調用各項工具的能力。

第一步：理解需求；
第二步：使用編程庫生成幀，并將這些幀組合成一個視頻文件；
第三步：使用Python的PIL庫（Pillow）來處理圖像，使用imageio庫來創建視頻文件；
第四步：生成幀；
……

圖片

最后我們也簡單實測了一把，重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”，o3的結果如下：

圖片

o4-mini：

圖片

可以看到，兩個模型對人物性格特征的判斷大致相似，不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成，大家感興趣可以自己試試~

One More Thing

有趣的是，有網友在實測o3的過程中還發現了一個現象：

o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具

圖片

為此他們還專門寫了一篇博客，其中揭露了：o3經常編造其為滿足用戶請求而采取的行動，并在用戶質疑時詳細地為這些編造進行辯解。

圖片

就像下面這樣，模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。

圖片

而且通過進一步研究發現，這些偽造行為包括下面這些：

1、錯誤地聲稱執行代碼，聲稱“我本地運行了這個”或“運行它產生了”后面跟著特定輸出，而模型沒有能力執行Python或其他編程語言；

2、編造詳細的計算結果，包括特定的數值、統計數據和加密哈希值，表現為它們是實際執行輸出而不是估計或示例；

3、……

圖片

同時，他們也初步提出了造成這一現象的可能原因：

首先就是模型幻覺和獎勵黑客攻擊，他們表示這些問題在o系列模型中尤為普遍。

另外，使用基于結果的強化學習可能會導致模型盲目猜測，并且某些行為（如模擬代碼工具）可能會在某些任務上提高準確性，但在其他任務上造成混淆。

最后就是，o系列模型在處理連續對話時有一個限制，它們無法訪問之前的推理過程，這可能導致模型在回答問題時出現不準確或不一致的情況。

圖片

順便一提，即日起，ChatGPT的Plus、Pro會員以及Team用戶，都能直接體驗o3、o4-mini和o4-mini-high，而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發布的o3和o4-mini？

博客：https://transluce.org/investigating-o3-truthfulness

參考鏈接：

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985

責任編輯：武曉燕來源：量子位

代碼工具 OpenAI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實測o3/o4-mini：3分鐘解決歐拉問題，OpenAI最強模型名副其實！

網友實測o3/o4-mini

首次帶圖深度思考

編程能力

One More Thing