滿血o3降智和幻覺倍增的原因可能找到了

作者：AI寒武紀 2025-04-22 09:18:57

人工智能新聞

OpenAI隆重推出O3模型時，公布了一個當時看來非常驚人的成績：在專門針對數學問題的挑戰性基準測試 FrontierMath 上，O3的得分超過了?25%！

OpenAI推出的滿血O3“跑分”（Benchmark）貌似又被獨立測試揭穿是刷榜了，而奇怪的測試基準數據可能就是o3降智和幻覺倍增的原因？

你可能要問了，一個數學基準測試，與降智和幻覺有什么關系？

事情要從去年12月說起。OpenAI隆重推出O3模型時，公布了一個當時看來非常驚人的成績：在專門針對數學問題的挑戰性基準測試 FrontierMath 上，O3的得分超過了 25%！

這個成績有多厲害？要知道，當時的頂尖模型在這個榜單上也只能勉強達到約 2%。OpenAI O3的這個數字，基本上是斷崖式領先。

真實成績只有10%...？

然而，Epoch AI （ FrontierMath測試基準公司）這兩天發布了他們對 滿血版O3 的獨立測試結果。

這一測不要緊，結果卻讓人大跌眼鏡：Epoch發現，滿血O3在同一基準測試上的得分竟然只有約 10%！ 這個分數，雖然相對其他模型依然有優勢，但和OpenAI最初那個25%+的“王牌”表現相比，差距可不是一點半點。Epoch直言，這個分數遠低于OpenAI最初公布的最高成績，測試成績放在o3mini high和o4 mini當中看起來很奇怪，滿血的o3竟然不如早先發布的o3 mini high。

為什么會有這么大的差距？原因找到了

根據Epoch和相關方的說法，主要有幾點：

測試環境與方法不同： Epoch 提到，OpenAI最初公布的那個高分，可能是在更強大的內部計算環境、或使用了更復雜的測試時間計算資源（比如多輪思考、內部推理鏈等）下得出的。這就像運動員平時訓練時有教練指導、使用輔助器材，和正式比賽時的表現可能不一樣。

測試數據集不同： FrontierMath 基準測試本身也在更新。OpenAI最初可能使用了包含180道問題的舊版數據集進行測試，而Epoch測試的是包含290道問題的新版數據集。題目難度和數量變了，分數自然可能不一樣。

模型版本不同： 這是最關鍵的一點！據ARC Prize基金會等機構透露（他們也測試過O3的預發布版本），OpenAI 公開發布給用戶使用的 O3 模型，特別是針對聊天和產品應用進行過優化的版本，與OpenAI最初用于跑分的那個性能更強的預發布版本是“不同的模型”。簡單來說，公開版的計算層級（可以理解為模型的“大小”或“算力”）更小。通常來說，計算層級更大的模型能獲得更好的跑分成績。

定位不同： OpenAI技術人員Wenda Zhou也在一次直播中解釋說，公開發布的O3是針對成本效率和通用性進行了優化，以便更好地服務于實際應用。因此，它的表現可能與純粹追求最高跑分、不計成本的演示版本存在“基準測試差異”。

寫在最后

看起來這個所謂的滿血版的o3也是一個優化的版本，一切都可以說通了，本來滿血o3是要被整合到GPT5里邊的，但是由于deepseek的沖擊，還有成本等原因，最終奧特曼還是改變了注意，優化版o3還是單獨推出了，有可能更好的模型被雪藏了，個人揣測這可能就是o3降智和幻覺增加的原因。

責任編輯：張燕妮來源： AI寒武紀

OpenAI 模型測試

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

滿血o3降智和幻覺倍增的原因可能找到了

真實成績只有10%...？

為什么會有這么大的差距？原因找到了

寫在最后

為什么會有這么大的差距？原因找到了