o3被曝「無視」前成果？華人博士生實名指控，謝賽寧等大牛激烈爭辯

作者：新智元 2025-04-21 16:32:29

人工智能新聞

o3和o4-mini視覺推理突破，竟未引用他人成果？一名華盛頓大學(xué)博士生發(fā)出質(zhì)疑，OpenAI研究人員對此回應(yīng)：不存在。

在視覺感知方面，o3和o4-mini在思維鏈中進行圖像推理，代表了一個重要突破。

華盛頓大學(xué)計算機科學(xué)博士生施惟佳站出來表示，o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。

論文鏈接：https://visualsketchpad.github.io/

這項發(fā)表于24年研究中，曾提出通過可視化輔助增強模型推理。一時間，這一猜測如同一石激起千層浪。

更猛烈的炮火來自滑鐵盧大學(xué)CS助理教授、谷歌DeepMind高級研究科學(xué)家陳文虎。

他表示，「OpenAI既不承認也不引用任何相關(guān)工作。這真可悲。」

領(lǐng)導(dǎo)OpenAI感知團隊的華人科學(xué)家Jiahui Yu表示：「確實不知道，但看起來很酷。」

OpenAI的內(nèi)部員工Brandon McKinzie表示，一眼看上去，與我們研究的有很大不同。而且o3和o4-mini行為都是自發(fā)的表現(xiàn)。

隨后，這引發(fā)了關(guān)于o3視覺推理能力的大討論。

但OpenAI陷入爭議的不止是視覺推理，在數(shù)學(xué)基準測試中被爆出「作弊」！

視覺推理大辯論

首先登場的是Brandon McKinzie。

他瞥過一眼Visual Sketchpad，認為OpenAI的技術(shù)與之完全不同：

與我們之前做的事情完全不同，值得注意的是，o3和o4-mini中的行為完全是由大規(guī)模強化學(xué)習(xí)（RL）產(chǎn)生的。

我們只是給它們提供了訪問Python和操作圖像的能力，其余的都交給了模型自己去處理。

但華盛頓大學(xué)的博士生胡雨石（Yushi Hu），對此并不完全認同。

模型又是如何學(xué)會操作圖像的？

他猜測到OpenAI可能使用了SFT數(shù)據(jù)，和謝賽寧V*論文或可視化草稿本論文類似。

此時，另一個華人AI大牛謝賽寧加入了辯論。

他提出了「用圖思考」的更深入的思考。

謝賽寧：識別已死，視覺永生

關(guān)于「用圖思考」的概念，謝賽寧有5點進一步的思考。

1. 零樣本工具使用有局限性。

不能僅僅調(diào)用一個物體檢測器就實現(xiàn)視覺搜索。

這也是為什么像VisProg、ViperGPT、Visual-sketchpad這樣的方式難以泛化或擴展的原因。

它們更像是「外掛式工具調(diào)用」，而不是系統(tǒng)性能力。

謝賽寧在V*項目中就專注于這一點，但兩年前他還沒有意識到強化學(xué)習(xí)（RL）會變得這么強大，因此只能依靠監(jiān)督微調(diào)（SFT）來訓(xùn)練檢測頭。

這種方式雖然能跑通，但速度慢，訓(xùn)練過程也頗為痛苦。

論文鏈接：https://arxiv.org/abs/2312.14135

2. 視覺搜索必須是多模態(tài)大模型的原生組件，且要端到端整合。

3. 如果所使用的工具本身是簡單、低層次的——比如基礎(chǔ)的Python圖像處理函數(shù)，而不是像Faster R-CNN 這樣的大模型——它們就可以直接被整合進端到端系統(tǒng)。

一旦強化學(xué)習(xí)規(guī)模化，這些簡單工具就能變成「視覺基元」（visual primitives），模型可以自由組合它們，從而構(gòu)建出可擴展的視覺能力。

4. 大家應(yīng)該繼續(xù)發(fā)掘這些視覺基元。

它們絕不僅僅是圖像處理函數(shù)，也應(yīng)該包括對視頻、三維數(shù)據(jù)的處理方式，未來的視覺系統(tǒng)需要構(gòu)建在更廣泛的「感知基礎(chǔ)件」之上。

5. 謝賽寧認為大多數(shù)傳統(tǒng)的視覺識別模型已經(jīng)「過時」了。

正如Ross Girshick所說，它們本質(zhì)上就是「解析器」（parsers）。但視覺本身沒有死，反而比以往任何時候都更有生命力、更令人興奮。

視覺識別模型已過時

此外，謝賽寧爆出了更大的消息：為OpenAI新模型「用圖思考」奠定基礎(chǔ)的Bowen Cheng、Ji Lin，的確與他討論過多模態(tài)基礎(chǔ)相關(guān)話題。

而謝賽寧的V*從GPT-4V的55%性能躍升至o3的95.7%。

看到一個艱難的基準測試被解決，他感到一種深深的滿足感：

這意味著視覺搜索，正成為多模態(tài)模型推理的一個基本組成部分，就像視覺對人類的意義一樣。

然而，他認為不要只是緊跟OpenAI的步伐。

學(xué)術(shù)界需要向前推進，構(gòu)建那些不僅僅是眼下相關(guān)的東西，而是能夠塑造未來的事物——

也許還能夠啟發(fā)像OpenAI這樣的偉大公司。

V*證明學(xué)術(shù)界可以做到。

謝賽寧的推文停留在轉(zhuǎn)發(fā)微軟VP Nando de Freitas的推文：

強化學(xué)習(xí)并非一切……

類似的說法只是宣傳。

這就是對OpenAI的Brandon McKinzie的「一切能力都從RL訓(xùn)練涌現(xiàn)」的一種委婉的反駁。

o3數(shù)學(xué)成績僅為10%，評測結(jié)果再陷爭議

除了圖像推理，o3在數(shù)學(xué)基準的成績單，也受到了外界質(zhì)疑。

去年12月，OpenAI官宣o3時，聲稱模型在FrontierMath基準測試中正確率超25%。

當時，業(yè)內(nèi)其他頂尖模型的得分普遍低于2%，o3的表現(xiàn)無疑令人矚目。

然而，這一亮眼的成績似乎只是OpenAI內(nèi)部測試的「理想狀態(tài)」。

OpenAI首席研究官Mark Chen在直播中稱，「為o3配置激進的測試時計算（test-time compute）后，我們能把成績提高到25%以上。」

顯然，25%得分來自一個計算資源更強大的o3版本，也就是上周發(fā)布的滿血版。

針對滿血o3，創(chuàng)建FrontierMath基準的研究機構(gòu)Epoch AI，發(fā)布了獨立測試結(jié)果：o3得分僅為10%，遠低于OpenAI聲稱最高成績25%。

這并不意味著，OpenAI故意造假。

OpenAI去年12月公布的基準測試中，也給出了一個與Epoch實測一致的「下界得分」。

Epoch補充說，測試結(jié)果的差異可能源于以下原因：

OpenAI內(nèi)部測試使用了更強大的框架，投入了更多測試時計算
測試所采用的FrontierMath數(shù)據(jù)集版本不同：OpenAI可能使用的是290題的frontiermath?2025?02?28?private；Epoch使用的是180題的frontiermath?2024?11?26。

與此同時，ARC Prize基金會在X上發(fā)帖證實，預(yù)發(fā)布版o3與公開版并非同一模型，后者「專門為聊天／產(chǎn)品場景調(diào)校」。

他們還指出，目前發(fā)布的各檔o3計算級別（compute tiers），都比跑基準時用的版本小。