成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3被曝「無視」前成果?華人博士生實名指控,謝賽寧等大牛激烈爭辯

人工智能 新聞
o3和o4-mini視覺推理突破,竟未引用他人成果?一名華盛頓大學(xué)博士生發(fā)出質(zhì)疑,OpenAI研究人員對此回應(yīng):不存在。

在視覺感知方面,o3和o4-mini在思維鏈中進行圖像推理, 代表了一個重要突破。

華盛頓大學(xué)計算機科學(xué)博士生施惟佳站出來表示,o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。

圖片

圖片

論文鏈接:https://visualsketchpad.github.io/

這項發(fā)表于24年研究中,曾提出通過可視化輔助增強模型推理。一時間,這一猜測如同一石激起千層浪。

更猛烈的炮火來自滑鐵盧大學(xué)CS助理教授、谷歌DeepMind高級研究科學(xué)家陳文虎。

他表示,「OpenAI既不承認也不引用任何相關(guān)工作。這真可悲。」

圖片

領(lǐng)導(dǎo)OpenAI感知團隊的華人科學(xué)家Jiahui Yu表示:「確實不知道,但看起來很酷。」

圖片

OpenAI的內(nèi)部員工Brandon McKinzie表示,一眼看上去,與我們研究的有很大不同。而且o3和o4-mini行為都是自發(fā)的表現(xiàn)。

圖片

隨后,這引發(fā)了關(guān)于o3視覺推理能力的大討論。

但OpenAI陷入爭議的不止是視覺推理,在數(shù)學(xué)基準測試中被爆出「作弊」!

視覺推理大辯論

首先登場的是Brandon McKinzie。

他瞥過一眼Visual Sketchpad,認為OpenAI的技術(shù)與之完全不同:

與我們之前做的事情完全不同,值得注意的是,o3和o4-mini中的行為完全是由大規(guī)模強化學(xué)習(xí)(RL)產(chǎn)生的。

我們只是給它們提供了訪問Python和操作圖像的能力,其余的都交給了模型自己去處理。

但華盛頓大學(xué)的博士生胡雨石(Yushi Hu),對此并不完全認同。

模型又是如何學(xué)會操作圖像的?

他猜測到OpenAI可能使用了SFT數(shù)據(jù),和謝賽寧V*論文或可視化草稿本論文類似。

圖片

此時,另一個華人AI大牛謝賽寧加入了辯論。

他提出了「用圖思考」的更深入的思考。

圖片

謝賽寧:識別已死,視覺永生

關(guān)于「用圖思考」的概念,謝賽寧有5點進一步的思考。

圖片

1. 零樣本工具使用有局限性。

不能僅僅調(diào)用一個物體檢測器就實現(xiàn)視覺搜索。

這也是為什么像VisProg、ViperGPT、Visual-sketchpad這樣的方式難以泛化或擴展的原因。

它們更像是「外掛式工具調(diào)用」,而不是系統(tǒng)性能力。

謝賽寧在V*項目中就專注于這一點,但兩年前他還沒有意識到強化學(xué)習(xí)(RL)會變得這么強大,因此只能依靠監(jiān)督微調(diào)(SFT)來訓(xùn)練檢測頭。

這種方式雖然能跑通,但速度慢,訓(xùn)練過程也頗為痛苦。

圖片

論文鏈接:https://arxiv.org/abs/2312.14135

2. 視覺搜索必須是多模態(tài)大模型的原生組件,且要端到端整合。 

3. 如果所使用的工具本身是簡單、低層次的——比如基礎(chǔ)的Python圖像處理函數(shù),而不是像Faster R-CNN 這樣的大模型——它們就可以直接被整合進端到端系統(tǒng)。

一旦強化學(xué)習(xí)規(guī)模化,這些簡單工具就能變成「視覺基元」(visual primitives),模型可以自由組合它們,從而構(gòu)建出可擴展的視覺能力。

4. 大家應(yīng)該繼續(xù)發(fā)掘這些視覺基元。 

它們絕不僅僅是圖像處理函數(shù),也應(yīng)該包括對視頻、三維數(shù)據(jù)的處理方式,未來的視覺系統(tǒng)需要構(gòu)建在更廣泛的「感知基礎(chǔ)件」之上。

5. 謝賽寧認為大多數(shù)傳統(tǒng)的視覺識別模型已經(jīng)「過時」了。 

正如Ross Girshick所說,它們本質(zhì)上就是「解析器」(parsers)。但視覺本身沒有死,反而比以往任何時候都更有生命力、更令人興奮。

圖片

視覺識別模型已過時

此外,謝賽寧爆出了更大的消息:為OpenAI新模型「用圖思考」奠定基礎(chǔ)的Bowen Cheng、Ji Lin,的確與他討論過多模態(tài)基礎(chǔ)相關(guān)話題。

圖片

而謝賽寧的V*從GPT-4V的55%性能躍升至o3的95.7%。

看到一個艱難的基準測試被解決,他感到一種深深的滿足感:

這意味著視覺搜索,正成為多模態(tài)模型推理的一個基本組成部分,就像視覺對人類的意義一樣。

然而,他認為不要只是緊跟OpenAI的步伐。

學(xué)術(shù)界需要向前推進,構(gòu)建那些不僅僅是眼下相關(guān)的東西,而是能夠塑造未來的事物——

也許還能夠啟發(fā)像OpenAI這樣的偉大公司。

V*證明學(xué)術(shù)界可以做到。

謝賽寧的推文停留在轉(zhuǎn)發(fā)微軟VP Nando de Freitas的推文:

強化學(xué)習(xí)并非一切……  

類似的說法只是宣傳。

圖片

這就是對OpenAI的Brandon McKinzie的「一切能力都從RL訓(xùn)練涌現(xiàn)」的一種委婉的反駁。

o3數(shù)學(xué)成績僅為10%,評測結(jié)果再陷爭議

除了圖像推理,o3在數(shù)學(xué)基準的成績單,也受到了外界質(zhì)疑。

去年12月,OpenAI官宣o3時,聲稱模型在FrontierMath基準測試中正確率超25%。

當時,業(yè)內(nèi)其他頂尖模型的得分普遍低于2%,o3的表現(xiàn)無疑令人矚目。

圖片

然而,這一亮眼的成績似乎只是OpenAI內(nèi)部測試的「理想狀態(tài)」。

OpenAI首席研究官Mark Chen在直播中稱,「為o3配置激進的測試時計算(test-time compute)后,我們能把成績提高到25%以上。」

顯然,25%得分來自一個計算資源更強大的o3版本,也就是上周發(fā)布的滿血版。

針對滿血o3,創(chuàng)建FrontierMath基準的研究機構(gòu)Epoch AI,發(fā)布了獨立測試結(jié)果:o3得分僅為10%,遠低于OpenAI聲稱最高成績25%。

圖片

這并不意味著,OpenAI故意造假。

OpenAI去年12月公布的基準測試中,也給出了一個與Epoch實測一致的「下界得分」。

Epoch補充說,測試結(jié)果的差異可能源于以下原因:

  • OpenAI內(nèi)部測試使用了更強大的框架,投入了更多測試時計算
  • 測試所采用的FrontierMath數(shù)據(jù)集版本不同:OpenAI可能使用的是290題的frontiermath?2025?02?28?private;Epoch使用的是180題的frontiermath?2024?11?26。

與此同時,ARC Prize基金會在X上發(fā)帖證實,預(yù)發(fā)布版o3與公開版并非同一模型,后者「專門為聊天/產(chǎn)品場景調(diào)校」。

他們還指出,目前發(fā)布的各檔o3計算級別(compute tiers),都比跑基準時用的版本小。

圖片

一般而言,算力檔位越高,基準成績也會越好。

此外,OpenAI技術(shù)團隊成員Wenda Zhou在上周一次直播中坦言,相較于去年12月,經(jīng)過優(yōu)化后的o3更適合現(xiàn)實世界的用例,更側(cè)重于真實使用場景與推理速度。因此,它在基準測試上可能會出現(xiàn)一些「偏差」。

這樣的成績落差,引起了不少網(wǎng)友質(zhì)疑。

但嚴格來說,問題并不在于o3的實際表現(xiàn)。OpenAI旗下的其他模型,如o3?mini?high和o4?mini,在FrontierMath上的表現(xiàn)都優(yōu)于o3。

圖片

而且,奧特曼表示,計劃在未來幾周推出更強大的o3?pro。

這意味著,o3的基準測試爭議更多地是「面子問題」,而非OpenAI技術(shù)短板。

圖片

不過,這再次提醒我們:AI基準測試的結(jié)果不能只看表面,尤其當數(shù)據(jù)來自一家急于推廣服務(wù)的公司時。

基準測試,權(quán)威性何在?

其實,o3的風(fēng)波并非是孤例。

科技大廠競相推出新模型吸引眼球,「基準測試爭議」在AI行業(yè)已屢見不鮮。

今年1月,Epoch還曾因在o3發(fā)布后,才披露得到了OpenAI資金支持而飽受批評。

甚至,許多為FrontierMath貢獻題目的學(xué)者,包括陶哲軒等大牛在內(nèi),直到消息公開后才得知OpenAI的介入,瞬間引發(fā)全網(wǎng)關(guān)于基準測試公平性質(zhì)疑。

圖片

還有前段時間,Grok 3發(fā)布之后,其基準測試遭到OpenAI研究員譴責(zé)——用基于64個樣本進行多數(shù)投票刷分。

圖片

還有最近一次的烏龍,Meta用「特供版」Llama 4去刷分登上了Chatbot Arena榜單TOP 2。

有趣的是,在最新榜單中,Llama 4排名跌至32位,不滾動屏幕根本找不到它。

圖片

總而言之,基準測試「水分」已成為一個不可忽視的問題,關(guān)鍵在于每個人理性看待AI成績單。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-05-26 15:03:54

芯片技術(shù)

2021-02-20 21:04:53

人工智能機器學(xué)習(xí)技術(shù)

2021-07-19 15:02:48

機器人人工智能算法

2024-02-28 09:38:43

2025-05-28 00:00:00

2025-05-26 08:39:00

2025-05-26 03:11:00

2023-07-30 15:22:47

2023-07-31 09:54:12

2022-04-08 07:54:40

人工智能核算結(jié)果Python

2025-03-31 09:35:00

GPT-4oAI模型

2024-01-02 09:30:13

模型AI

2024-03-04 07:00:00

地圖虛擬智能

2024-07-26 11:45:35

2025-04-08 09:10:00

模型訓(xùn)練AI

2021-02-24 15:00:12

學(xué)術(shù)調(diào)研學(xué)者

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2025-04-14 09:38:00

2025-02-10 08:52:00

2018-04-09 09:19:08

谷歌開源機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 污视频免费在线观看 | 亚洲天堂一区 | 中文字幕成人在线 | 国产美女视频黄a视频免费 国产精品福利视频 | 日韩av免费看 | 精品一区二区久久久久久久网站 | 国产精品免费一区二区 | 亚洲成av片人久久久 | 欧美日韩国产在线观看 | 一区二区在线不卡 | 亚洲成人av在线播放 | 亚洲iv一区二区三区 | 国产视频精品区 | 国产aa | 精品国产乱码久久久久久丨区2区 | 蜜桃精品视频在线 | 久久成人国产精品 | 精品久| 日韩高清一区 | 狠狠干天天干 | 欧美精品久久久 | 久久亚洲一区 | 国产aa| 国产午夜精品一区二区三区四区 | 久久精品国产一区二区三区 | 欧美毛片免费观看 | 日韩色在线 | 欧美日韩亚洲国产综合 | 久久国产精品视频 | 亚洲一区二区 | 女同videos另类 | 国产欧美精品一区二区三区 | 国产精品精品3d动漫 | 欧美一区二区三区在线观看视频 | 亚洲另类春色偷拍在线观看 | 国产一区二区在线播放 | 97精品超碰一区二区三区 | 国产日韩av一区二区 | 爱爱无遮挡 | 四季久久免费一区二区三区四区 | 99久久精品免费看国产高清 |