成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3曝智商高達157,比肩愛因斯坦碾壓99%人類!陶哲軒水平AI或出現

人工智能 新聞
OpenAI o3的智商,竟然已經高達157,碾壓99%的人類?這張OpenAI模型智商圖全網瘋轉。甚至有人大膽預測:達到陶哲軒智商(225-230)的大模型,應該會很快出現了。

o3智商竟有157,堪比愛因斯坦?

今天,一張OpenAI模型智商圖,在全網傳遍了。

圖片

基于編程競賽Codeforces排名評分

圖中清晰可見,能夠達到o3智商水平的人類大約占比僅有0.0075%。

13333人當中,也僅有1人IQ是o3級別的。對于GPT-4o,6人當中就有1人能夠達到IQ 115的水平。

圖片

從GPT-4o、到o1系,再到o3系,模型IQ逐漸遞增,也僅用了1年時間,實現了質的飛躍。即便是最強o1 pro(IQ為139),o3完全領先近20分。

圖片

有網友表示,用不了多久,我們口袋里就會擁有一個IQ 157的智能。

圖片

還有人稱,陶哲軒智商大約在225-230之間,未來模型很快就能達到這個水平。

圖片

o3超高智商背后

o3發布之后,很多人都認為AGI實現了。

從o1到o3,OpenAI僅用了3個月;從o1 pro到o3,僅用了1個月。種種跡象表明,Scaling Law并未終結。

過去五年,OpenAI模型在ARC-AGI上的得分,也說明了一切。

圖片

OpenAI研究員Nat McAleese在o3發布當天,分享了一些關于模型的介紹。

他表示,o3代表著通過強化學習在通用領域的巨大進步。

o1是首個大規模推理模型,也僅僅是一個通過RL訓練的大模型。o3是通過在o1基礎上,進一步scaling強化學習而開發的。

圖片

我們已經看到,o3在世界上最具競爭的編程基準CodeForces中得分超2700,完全達到了國際大師的水平。

圖片

與此同時,o3在數學基準FrontierMath驚艷表現令人生畏,甚至擊穿了陶哲軒的預言。

圖片

在Keras之父Fran?ois Chollet轉寫的報告中,也解釋了o3與以往舊模型之間的區別:

o3的核心創新點在于,實現了token空間內自研語言程序搜索和執行。在測試時,它會搜索可能的CoT空間,并尋描述解決任務所需的步驟,由評估模型引導搜索過程。

圖片

而且,他表示,這種方式與AlphaZero的蒙特卡洛樹搜索并無太大差異。

本質上,o3是一種深度學習引導的程序搜索形式。

不過,即便o3進化速度如此瘋狂,OpnenAI研究員Will depue表示,這還不是AGI,我們還有很長的路要走。

圖片

o3 ARC-AGI測試被曝「作弊」?

而且就在最近,o3的ARC-AGI測試結果,在圈內引起了不小的爭議。

要知道,這個基準設立的初衷,就是專門找到那些對人類很容易,對AI來說卻很難的題目。

根據OpenAI的說法,在ARC-AGI這個基準測試中,o3在低計算模式下,在半私有評估中的得分為75.7%;在高計算模式下,得分為87.5%。

而人類在該任務上的表現通常在85%的水平,也就是說,o3在高計算模式下,已經超越了人類。

圖片

這個結果,引起了多人的質疑:OpenAI不會專門針對這個任務做過訓練吧?

要知道,在直播的第12天,奧特曼專門強調過,「并未對模型做過特殊處理」。

圖片

對此,心細的網友們紛紛展開調查。

比如這位名為Knight Lee的網友,就表示o3在ARC-AGI上的分數是經過微調的,而之前的AI分數并沒有被微調。

他表示,o3的一個主要優勢,就是接受過示例測試問題的明確訓練而已。

之所以有這樣的觀點,是他引用了ARC-AGI設計師Fran?ois Chollet的說法——

OpenAI分享說,他們測試的o3是在公共訓練集75%的數據上進行訓練的。他們尚未透露更多細節。我們尚未測試未經ARC數據訓的模型,因此尚不清楚其性能有多少歸因于ARC-AGI數據。

圖片

圖片

這個這個說法為真,那o3所取得的分數,顯然占了很大便宜。

OpenAI研究員Zach Stein-Perlman反駁說,他們沒有針對ARC對o3做過微調。

不過今天出來的o3智商157的結果,至少可以為它的性能稍稍正名了。

圖片

o4才是Orion

而且,在o3之后,或許還會有IQ更強的模型現身。

Information獨家爆料稱,o3并不是代號為Orion的模型。相對的,Orion可能會作為o4的基礎模型。

但華爾街日報在此前的報道中表示,Orion是GPT-5……

圖片

OpenAI研究員Jason Wei稱,從o1到o3僅用了3個月的時間,這表明在新范式下,進展遠快于預訓練范式每1-2年更新一次模型的速度。

圖片

推理模型的優勢在于,利用更多計算資源思考之后,能夠彌補預訓練的放緩速度。

也正因此,o3推理代價是高昂的。ARC-AGI基準測試報告中,已經披露了o3在每個高計算任務中的成本會超過1000美金。

這也充分解釋了,OpenAI博士級AI助手能達到每月2000美元的原因。

另一位OpenAI研究員John Hallman對此表示,當Sam和我們研究人員說AGI即將到來時,我們不是為了給你畫大餅,不是為了推2000美元的訂閱,也不是為了誘騙你投資我們的下一輪融資。它真的要來了。

圖片

目前,不清楚的是,o3對普通ChatGPT用戶能帶來多大幫助。

o3可能在編程、數學、科學領域表現,對編程、數學和科學領域的人員幫助最大,包括那些研究極其困難問題(如核聚變能源)的研究人員。

而對于普通用戶而言,新模型可能有點「大材小用」。

雖然o3表現出色,其他科技巨頭也不甘示弱。

谷歌強勢推出了Gemini 2.0 Flash、視頻模型Veo 2,以及由耗資30億美金聘請AI研究員Noam Shazeer開發的推理模型。

一些對價格敏感的開發者,紛紛轉向了谷歌Flash模型。

可以看出,推理模型仍將繼續超進化迭代,2025年也將會如今年一樣令人興奮。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-23 07:40:00

AI模型數學

2009-03-30 09:03:28

2024-12-24 15:00:00

模型數據訓練

2024-12-09 09:35:00

AI數據訓練

2024-10-14 14:31:36

2023-10-04 08:07:06

CopilotGitHub

2025-05-22 09:08:40

2024-12-23 07:10:00

o3-miniARC-AGI人工智能

2024-09-14 12:51:16

2025-06-03 08:15:00

2025-05-19 08:54:00

2024-09-29 14:00:00

AI數學自動化

2024-11-25 09:15:00

2024-07-29 08:49:00

AI數學

2024-04-15 12:29:00

AI訓練

2024-02-26 08:30:00

2025-06-16 09:07:00

2023-10-10 13:51:46

GPT-4GitHubAI

2024-10-12 12:30:04

2025-05-21 09:10:00

AI代碼陶哲軒
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕成人网 | 欧美日韩精品一区二区三区四区 | 成人免费一区二区三区牛牛 | 国内精品视频在线 | 日本一区二区三区在线观看 | 欧美电影一区 | 久久在线视频 | 国产女人与拘做视频免费 | 91精品国产一区二区三区动漫 | 自拍偷拍视频网 | 国产成人av在线播放 | 天天操天天操 | 欧美一区二区在线视频 | 天堂亚洲 | 久久一二区 | 亚洲精品一区二区三区免 | 中文在线a在线 | 成人区精品一区二区婷婷 | 久夜精品| 老子午夜影院 | 日韩欧美国产一区二区 | 久久伊人一区二区 | 麻豆久久久9性大片 | 国产精品99 | 日韩有码一区二区三区 | 91精品国产综合久久国产大片 | av天天干 | 日韩欧美在线视频播放 | 国外成人免费视频 | 中文字幕久久精品 | 亚洲欧美激情视频 | 久久精品av | 黄a网站| 91夜夜夜| 国产精品久久久久久久久久久久 | 天堂一区二区三区 | 中文字幕av一区 | 91天堂网 | 国产综合视频 | 男人午夜视频 | 国产精品视频一 |