OpenAI砸碎了程序員的飯碗
一、O3究竟是什么?
1. 名稱由來
為避免版權糾紛,OpenAI放棄了o2的命名,直接將其稱為o3。
圖片
2. 編程能力
在編程領域,o3取得了驚人的成績。在人類在線編程競技平臺codeforces上,o3模型的Elo得分達到2727分,排名第175位。在168076名全球參賽程序員中,o3擊敗了99.9%的程序員,超越了此前的GPT - 4o和o1等模型。這意味著o3在編程競技中已達到頂尖水平,甚至超越了許多大廠中眾多程序員的實力。要知道,字節跳動、騰訊、阿里等大廠都有10萬量級的員工,每個公司里,光年薪百萬的程序員都超過175個人了。o3的發布,將是沖擊碼農崗位需求和薪資的里程碑事件。
圖片
3. 真實軟件工程能力
在SWE - bench測試中(SWE - bench挑戰AI模型根據給定的Github代碼庫(codebase)和問題描述(issue)生成相應的代碼補丁(patch)來解決問題,測試平臺不僅關注算法解題能力,還全面評估AI模型在實際軟件工程任務中的表現,包括但不限于代碼缺陷檢測、代碼質量評估、代碼變更預測等,其中SWE - bench Verified是其經過五年經驗碼農人工驗證的子集,包含500個樣本),o3跑分達到71.7,能為71.7%的問題生成正確代碼補丁并通過單元測試,在模型中處于領先地位,甚至領先o1 20多個點的acc。這可能意味著,至少有70%本來需要程序員去救火的工程問題,o3能直接去解了。而問題的總量可能不會更多(甚至可能會因為o3打底早期代碼而變得更少),但需要人類程序員去解決的需求卻大量減少了。
圖片
4. 數學能力
在數學測試中,o3同樣表現驚艷。在AIME 2024(數學測試基準)中得分96.7%,相當于在AMO美國數學奧林匹克競賽上只答錯1道題;在GPQA Diamond(博士級科學問題測試)中得分87.7%,甩開上一代o1接近10個百分點。
5. 圖形邏輯推理能力
在ARC - AGI測試中(測試形式為圖形邏輯推理,每輪舉出3 - 5個例子,圖形為1x1到30x30的網格圖形,讓AI根據圖形變化規律預測下一個圖形形式),o3微調成o3 low和o3 high兩個模型。o3 low得分75.7%,符合公共排行榜成本要求,成為新榜單TOP1;o3 high得分87.5%,超越人類評估閾值(85),但訓練成本大約是o3 low的172倍,超出1萬美元成本要求。此前的ChatGPT各種型號在這項測試中的得分慘不忍睹,如GPT - 3為0%,GPT - 4為2%,GPT - 4o為5%,o1 - preview為21%,o1滿血版為32%,o1 Pro為50%左右。
圖片
6. 高級數學推理能力
在FrontierMath測試(由Epoch AI推出,專門評估AI高級數學推理能力,地獄級難度,測試內容為最新未發表題目,經驗豐富的人類數學專家解答也需數小時或數天,1998年菲爾茲獎得主Tim Gowers評價即使答對一個問題也遠超現在能力范圍)中,o3在不限制時間的情況下得分可達25.2%,而此前最強模型得分僅2%。
圖片
圖片
7. O3強大的原因
OpenAI研究員表示,o1驗證了LLM + RL范式可行,但o3通過scaling up真正發揮了該范式的威力,證明了對于編程、數學等任務,RL范式可提升上限。
8. O3的缺點
o3成本極高,在ARC - AGI團隊描述中,是有史以來最昂貴的模型之一。除此之外,模型思考時間變長,o1的平均思考時間是8.92秒,o3 mini(high)平均思考時間達到23.33秒,差不多是o1的兩倍,o3旗艦版平均思考時間可能已達分鐘級。
圖片
二、O3 mini即將推出
好消息是,o3 mini預計明年1月底推出,上線后將開放API調用,并附帶o1的所有API功能。
o3的出現無疑是人工智能發展的一個重要里程碑,它在多個領域展現出的強大能力,不僅讓我們看到了技術的巨大進步,也讓我們對未來充滿了期待和擔憂。它是否真的會如預測的那樣,對碼農職業產生巨大沖擊?又將如何改變我們的生活和工作?讓我們一起拭目以待吧!
本文轉載自 ??AI論文解讀??,作者:柏企
