OpenAI砸碎了程序員的飯碗

AI論文解讀

發布于 2024-12-25 11:53

瀏覽

0收藏

一、O3究竟是什么？

1. 名稱由來

為避免版權糾紛，OpenAI放棄了o2的命名，直接將其稱為o3。

OpenAI砸碎了程序員的飯碗-AI.x社區圖片

2. 編程能力

在編程領域，o3取得了驚人的成績。在人類在線編程競技平臺codeforces上，o3模型的Elo得分達到2727分，排名第175位。在168076名全球參賽程序員中，o3擊敗了99.9%的程序員，超越了此前的GPT - 4o和o1等模型。這意味著o3在編程競技中已達到頂尖水平，甚至超越了許多大廠中眾多程序員的實力。要知道，字節跳動、騰訊、阿里等大廠都有10萬量級的員工，每個公司里，光年薪百萬的程序員都超過175個人了。o3的發布，將是沖擊碼農崗位需求和薪資的里程碑事件。

OpenAI砸碎了程序員的飯碗-AI.x社區圖片

3. 真實軟件工程能力

在SWE - bench測試中（SWE - bench挑戰AI模型根據給定的Github代碼庫（codebase）和問題描述（issue）生成相應的代碼補丁（patch）來解決問題，測試平臺不僅關注算法解題能力，還全面評估AI模型在實際軟件工程任務中的表現，包括但不限于代碼缺陷檢測、代碼質量評估、代碼變更預測等，其中SWE - bench Verified是其經過五年經驗碼農人工驗證的子集，包含500個樣本），o3跑分達到71.7，能為71.7%的問題生成正確代碼補丁并通過單元測試，在模型中處于領先地位，甚至領先o1 20多個點的acc。這可能意味著，至少有70%本來需要程序員去救火的工程問題，o3能直接去解了。而問題的總量可能不會更多（甚至可能會因為o3打底早期代碼而變得更少），但需要人類程序員去解決的需求卻大量減少了。

OpenAI砸碎了程序員的飯碗-AI.x社區圖片

4. 數學能力

在數學測試中，o3同樣表現驚艷。在AIME 2024（數學測試基準）中得分96.7%，相當于在AMO美國數學奧林匹克競賽上只答錯1道題；在GPQA Diamond（博士級科學問題測試）中得分87.7%，甩開上一代o1接近10個百分點。

5. 圖形邏輯推理能力

在ARC - AGI測試中（測試形式為圖形邏輯推理，每輪舉出3 - 5個例子，圖形為1x1到30x30的網格圖形，讓AI根據圖形變化規律預測下一個圖形形式），o3微調成o3 low和o3 high兩個模型。o3 low得分75.7%，符合公共排行榜成本要求，成為新榜單TOP1；o3 high得分87.5%，超越人類評估閾值（85），但訓練成本大約是o3 low的172倍，超出1萬美元成本要求。此前的ChatGPT各種型號在這項測試中的得分慘不忍睹，如GPT - 3為0%，GPT - 4為2%，GPT - 4o為5%，o1 - preview為21%，o1滿血版為32%，o1 Pro為50%左右。

OpenAI砸碎了程序員的飯碗-AI.x社區圖片

6. 高級數學推理能力

在FrontierMath測試（由Epoch AI推出，專門評估AI高級數學推理能力，地獄級難度，測試內容為最新未發表題目，經驗豐富的人類數學專家解答也需數小時或數天，1998年菲爾茲獎得主Tim Gowers評價即使答對一個問題也遠超現在能力范圍）中，o3在不限制時間的情況下得分可達25.2%，而此前最強模型得分僅2%。

OpenAI砸碎了程序員的飯碗-AI.x社區圖片