OpenAI發布突破性AI模型o1系列,推理能力大幅躍升重塑行業格局
圖片
9月13日,人工智能領域的領軍企業OpenAI正式對外發布了一系列革命性的AI大模型,命名為o1系列。這一新模型在復雜推理能力方面取得了顯著突破,展現出前所未有的問題解決能力,尤其在科學、數學和編程等專業領域表現卓越,引發業界廣泛關注。
o1系列的首款模型o1-preview已在ChatGPT和大模型API中推出。該模型在多項高難度基準測試中表現優異,相較于前代模型GPT-4o有質的飛躍。在國際數學奧林匹克(IMO)資格考試中,o1模型正確解答了83%的問題,而GPT-4o僅為13%。這一成績相當于美國數學競賽前500名的水平,甚至超過了美國數學奧林匹克競賽的分數線。
圖片
在編程能力方面,o1系列同樣表現出色。經過進一步訓練的o1-ioi模型在2024年國際信息學奧林匹克競賽(IOI)中獲得了213分,達到了排名前49%的水平。在模擬的Codeforces競賽中,o1模型的Elo評分為1807,表現優于93%的人類競爭對手。
圖片
OpenAI在o1系列的開發中創新性地運用了強化學習技術。這種方法使模型能夠像人類一樣在回答問題前進行深入思考,形成"思維鏈"(Chain of Thought)。通過這種方式,模型能夠識別并糾正錯誤,嘗試不同策略,從而大幅提高其推理能力。OpenAI發現,隨著更多的強化學習訓練和更長的思考時間,o1的性能持續提升。
除了o1-preview,OpenAI還推出了更快速、更經濟的o1-mini版本。o1-mini在STEM(科學、技術、工程和數學)領域的表現與o1-preview相當,但成本降低了80%,為開發者提供了更高效的解決方案。在高中AIME數學競賽中,o1-mini的表現(70.0%)與o1(74.4%)相當,遠超o1-preview(44.6%)。
圖片
在安全性方面,OpenAI表示,思維鏈推理為模型安全和對齊提供了新的思路。通過將行為策略整合到模型的思維鏈中,可以更有效、穩健地教導人類價值觀和原則。o1-preview在關鍵越獄評估和內部安全基準上都取得了顯著改進。
圖片
目前,ChatGPT Plus和Team版用戶已可有限度使用這些新模型。每位用戶每周可向o1-preview發送30條消息,向o1-mini發送50條消息。企業版和教育版用戶將從下周開始可以使用這兩個模型。對于API用戶,達到5級API使用量的開發者可以立即開始使用這兩個模型開發應用原型,但限速為20 RPM。
圖片
OpenAI表示,未來將持續改進模型性能,并計劃添加網絡瀏覽、文件和圖像上傳等功能,以提升模型的實用性。同時,公司還將繼續開發和發布GPT系列模型。
這一突破性進展不僅再次證明了OpenAI在AI領域的領先地位,也為AI在科學研究、編程、數學等專業領域的應用開辟了新的可能性。o1系列模型的發布標志著AI技術進入了一個新的發展階段,有望在解決復雜問題、推動科技創新等方面發揮更大的作用,為人類社會帶來深遠影響。
本文轉載自 ??芝士AI吃魚??,作者: 愛滑冰的咸魚
