成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

突發(fā)!OpenAI發(fā)布最強模型o1:博士物理92.8分,IOI金牌水平

人工智能 新聞
沒錯,傳說中的「草莓」,終于來與大家見面了!

來了來了!剛剛,OpenAI新模型無預警上新:

o1系列,可以進行通用復雜推理,每次回答要花費更長時間思考。

在解決博士水平的物理問題時,GPT-4o還是“不及格”59.5分,o1一躍來到“優(yōu)秀檔”,直接干到92.8分

沒錯,傳說中的「草莓」圖片,終于來與大家見面了!

圖片

CEO奧特曼稱它是一種新范式的開始:可以進行通用復雜推理的人工智能。

圖片

具體來說,o1系列是OpenAI首個經(jīng)過強化學習訓練的模型,在輸出回答之前,會在產(chǎn)生一個很長的思維鏈,以此增強模型的能力。

換句話說,內(nèi)部思維鏈越長,o1思考得越久,模型在推理任務上的表現(xiàn)就越好。

o1有多強呢?CEO奧特曼直給了答案:

在剛剛結束的2024 IOI信息學奧賽題目中,o1的微調(diào)版本在每題嘗試50次條件下取得了213分,屬于人類選手中前49%的成績。

如果允許它每道題嘗試10000次,就能獲得362.14分,高于金牌選手門檻,可獲得金牌

圖片

另外它還在競爭性編程問題 (Codeforces) 中排名前89%,在美國數(shù)學奧林匹克 (AIME) 預選賽題目中躋身美國前500名學生之列。

圖片

與GPT-4o相比,o1在數(shù)理化生、英語法律經(jīng)濟等各種科目都有不同成績改進。

圖片

匯總官方發(fā)布的各種消息來看,這次突然發(fā)布的o1系列又分為三個型號:

o1,新的大模型天花板,過于強大目前不方便對外公開。

o1-preiview,o1的早期版本,可以立即提供給ChatGPT付費用戶和API用戶

o1-mini,速度更快、性價比更高,適用于需要推理和無需廣泛世界知識的任務。

不少OpenAI員工都分別用“系統(tǒng)1”和“系統(tǒng)2”思考來科普o1系列與之前模型的區(qū)別。

連長期休假中的總裁Brockman都“詐尸”回歸了。

圖片

思維鏈提示方法的原作者Jason Wei表示,這一次不是純粹通過提示來完成思維鏈,而是使用強化學習訓練模型以更好地執(zhí)行鏈式思考。

在深度學習的歷史中,人們一直試圖擴展訓練階段的計算,但思維鏈是自適應計算的一種形式,現(xiàn)在也可以在推理時擴展。

新模型做了很多類似人類的事情,比如將棘手的步驟分解為更簡單的步驟、識別和糾正錯誤以及嘗試不同的方法。

游戲已被完全重新定義。

圖片

o1:AI能力新天花板

通過訓練,o1模型學會完善自己的思維過程,嘗試不同的策略,并認識到自己的錯誤。

不過作為早期模型,它尚不具備ChatGPT的許多有用功能,例如聯(lián)網(wǎng)搜索以及上傳文件和圖像。

但對于復雜的推理任務來說,這是一個重大進步,OpenAI稱代表了人工智能的最高水平。

鑒于此,他們決定將計數(shù)器重置,并將該系列模型命名為OpenAI o1

隨著更多的強化學習(訓練時計算)和更多的思考時間(測試時計算),o1 的性能持續(xù)提高,新的Scaling Law誕生了

不過這種方法的Scaling受到的限制與普通預訓練有很大不同,OpenAI正在繼續(xù)研究它們。

圖片

o1思考起來是什么樣子?可以從官網(wǎng)示例中的編寫B(tài)ash腳本的編程任務一窺究竟。

首先作為對比,GPT-4o會直接就開始寫代碼,遺憾得到錯誤結果

圖片

而o1-preiview會先用自己的理解復述一遍要求,然后開始拆解要求明確最終目標

圖片

接下來它會給自己定義任務分析限制條件列出需要用到的方法

圖片

進一步把任務拆解成明確的數(shù)個小步驟。

圖片

最后才動手編寫代碼,并保證一次性得到正確結果。

圖片

OpenAI表示,o1系列可以幫醫(yī)療保健研究人員來注釋細胞測序數(shù)據(jù),幫助物理學家可以生成量子光學所需的復雜數(shù)學公式,所有領域的開發(fā)人員可以使用o1來構建和執(zhí)行多步驟工作流程。

而且不是說說而已,OpenAI已經(jīng)邀請相關的人類專家學者試用了一波。

馬克思普朗克研究所的量子物理學者Mario Krenn,展示了GPT-4o不能回答但o1-preview正確完成計算的復雜量子物理問題。

圖片

除了考試和學術基準之外,團隊還評估了人們對o1-preview與GPT-4o在開放問題上的偏好。

在數(shù)據(jù)分析、編碼和數(shù)學等推理密集型類別中,o1-preview明顯優(yōu)于gpt-4o。

然而o1-preview在某些自然語言任務上并不是首選,這表明它并不適合所有場景。

圖片

OpenAI科學家Noam Brown分享了更詳細的個人測試結果。

在上個月的ACL會議上有一個所有當時大模型都無法解決的邏輯難題。o1-preview能夠做對,o1滿血版幾乎每次嘗試都能做對。

圖片

目前o1花費在思考上的時間是幾秒到十幾秒,但OpenAI未來的改進方向不是縮短,反而是努力增加這個時間,

目標是讓未來的版本思考幾個小時、幾天甚至幾周。

推理成本會更高,但你會為一種新的抗癌藥物付多少錢?為了電池的突破、黎曼猜想的證明又付多少?

人工智能可以不僅僅是聊天機器人

圖片

誰可以訪問o1?

根據(jù)OpenAI官方說法,ChatGPT Plus和Team用戶最早可在幾個小時內(nèi)可以體驗到o1系列模型。

在發(fā)布時,o1-preview限制為每周30條消息,o1-mini每周50條。

API訪問權限將首先給Tier 5級用戶,也就是已經(jīng)在OpenAI API上花費超過1000美元的人。

圖片

OpenAI正在努力提高這些速率,并使ChatGPT能夠針對給定的提示自動選擇合適的模型。

快打開ChatGPT看看你是不是第一波吃草莓的人吧圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-19 17:44:04

2024-09-24 11:01:03

2024-09-13 10:06:21

2024-09-13 12:34:54

2024-10-05 00:00:00

2025-01-23 10:45:52

2024-09-13 06:32:25

2024-12-05 10:16:14

2024-09-13 10:14:36

2024-11-07 15:40:00

2024-12-09 11:06:31

2025-02-03 14:17:27

2024-11-29 13:57:38

2024-09-18 09:17:00

OpenAI模型開源

2024-12-12 11:29:51

2024-09-18 08:40:00

智能模型AI

2024-09-19 18:03:31

2025-06-13 08:11:11

2024-12-18 12:20:15

2024-10-09 13:42:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成年人精品视频在线观看 | 国产黄色大片在线观看 | 免费在线播放黄色 | 精精国产视频 | 久久亚洲综合 | 国产精品自拍视频 | 午夜寂寞福利视频 | 麻豆一区二区三区精品视频 | 色就干 | 日本精品一区二区三区四区 | 天天综合网天天综合 | 精品国产一区二区三区在线观看 | 91av免费观看| 人人鲁人人莫人人爱精品 | 一区二区在线免费播放 | 91精品久久久久久久 | 精品二三区 | 一区二区在线 | 亚洲精品久久久9婷婷中文字幕 | 日本不卡一区 | 欧美激情视频一区二区三区免费 | 日本不卡一区 | 国产精品久久久久国产a级 欧美日韩国产免费 | 成人免费网站 | 一色桃子av一区二区 | 日本人做爰大片免费观看一老师 | 日韩欧美三区 | 精品乱码一区二区 | 国产精品3区 | 一区二区三区中文字幕 | av手机免费在线观看 | 久久逼逼 | 亚洲夜射| 成人中文字幕在线观看 | 在线中文字幕视频 | 欧美日韩黄色一级片 | 天天操天天插 | 一区二区三区四区在线视频 | 国产分类视频 | 亚洲免费一区 | 在线黄|