成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3來(lái)了!編程躋身人類全球前200,破解陶哲軒說(shuō)難的數(shù)學(xué)測(cè)試,北大校友任泓宇現(xiàn)身直播間

人工智能
這次直播還公布了o3-mini,支持低中高三種思考程度設(shè)置。主要展示了代碼能力,低設(shè)置下o3-mini和o1-mini差不多,中高設(shè)置已經(jīng)超過(guò)了o1正式版。

OpenAI公布下一代模型,o1之后直接o3!

“雙12”直播活動(dòng)最后一天,終于來(lái)了個(gè)大的,奧特曼本人也再次現(xiàn)身直播間。

圖片

o3相比o1最突出的成績(jī),一是頂尖程序員競(jìng)賽CodeForces分?jǐn)?shù)超過(guò)2700,人類超過(guò)這個(gè)分?jǐn)?shù)的目前只有不到200個(gè)。

圖片

二是在為AGI準(zhǔn)備的測(cè)試ARC-AGI上分?jǐn)?shù)從32%躍升到了75.7%、87.5%。

為什么有兩個(gè)成績(jī)呢?

因?yàn)閛3支持低思考程度和高思考程度兩種設(shè)置,高思考程度花費(fèi)的算力(橫軸)也直接拉滿。

圖片

ARC-AGI是Keras之父Fran?ois Chollet發(fā)起的測(cè)試基準(zhǔn),典型題目為圖形邏輯推理。

圖片

另一項(xiàng)測(cè)試是號(hào)稱最難數(shù)學(xué)測(cè)試的EpochAI Frontier Math,包含最新未公開(kāi)前沿題目。

此前陶哲軒對(duì)這項(xiàng)測(cè)試的第一印象是“可能難住AI好幾年”。

圖片

o3在測(cè)試中比之前SOTA從2分提升到25分。

人類專業(yè)數(shù)學(xué)家解決其中一道題目也要花費(fèi)數(shù)小時(shí)到數(shù)天,現(xiàn)在o3只需要思考幾分鐘了。

圖片

這次直播還公布了o3-mini,支持低中高三種思考程度設(shè)置。

主要展示了代碼能力,低設(shè)置下o3-mini和o1-mini差不多,中高設(shè)置已經(jīng)超過(guò)了o1正式版。

圖片

參與研究的北大校友任泓宇,現(xiàn)場(chǎng)展示了o3-mini的編程能力。

圖片

他使用了特殊版本的ChatGPT,稱為ChatGPT α。

任務(wù)如下:

寫(xiě)一個(gè)Python腳本,在本地為一個(gè)帶有大文本框的HTML文件啟動(dòng)服務(wù)器。當(dāng)我在該框中輸入文本并按下提交時(shí),它應(yīng)該將該代碼請(qǐng)求發(fā)送到OpenAl o3-mini API ,使用medium reasoning_effort ,獲取生成的代碼,將其保存到桌面上的臨時(shí)文件中,然后在新的Python終端中執(zhí)行該文件。還有一些細(xì)節(jié):

  • 可以在~/api_key中找到我的API密鑰
  • 請(qǐng)?jiān)谙駻PI的請(qǐng)求中添加一些額外的提示,指定它只應(yīng)返回沒(méi)有任何格式或Markdown的原始代碼
  • 你將在Mac筆記本電腦環(huán)境運(yùn)行

o3-mini的思考過(guò)程用了38秒,然后代碼秒出,一次運(yùn)行成功。

圖片

圖片

這個(gè)演示可能不太直觀,但是看得沒(méi)去現(xiàn)場(chǎng)的另一位OpenAI研究員Aidan Clark直出汗。

圖片

總結(jié)一下,就是o3-mini用38秒給自己寫(xiě)了一個(gè)UI,通過(guò)API調(diào)用“自己”。

后續(xù)演示中,任泓宇要求o3-mini在這個(gè)UI中編寫(xiě)并執(zhí)行一個(gè)腳本,來(lái)評(píng)估“它自己”在低思考程度下、在GPQA數(shù)據(jù)集上的表現(xiàn)。

圖片

腳本正確運(yùn)行了評(píng)估,返回結(jié)果數(shù)值61.62%,與正式評(píng)估結(jié)果基本一致。

圖片

是不是有一點(diǎn)科幻的感覺(jué)了。

圖片

可惜吶~ o3和o3-mini目前都是早期預(yù)覽狀態(tài),只給看不給玩。

安全研究者可以在OpenAI官網(wǎng)申請(qǐng)?jiān)缙谠L問(wèn)權(quán)限。

北大校友、GPT-4o核心開(kāi)發(fā)者現(xiàn)身直播間

這場(chǎng)直播中另外值得關(guān)注的,就是新出場(chǎng)的北大校友任泓宇(最左邊)。

他去年剛加入OpenAI擔(dān)任研究科學(xué)家,主要負(fù)責(zé)語(yǔ)言模型訓(xùn)練,是GPT-4o的核心開(kāi)發(fā)者、GPT-Next項(xiàng)目組成員。

圖片

直播中最新透露,九月份的o1-mini他也有參與,證實(shí)了此前傳聞中o1-mini主要由三位華人負(fù)責(zé)(另兩位是Kevin Lu和Jiahui Yu)。

任泓宇博士畢業(yè)于斯坦福大學(xué)。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft有大量研究實(shí)習(xí)經(jīng)歷。

圖片

One More Thing

笑死,最后一天頂著圣誕帽的“青蛙”直接被擺到了最前面:

圖片

其實(shí),之前每一場(chǎng)它們都在,不過(guò)是被擺在了后面的架子上,而且數(shù)量隨直播天數(shù)增加。

昨天是直播第11天,圣誕帽“青蛙”是醬嬸兒的:

圖片

你數(shù)出來(lái)有多少圣誕“青蛙”了嗎?圖片

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-12-24 12:19:45

2025-06-16 08:49:00

2024-08-07 14:59:00

2024-10-12 12:30:04

2024-07-08 13:08:04

2025-04-15 08:50:00

2024-08-15 14:00:00

模型數(shù)據(jù)

2023-10-04 08:07:06

CopilotGitHub

2025-06-03 08:15:00

2023-09-02 11:21:54

代碼ChatGPT

2025-02-19 08:29:27

2024-07-29 08:49:00

AI數(shù)學(xué)

2024-09-29 14:00:00

AI數(shù)學(xué)自動(dòng)化

2024-11-25 09:15:00

2025-02-19 09:20:30

2024-02-26 08:30:00

2023-06-30 13:42:44

2025-05-28 10:30:41

AI陶哲軒模型

2025-05-21 09:10:00

AI代碼陶哲軒
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线免费观看毛片 | 91高清视频在线观看 | www国产成人免费观看视频,深夜成人网 | 天天干 夜夜操 | 午夜伦理影院 | 国产一区不卡 | 天天av综合 | 四虎影院免费在线 | 日本欧美在线 | 污书屋| 欧美亚洲视频 | 色999视频| 国产成人自拍一区 | 91视频久久久久 | www.精品国产 | 伊人网站在线 | 国产精品美女久久久久aⅴ国产馆 | 黑人粗黑大躁护士 | 国产草草视频 | 欧美日韩国产中文 | 成人依人| av一级久久 | 成人在线免费视频观看 | 久久久综合久久 | 久久a久久 | 免费成人毛片 | 91麻豆精品国产91久久久久久久久 | 天天射天天干 | 欧美日韩淫片 | 久久久久久久av麻豆果冻 | 欧美aaaaaaaa| 日韩久久久久久久久久久 | 综合久久久| 日韩免费视频一区二区 | 天堂色 | 亚洲第一天堂 | 久久久精品一区二区 | 福利精品| 成年人在线观看视频 | 青青草华人在线视频 | 欧美日韩视频 |