成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

驚掉下巴!o3像是一個(gè)彌天大謊!基準(zhǔn)構(gòu)建者Epoch AI發(fā)長文認(rèn)錯(cuò)曝猛料:OpenAI竟獨(dú)家訪問數(shù)據(jù)集,問題和答案可用來訓(xùn)練!

原創(chuàng) 精選
人工智能
近日,海外開始瘋傳 Epoch AI 的副主任 Tamay Besiroglu 的長文,文中表示:他們受到合同限制,無法披露 OpenAI 參與其中,而六名特約數(shù)學(xué)家均透露,他們不知道 OpenAI 將擁有該基準(zhǔn)的獨(dú)家訪問權(quán),如果他們知道的話,他們不確定是否還會(huì)在其中做出貢獻(xiàn)。

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

驚天大瓜來了!

去年年底OpenAI 推出o3推理,在數(shù)學(xué)、編碼、通用AGI方面都取得了令人的難以置信的類人甚至超人的進(jìn)展。

但就在昨天,大洋彼岸的一眾人工智能專家開始對(duì)“o3”的這些數(shù)據(jù)表示嚴(yán)重的懷疑,甚至將之比作“Theranos”時(shí)刻(一家建立在巨大謊言之上的公司,項(xiàng)目參與人員被迫保密,外界卻被蒙在鼓里)。

因?yàn)槭聦?shí)證明,o3的發(fā)布者 OpenAI 恰恰資助了 FrontierMath ,同時(shí)可以訪問大部分?jǐn)?shù)據(jù)集。

1.愈演愈烈的o3基準(zhǔn)爭議

有關(guān) OpenAI 的 o3 基準(zhǔn)測試爭議已經(jīng)在海外媒體持續(xù)發(fā)酵。

去年11月,Epoch AI 發(fā)布了專門用于評(píng)估大語言模型數(shù)學(xué)能力的精準(zhǔn)測試集FrontierMath ,此前業(yè)界的觀點(diǎn)對(duì)于 o1 的測試表現(xiàn)堪稱“很爛但很擅長找借口”,不過很快 o3 的亮相后,這種刻板印象就來了180度大反轉(zhuǎn) ——

12 月,當(dāng) OpenAI 宣布其新的 o3 系列模型時(shí),該公司聲稱 o3 在 EpochAI Frontier Math 基準(zhǔn)測試中實(shí)現(xiàn)了令人印象深刻的 25% 準(zhǔn)確率。與此前型號(hào)僅 2% 的高分相比,這是一個(gè)巨大的飛躍。該基準(zhǔn)測試分配 LLM 來解決前所未有的難度的數(shù)學(xué)問題。

然而,這種“巨大的飛躍”,很有可能是一種“虛假繁榮”!

近日,海外開始瘋傳 Epoch AI 的副主任 Tamay Besiroglu 的長文,文中表示:他們受到合同限制,無法披露 OpenAI 參與其中,而六名特約數(shù)學(xué)家均透露,他們不知道 OpenAI 將擁有該基準(zhǔn)的獨(dú)家訪問權(quán),如果他們知道的話,他們不確定是否還會(huì)在其中做出貢獻(xiàn)。

圖片圖片

于是,包括加里·馬庫斯 (Gary Marcus) 在內(nèi)的一眾人工智能專家都開始質(zhì)疑 OpenAI 的說法的合法性,并將這種情況直接與 Theranos 相提并論。

圖片圖片

主要的信息量,有這么幾個(gè)重點(diǎn),大家可以先行消化——

(1)為基準(zhǔn)測試創(chuàng)建問題和解決方案的數(shù)學(xué)家們并未被告知 OpenAI 資助了這項(xiàng)工作并有權(quán)訪問它們。

(2)我們不知道 OpenAI 是否在基準(zhǔn)上進(jìn)行過訓(xùn)練o3 ,而且不清楚他們的結(jié)果是否可信 

(3) 有些數(shù)學(xué)家不信任 OpenAI,出于生存風(fēng)險(xiǎn)的擔(dān)憂,他們不愿意為通用人工智能能力做出貢獻(xiàn),他們被誤導(dǎo)了:大多數(shù)人沒有懷疑一家前沿人工智能公司為其提供資金。

(4)Epoch AI 表示:“我們的合同明確禁止我們披露有關(guān)資金來源的信息,以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的事實(shí)。” 

(5)Epoch AI 與 OpenAI 達(dá)成了一項(xiàng)“口頭協(xié)議”——好像現(xiàn)在還有人相信 OpenAI 的話:“我們承認(rèn) OpenAI 確實(shí)可以訪問 FrontierMath 的大部分問題和解決方案,但 OpenAI 未見過的保留集除外,這使我們能夠獨(dú)立驗(yàn)證模型功能。但是,我們有一個(gè)口頭協(xié)議,這些材料不會(huì)用于模型訓(xùn)練。”

2.構(gòu)建者 Epoch AI 副主任發(fā)長文認(rèn)錯(cuò),曝猛料:OpenAI可以訪問大部分基準(zhǔn)問題和答案 

Besiroglu 說:“我們犯了一個(gè)錯(cuò)誤,沒有對(duì) OpenAI 的參與更加透明”。他透露,在 o3 模型推出之前,該公司被限制披露合作伙伴關(guān)系。

“我們的合同明確禁止我們披露有關(guān)資金來源的信息,以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的數(shù)據(jù)這一事實(shí)。我們承認(rèn)這個(gè)錯(cuò)誤,并致力于在未來做得更好,“他補(bǔ)充道。

Besiroglu 還承認(rèn),OpenAI 可以訪問大部分 FrontierMath 問題和解決方案。然而,“OpenAI 未見的維持集”有助于驗(yàn)證模型的能力。

料很猛,這里將長圖中的內(nèi)容整理如下:

圖片1:

圖片圖片

FrontierMath 由 OpenAI 資助。關(guān)于此事的溝通一直不夠透明,許多人,包括在這個(gè)數(shù)據(jù)集上工作的承包商,都沒有意識(shí)到這種聯(lián)系。在12月20日(OpenAI 宣布 o3 的那一天)之前,沒有公開溝通關(guān)于 OpenAI 資助這個(gè)基準(zhǔn)測試的信息。之前的 Arxiv 版本 v1-v4 沒有承認(rèn) OpenAI 的支持。這種支持在12月20日公開。

因?yàn)樘岬?OpenAI 貢獻(xiàn)的 Arxiv 版本正好在 o3 公告之后發(fā)布,我猜 Epoch AI 可能與 OpenAI 達(dá)成了某種協(xié)議,直到那時(shí)才公開提及此事。為 FrontierMath 創(chuàng)建問題的數(shù)學(xué)家并沒有(積極地)被告知 OpenAI 的資助情況。

承包商被指示要對(duì)練習(xí)題及其解決方案保密,包括不使用 Overleaf 或 Colab 或通過電子郵件討論問題,并簽署保密協(xié)議,“以確保問題保持機(jī)密”并避免泄露。承包商也沒有在12月20日被告知 OpenAI 的資助情況。我相信有些論文的署名作者并不知道 OpenAI 的資助情況。我認(rèn)為大多數(shù)人,包括大多數(shù)承包商的印象是,“這個(gè)基準(zhǔn)測試的問題和答案將完全保密,并且只會(huì)由 Epoch 運(yùn)行。除非公司從 API 日志中提取問題(這似乎不太可能),否則這不應(yīng)該是個(gè)問題。”現(xiàn)在 Epoch AI 或 OpenAI 并沒有公開表示 OpenAI 可以訪問練習(xí)題或答案或解決方案。我間接聽說 OpenAI 確實(shí)可以訪問練習(xí)題和答案,并且他們用它們進(jìn)行驗(yàn)證。我不知道 Epoch AI 和 OpenAI 之間是否有協(xié)議禁止他們使用這個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,并且我有一些證據(jù)反對(duì)這種協(xié)議的存在。在我看來,Epoch AI 應(yīng)該披露 OpenAI 的資助情況,承包商在選擇是否參與基準(zhǔn)測試時(shí),應(yīng)該有關(guān)于他們的工作可能被用于能力的透明信息。

圖片2:

圖片圖片

來自 Epoch AI 的 Tamay 表示:

我們?cè)?OpenAI 的參與方面沒有更加透明,這是一個(gè)錯(cuò)誤。我們被限制在 o3 發(fā)布前后披露合作關(guān)系,事后看來,我們應(yīng)該更努力地爭取盡快向基準(zhǔn)測試貢獻(xiàn)者透明化。我們的合同明確禁止我們披露資金來源以及 OpenAI 對(duì)大部分但不是全部數(shù)據(jù)集的訪問權(quán)限。我們承認(rèn)這個(gè)錯(cuò)誤,并承諾在未來做得更好。

對(duì)于未來的合作,我們將努力在可能的情況下提高透明度,確保貢獻(xiàn)者從一開始就更清楚地了解資金來源、數(shù)據(jù)訪問和使用目的。雖然我們確實(shí)向一些數(shù)學(xué)家傳達(dá)了我們獲得了實(shí)驗(yàn)室資助,但我們沒有系統(tǒng)地這樣做,也沒有提到我們合作的實(shí)驗(yàn)室。這種不一致的溝通是一個(gè)錯(cuò)誤。我們應(yīng)該從一開始就更努力地爭取這種合作關(guān)系的透明度,特別是與創(chuàng)建問題的數(shù)學(xué)家。

僅在 o3 發(fā)布時(shí)獲得披露 OpenAI 參與的許可是不夠的。我們的數(shù)學(xué)家應(yīng)該知道誰可能訪問他們的工作。盡管我們?cè)诤贤鲜艿较拗疲覀儽緫?yīng)該將與貢獻(xiàn)者的透明度作為與 OpenAI 協(xié)議中不可談判的一部分。

關(guān)于訓(xùn)練使用:我們承認(rèn) OpenAI 確實(shí)可以訪問 FrontierMath 的大部分問題和解決方案,除了一個(gè)未被 OpenAI 看到的保留集,這使我們能夠獨(dú)立驗(yàn)證模型能力。然而,我們有一個(gè)口頭協(xié)議,這些材料將不會(huì)被用于模型訓(xùn)練。

相關(guān) OpenAI 員工的公開溝通將 FrontierMath 描述為一個(gè)“嚴(yán)格保留的”評(píng)估集。雖然這種公開定位與我們的...

3.建立在謊言之上的項(xiàng)目

OpenAI 首席執(zhí)行官Sam 素有“營銷大師”的稱謂,但營銷和謊言還是有著本質(zhì)的區(qū)別。

有的網(wǎng)友更是將此次o3基準(zhǔn)性能爭議擴(kuò)大到了Sam治下OpenAI的“前科黑歷史”,稱:從欺騙自己的董事會(huì)到前雇員必須簽署不詆毀協(xié)議,OpenAI的確有誤導(dǎo)行為的歷史,這不奇怪。

圖片圖片

很多人并不清楚 Theranos 這個(gè)案例。這里為大家簡單介紹下。

2014 年,被當(dāng)時(shí)硅谷101位CEO、投資人看好的血液檢測初創(chuàng)公司 Theranos (僅次于馬斯克的特斯拉)一路高歌猛進(jìn),推銷一項(xiàng)據(jù)稱具有革命性的技術(shù)。彼時(shí)現(xiàn)有技術(shù)需要為每項(xiàng)診斷測試提供一瓶血液,而 Theranos 卻聲稱只需一次采血,就能夠進(jìn)行數(shù)百次測試(據(jù)說超過 240 次),從膽固醇水平到復(fù)雜的基因分析。自動(dòng)化、快速且廉價(jià),Theranos 似乎正在提供可以徹底改變醫(yī)學(xué)并挽救全世界生命的技術(shù)。

Theranos 的創(chuàng)始人兼首席執(zhí)行官伊麗莎白·霍姆斯 (Elizabeth Holmes) 用她的學(xué)費(fèi)從斯坦福大學(xué)輟學(xué)創(chuàng)立了這家公司,當(dāng)時(shí) Theranos 正處于巔峰時(shí)期,她只有 30 歲。從 Larry Ellison 和 Tim Draper 等人那里籌集了超過 $7億 的投資,該公司已成為硅谷的后起之秀,估值超過 $90 億,而 Holmes 的份額超過一半,被譽(yù)為女性史蒂夫喬布斯。

唯一的問題是什么?這項(xiàng)技術(shù)沒有奏效。

2015 年,兩次獲得普利策獎(jiǎng)的《華爾街日?qǐng)?bào)》記者約翰·卡雷魯 (John Carreyrou) 首次爆料了這個(gè)故事。在收到對(duì) Theranos 技術(shù)性能的懷疑后,John 的興趣進(jìn)一步被 Holmes 在斯坦福大學(xué)上了兩個(gè)學(xué)期的化學(xué)工程課程后據(jù)稱有能力發(fā)明開創(chuàng)性的醫(yī)療技術(shù)而進(jìn)一步激發(fā)了他的興趣。

盡管受到恐嚇和法律訴訟的威脅,Theranos 的前員工 Erika Cheung 和 Tyler Schultz(他們的祖父 George Schultz 是 Theranos 董事會(huì)成員)開始與 John 分享他們對(duì)公司、技術(shù)和實(shí)踐的經(jīng)驗(yàn)。他們向董事會(huì)成員揭露了謊言,揭露了恐嚇和保密的文化,一再未能通過質(zhì)量保證的技術(shù),以及至關(guān)重要的是,發(fā)送給真實(shí)患者的結(jié)果從根本上是錯(cuò)誤的,據(jù)此做出了改變生活的醫(yī)療決定。

看起來,這家公司只不過是建立在大膽的謊言之上的。這場“騙局”最終在2015年的揭露之下,走下神壇:這家公司及其CEO都長期陷于美國政府機(jī)構(gòu)源源不斷的調(diào)查和各類訴訟中,一地雞毛。

圖片圖片

不過,有網(wǎng)友認(rèn)為將 OpenAI 比作 Theranos,有點(diǎn)太過了,畢竟Theranos是未能交付(成果)。但好歹 OpenAI 有一個(gè)產(chǎn)品(即使它不是通用人工智能(AGI),它的護(hù)城河可能很淺)。

但不誠實(shí)的印象已經(jīng)在人們心中養(yǎng)成——

“我認(rèn)為 Sam Altman 不會(huì)被起訴,因?yàn)樵谲浖I(lǐng)域沒有相當(dāng)于食品和藥物管理局(FDA)和醫(yī)療保險(xiǎn)與醫(yī)療補(bǔ)助服務(wù)中心(CMS)的機(jī)構(gòu),但 Sam Altman和Elizabeth Holmes 都是騙子和欺詐藝術(shù)家。這一點(diǎn)在我心中毫無疑問。”

4.重申:大模型真的會(huì)數(shù)學(xué)推理嗎?

長期以來,關(guān)于基準(zhǔn)測試的有效性一直存在一些爭論。在Apple發(fā)表的一篇研究論文中,盡管 LLM 在基準(zhǔn)測試中表現(xiàn)出色,但它們并不真正擅長數(shù)學(xué)推理,它們的輸出來自模式識(shí)別和從訓(xùn)練數(shù)據(jù)中復(fù)制步驟。

甚至 OpenAI 也提到他們不想在 MATH 和 GSM8K 上對(duì) o1 進(jìn)行基準(zhǔn)測試,因?yàn)樵u(píng)估方法相當(dāng)過時(shí),而且大多數(shù) LLM 很容易輸出高分。

OpenAI 在一篇博文中說:“最近的前沿模型在 MATH2 和 GSM8K 上表現(xiàn)得非常好,以至于這些基準(zhǔn)測試在區(qū)分模型方面不再有效。

鑒于這些擔(dān)憂,F(xiàn)rontierMath 分配了 LLM 來解決前所未有的難度的數(shù)學(xué)問題。根據(jù) Epoch AI 的說法,這些問題需要人類科學(xué)家和數(shù)學(xué)家花費(fèi)數(shù)小時(shí)的工作。

Epoch AI 發(fā)布 FrontierMath,本意上是為了做一個(gè)更為靠譜的評(píng)估大型語言模型數(shù)學(xué)能力的新基準(zhǔn)測試。盡管基準(zhǔn)測試的問題比以往任何時(shí)候都更難解決,但無疑能揭露出LLM 的真實(shí)的數(shù)學(xué)水準(zhǔn)。

然而,遺憾的是,OpenAI參與其中的不透明性再次讓這次新基準(zhǔn)的數(shù)學(xué)家們大跌眼鏡:獨(dú)家訪問這項(xiàng)測試集+各種保密,還有什么測試意義呢?

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://m.ekrvqnd.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2011-05-12 12:21:05

開發(fā)者程序員

2015-04-20 10:17:59

程序員

2011-04-06 08:55:07

開發(fā)者JavaPHP

2010-06-03 10:26:15

2025-05-14 10:09:12

2025-05-28 00:00:00

2025-04-21 08:22:25

2024-05-24 13:32:59

2025-01-20 13:17:11

2025-05-23 07:51:12

2025-05-26 03:11:00

2025-04-22 09:18:57

2025-04-23 08:30:05

2025-04-17 09:31:41

2025-04-17 08:59:59

2021-09-04 07:56:44

單例模式寫法

2025-03-18 08:58:13

2025-03-18 13:14:13

2024-12-24 16:15:04

2025-03-11 13:54:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 蜜月aⅴ国产精品 | 国产精品一区二区三区在线 | 久久一区精品 | 久久综合色综合 | 国内精品久久久久久 | 午夜欧美| 亚洲精品日韩在线观看 | 一区二区三区免费观看 | 97精品超碰一区二区三区 | 免费一区在线观看 | 久久精品色视频 | 91在线看 | 日本一级淫片免费啪啪3 | 一级黄色淫片 | 国产在线区 | 日韩视频一级 | 综合久久av | 男女爱爱网站 | 亚洲第一av | 日韩国产欧美一区 | av中文字幕在线播放 | 亚洲国产情侣 | 日韩精品一区二区三区免费视频 | 欧美成人二区 | 自拍偷拍亚洲欧美 | 国产成人免费网站 | 性福视频在线观看 | 色播av| 久久久久中文字幕 | 综合五月 | 天天天天操 | 黄色免费在线观看网址 | 在线中文字幕亚洲 | 国产成人免费视频网站高清观看视频 | 国产成人精品久久二区二区 | 超碰97av| 久久久久久国产精品 | 日本又色又爽又黄的大片 | 日韩精品视频中文字幕 | 在线91| 性生生活大片免费看视频 |