驚掉下巴！o3像是一個(gè)彌天大謊！基準(zhǔn)構(gòu)建者Epoch AI發(fā)長文認(rèn)錯(cuò)曝猛料：OpenAI竟獨(dú)家訪問數(shù)據(jù)集，問題和答案可用來訓(xùn)練！

2025-01-20 13:37:16

近日，海外開始瘋傳 Epoch AI 的副主任 Tamay Besiroglu 的長文，文中表示：他們受到合同限制，無法披露 OpenAI 參與其中，而六名特約數(shù)學(xué)家均透露，他們不知道 OpenAI 將擁有該基準(zhǔn)的獨(dú)家訪問權(quán)，如果他們知道的話，他們不確定是否還會(huì)在其中做出貢獻(xiàn)。

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

驚天大瓜來了！

去年年底OpenAI 推出o3推理，在數(shù)學(xué)、編碼、通用AGI方面都取得了令人的難以置信的類人甚至超人的進(jìn)展。

但就在昨天，大洋彼岸的一眾人工智能專家開始對(duì)“o3”的這些數(shù)據(jù)表示嚴(yán)重的懷疑，甚至將之比作“Theranos”時(shí)刻（一家建立在巨大謊言之上的公司，項(xiàng)目參與人員被迫保密，外界卻被蒙在鼓里）。

因?yàn)槭聦?shí)證明，o3的發(fā)布者 OpenAI 恰恰資助了 FrontierMath ，同時(shí)可以訪問大部分?jǐn)?shù)據(jù)集。

1.愈演愈烈的o3基準(zhǔn)爭議

有關(guān) OpenAI 的 o3 基準(zhǔn)測試爭議已經(jīng)在海外媒體持續(xù)發(fā)酵。

去年11月，Epoch AI 發(fā)布了專門用于評(píng)估大語言模型數(shù)學(xué)能力的精準(zhǔn)測試集FrontierMath ，此前業(yè)界的觀點(diǎn)對(duì)于 o1 的測試表現(xiàn)堪稱“很爛但很擅長找借口”，不過很快 o3 的亮相后，這種刻板印象就來了180度大反轉(zhuǎn) ——

12 月，當(dāng) OpenAI 宣布其新的 o3 系列模型時(shí)，該公司聲稱 o3 在 EpochAI Frontier Math 基準(zhǔn)測試中實(shí)現(xiàn)了令人印象深刻的 25% 準(zhǔn)確率。與此前型號(hào)僅 2% 的高分相比，這是一個(gè)巨大的飛躍。該基準(zhǔn)測試分配 LLM 來解決前所未有的難度的數(shù)學(xué)問題。

然而，這種“巨大的飛躍”，很有可能是一種“虛假繁榮”！

圖片

于是，包括加里·馬庫斯（Gary Marcus）在內(nèi)的一眾人工智能專家都開始質(zhì)疑 OpenAI 的說法的合法性，并將這種情況直接與 Theranos 相提并論。

圖片

主要的信息量，有這么幾個(gè)重點(diǎn)，大家可以先行消化——

（1）為基準(zhǔn)測試創(chuàng)建問題和解決方案的數(shù)學(xué)家們并未被告知 OpenAI 資助了這項(xiàng)工作并有權(quán)訪問它們。

（2）我們不知道 OpenAI 是否在基準(zhǔn)上進(jìn)行過訓(xùn)練o3 ，而且不清楚他們的結(jié)果是否可信

（3）有些數(shù)學(xué)家不信任 OpenAI，出于生存風(fēng)險(xiǎn)的擔(dān)憂，他們不愿意為通用人工智能能力做出貢獻(xiàn)，他們被誤導(dǎo)了：大多數(shù)人沒有懷疑一家前沿人工智能公司為其提供資金。

（4）Epoch AI 表示：“我們的合同明確禁止我們披露有關(guān)資金來源的信息，以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的事實(shí)。”

（5）Epoch AI 與 OpenAI 達(dá)成了一項(xiàng)“口頭協(xié)議”——好像現(xiàn)在還有人相信 OpenAI 的話：“我們承認(rèn) OpenAI 確實(shí)可以訪問 FrontierMath 的大部分問題和解決方案，但 OpenAI 未見過的保留集除外，這使我們能夠獨(dú)立驗(yàn)證模型功能。但是，我們有一個(gè)口頭協(xié)議，這些材料不會(huì)用于模型訓(xùn)練。”

2.構(gòu)建者 Epoch AI 副主任發(fā)長文認(rèn)錯(cuò)，曝猛料：OpenAI可以訪問大部分基準(zhǔn)問題和答案

Besiroglu 說：“我們犯了一個(gè)錯(cuò)誤，沒有對(duì) OpenAI 的參與更加透明”。他透露，在 o3 模型推出之前，該公司被限制披露合作伙伴關(guān)系。

“我們的合同明確禁止我們披露有關(guān)資金來源的信息，以及 OpenAI 可以訪問大部分但不是全部數(shù)據(jù)集的數(shù)據(jù)這一事實(shí)。我們承認(rèn)這個(gè)錯(cuò)誤，并致力于在未來做得更好，“他補(bǔ)充道。

Besiroglu 還承認(rèn)，OpenAI 可以訪問大部分 FrontierMath 問題和解決方案。然而，“OpenAI 未見的維持集”有助于驗(yàn)證模型的能力。

料很猛，這里將長圖中的內(nèi)容整理如下：

圖片1：

圖片

FrontierMath 由 OpenAI 資助。關(guān)于此事的溝通一直不夠透明，許多人，包括在這個(gè)數(shù)據(jù)集上工作的承包商，都沒有意識(shí)到這種聯(lián)系。在12月20日（OpenAI 宣布 o3 的那一天）之前，沒有公開溝通關(guān)于 OpenAI 資助這個(gè)基準(zhǔn)測試的信息。之前的 Arxiv 版本 v1-v4 沒有承認(rèn) OpenAI 的支持。這種支持在12月20日公開。

因?yàn)樘岬?OpenAI 貢獻(xiàn)的 Arxiv 版本正好在 o3 公告之后發(fā)布，我猜 Epoch AI 可能與 OpenAI 達(dá)成了某種協(xié)議，直到那時(shí)才公開提及此事。為 FrontierMath 創(chuàng)建問題的數(shù)學(xué)家并沒有（積極地）被告知 OpenAI 的資助情況。

承包商被指示要對(duì)練習(xí)題及其解決方案保密，包括不使用 Overleaf 或 Colab 或通過電子郵件討論問題，并簽署保密協(xié)議，“以確保問題保持機(jī)密”并避免泄露。承包商也沒有在12月20日被告知 OpenAI 的資助情況。我相信有些論文的署名作者并不知道 OpenAI 的資助情況。我認(rèn)為大多數(shù)人，包括大多數(shù)承包商的印象是，“這個(gè)基準(zhǔn)測試的問題和答案將完全保密，并且只會(huì)由 Epoch 運(yùn)行。除非公司從 API 日志中提取問題（這似乎不太可能），否則這不應(yīng)該是個(gè)問題。”現(xiàn)在 Epoch AI 或 OpenAI 并沒有公開表示 OpenAI 可以訪問練習(xí)題或答案或解決方案。我間接聽說 OpenAI 確實(shí)可以訪問練習(xí)題和答案，并且他們用它們進(jìn)行驗(yàn)證。我不知道 Epoch AI 和 OpenAI 之間是否有協(xié)議禁止他們使用這個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練，并且我有一些證據(jù)反對(duì)這種協(xié)議的存在。在我看來，Epoch AI 應(yīng)該披露 OpenAI 的資助情況，承包商在選擇是否參與基準(zhǔn)測試時(shí)，應(yīng)該有關(guān)于他們的工作可能被用于能力的透明信息。

圖片2：

圖片

來自 Epoch AI 的 Tamay 表示：

我們?cè)?OpenAI 的參與方面沒有更加透明，這是一個(gè)錯(cuò)誤。我們被限制在 o3 發(fā)布前后披露合作關(guān)系，事后看來，我們應(yīng)該更努力地爭取盡快向基準(zhǔn)測試貢獻(xiàn)者透明化。我們的合同明確禁止我們披露資金來源以及 OpenAI 對(duì)大部分但不是全部數(shù)據(jù)集的訪問權(quán)限。我們承認(rèn)這個(gè)錯(cuò)誤，并承諾在未來做得更好。

對(duì)于未來的合作，我們將努力在可能的情況下提高透明度，確保貢獻(xiàn)者從一開始就更清楚地了解資金來源、數(shù)據(jù)訪問和使用目的。雖然我們確實(shí)向一些數(shù)學(xué)家傳達(dá)了我們獲得了實(shí)驗(yàn)室資助，但我們沒有系統(tǒng)地這樣做，也沒有提到我們合作的實(shí)驗(yàn)室。這種不一致的溝通是一個(gè)錯(cuò)誤。我們應(yīng)該從一開始就更努力地爭取這種合作關(guān)系的透明度，特別是與創(chuàng)建問題的數(shù)學(xué)家。

僅在 o3 發(fā)布時(shí)獲得披露 OpenAI 參與的許可是不夠的。我們的數(shù)學(xué)家應(yīng)該知道誰可能訪問他們的工作。盡管我們?cè)诤贤鲜艿较拗疲覀儽緫?yīng)該將與貢獻(xiàn)者的透明度作為與 OpenAI 協(xié)議中不可談判的一部分。

關(guān)于訓(xùn)練使用：我們承認(rèn) OpenAI 確實(shí)可以訪問 FrontierMath 的大部分問題和解決方案，除了一個(gè)未被 OpenAI 看到的保留集，這使我們能夠獨(dú)立驗(yàn)證模型能力。然而，我們有一個(gè)口頭協(xié)議，這些材料將不會(huì)被用于模型訓(xùn)練。

相關(guān) OpenAI 員工的公開溝通將 FrontierMath 描述為一個(gè)“嚴(yán)格保留的”評(píng)估集。雖然這種公開定位與我們的...

3.建立在謊言之上的項(xiàng)目

OpenAI 首席執(zhí)行官Sam 素有“營銷大師”的稱謂，但營銷和謊言還是有著本質(zhì)的區(qū)別。

有的網(wǎng)友更是將此次o3基準(zhǔn)性能爭議擴(kuò)大到了Sam治下OpenAI的“前科黑歷史”，稱：從欺騙自己的董事會(huì)到前雇員必須簽署不詆毀協(xié)議，OpenAI的確有誤導(dǎo)行為的歷史，這不奇怪。

圖片

很多人并不清楚 Theranos 這個(gè)案例。這里為大家簡單介紹下。

2014 年，被當(dāng)時(shí)硅谷101位CEO、投資人看好的血液檢測初創(chuàng)公司 Theranos （僅次于馬斯克的特斯拉）一路高歌猛進(jìn)，推銷一項(xiàng)據(jù)稱具有革命性的技術(shù)。彼時(shí)現(xiàn)有技術(shù)需要為每項(xiàng)診斷測試提供一瓶血液，而 Theranos 卻聲稱只需一次采血，就能夠進(jìn)行數(shù)百次測試（據(jù)說超過 240 次），從膽固醇水平到復(fù)雜的基因分析。自動(dòng)化、快速且廉價(jià)，Theranos 似乎正在提供可以徹底改變醫(yī)學(xué)并挽救全世界生命的技術(shù)。

Theranos 的創(chuàng)始人兼首席執(zhí)行官伊麗莎白·霍姆斯（Elizabeth Holmes）用她的學(xué)費(fèi)從斯坦福大學(xué)輟學(xué)創(chuàng)立了這家公司，當(dāng)時(shí) Theranos 正處于巔峰時(shí)期，她只有 30 歲。從 Larry Ellison 和 Tim Draper 等人那里籌集了超過 $7億的投資，該公司已成為硅谷的后起之秀，估值超過 $90 億，而 Holmes 的份額超過一半，被譽(yù)為女性史蒂夫喬布斯。

唯一的問題是什么？這項(xiàng)技術(shù)沒有奏效。

2015 年，兩次獲得普利策獎(jiǎng)的《華爾街日?qǐng)?bào)》記者約翰·卡雷魯（John Carreyrou）首次爆料了這個(gè)故事。在收到對(duì) Theranos 技術(shù)性能的懷疑后，John 的興趣進(jìn)一步被 Holmes 在斯坦福大學(xué)上了兩個(gè)學(xué)期的化學(xué)工程課程后據(jù)稱有能力發(fā)明開創(chuàng)性的醫(yī)療技術(shù)而進(jìn)一步激發(fā)了他的興趣。

盡管受到恐嚇和法律訴訟的威脅，Theranos 的前員工 Erika Cheung 和 Tyler Schultz（他們的祖父 George Schultz 是 Theranos 董事會(huì)成員）開始與 John 分享他們對(duì)公司、技術(shù)和實(shí)踐的經(jīng)驗(yàn)。他們向董事會(huì)成員揭露了謊言，揭露了恐嚇和保密的文化，一再未能通過質(zhì)量保證的技術(shù)，以及至關(guān)重要的是，發(fā)送給真實(shí)患者的結(jié)果從根本上是錯(cuò)誤的，據(jù)此做出了改變生活的醫(yī)療決定。

看起來，這家公司只不過是建立在大膽的謊言之上的。這場“騙局”最終在2015年的揭露之下，走下神壇：這家公司及其CEO都長期陷于美國政府機(jī)構(gòu)源源不斷的調(diào)查和各類訴訟中，一地雞毛。

圖片

不過，有網(wǎng)友認(rèn)為將 OpenAI 比作 Theranos，有點(diǎn)太過了，畢竟Theranos是未能交付（成果）。但好歹 OpenAI 有一個(gè)產(chǎn)品（即使它不是通用人工智能（AGI），它的護(hù)城河可能很淺）。

但不誠實(shí)的印象已經(jīng)在人們心中養(yǎng)成——

“我認(rèn)為 Sam Altman 不會(huì)被起訴，因?yàn)樵谲浖I(lǐng)域沒有相當(dāng)于食品和藥物管理局（FDA）和醫(yī)療保險(xiǎn)與醫(yī)療補(bǔ)助服務(wù)中心（CMS）的機(jī)構(gòu)，但 Sam Altman和Elizabeth Holmes 都是騙子和欺詐藝術(shù)家。這一點(diǎn)在我心中毫無疑問。”

4.重申：大模型真的會(huì)數(shù)學(xué)推理嗎？

長期以來，關(guān)于基準(zhǔn)測試的有效性一直存在一些爭論。在Apple發(fā)表的一篇研究論文中，盡管 LLM 在基準(zhǔn)測試中表現(xiàn)出色，但它們并不真正擅長數(shù)學(xué)推理，它們的輸出來自模式識(shí)別和從訓(xùn)練數(shù)據(jù)中復(fù)制步驟。

甚至 OpenAI 也提到他們不想在 MATH 和 GSM8K 上對(duì) o1 進(jìn)行基準(zhǔn)測試，因?yàn)樵u(píng)估方法相當(dāng)過時(shí)，而且大多數(shù) LLM 很容易輸出高分。

OpenAI 在一篇博文中說：“最近的前沿模型在 MATH2 和 GSM8K 上表現(xiàn)得非常好，以至于這些基準(zhǔn)測試在區(qū)分模型方面不再有效。

鑒于這些擔(dān)憂，F(xiàn)rontierMath 分配了 LLM 來解決前所未有的難度的數(shù)學(xué)問題。根據(jù) Epoch AI 的說法，這些問題需要人類科學(xué)家和數(shù)學(xué)家花費(fèi)數(shù)小時(shí)的工作。

Epoch AI 發(fā)布 FrontierMath，本意上是為了做一個(gè)更為靠譜的評(píng)估大型語言模型數(shù)學(xué)能力的新基準(zhǔn)測試。盡管基準(zhǔn)測試的問題比以往任何時(shí)候都更難解決，但無疑能揭露出LLM 的真實(shí)的數(shù)學(xué)水準(zhǔn)。

然而，遺憾的是，OpenAI參與其中的不透明性再次讓這次新基準(zhǔn)的數(shù)學(xué)家們大跌眼鏡：獨(dú)家訪問這項(xiàng)測試集+各種保密，還有什么測試意義呢？

想了解更多AIGC的內(nèi)容，請(qǐng)?jiān)L問：

51CTO AI.x社區(qū)

http://m.ekrvqnd.cn/aigc/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧