成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Ilya宣判后GPT-5被曝屢訓屢敗,一次訓數月,數據要人工從頭構建

人工智能 新聞
OpenAI連續12場發布會剛剛結束,大家最想看的GPT-5/4.5影子都沒有,于是華爾街日報這邊爆料了。

GPT-5被曝效果遠不達預期。

OpenAI連續12場發布會剛剛結束,大家最想看的GPT-5/4.5影子都沒有,于是華爾街日報這邊爆料了。

  • GPT-5已至少完成2輪訓練,每次長達數月,但是每次訓練后都遇到新問題。
  • OpenAI正在專門雇人寫代碼、做數學題為GPT-5從頭創建數據,o1合成數據也用,但效率不夠高,想要滿足GPT-5的預訓練需求有難度。

圖片

按照市場估算,一次長達6個月的訓練僅計算就需要花費5億美金。GPT-5兩次訓練進展都不順,背后的成本想必也是個天文數字。

Ilya前不久在NeurIPS 2024上宣判的預訓練即將終結,似乎再次得到論證……

這也和The Information此前爆料相呼應,隨著GPT系列進化速度放緩,OpenAI正在嘗試調整戰略,比如o1、o3系列的推出。

目前,OpenAI對最新爆料尚無回應。

但GPT-5究竟是OpenAI藏著不發,還是不能發?答案更確定了一點。

巨量數據算力堆不好GPT-5的預訓練

在華爾街日報的爆料中,OpenAI對于GPT-5的預期很高。

它能夠進行科學探索發現,并完成例行的人類任務,比如預約、訂航班。而且希望它能夠犯更少的錯誤,或者能夠承認錯誤存在,也就是減少幻覺。

這與更早透露出的信息相呼應。OpenAI前CTO Mira曾形象地將GPT-5的智能水平比作博士生

這意味著GPT-5能夠在某些特定領域取得高水平成績,能像研究生、博士那樣可以深刻理解、推理,并具備專業知識。對比來看,GPT-3是蹣跚學步的孩子,GPT-4是高中生。

今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認為是因為相信GPT-5將能完成重大飛躍。

但是GPT-5的發布一直懸而未決。

奧特曼之前表示,GPT-5不會有明確的發布時間,等什么時候準備好了,就什么時候發。這個時間可能是2025,也可能是2026。

如今回溯來看,GPT-5的推出一直都坎坷不斷。

在2023年,OpenAI被曝光放棄了一個代號為Arrakis的模型。放棄原因是該模型不能實現在保持性能的同時減少對計算資源的需求,沒有達到預期的訓練效率。

這其實反向證明,如果想要訓練規模更大規模的模型,還是需要更龐大的計算資源、更長的時間。

從設定來看,GPT-5顯然會是個“巨無霸”。

GPT-5的開發啟動于GPT-4發布時。至今已經超過18個月了。

它在內部的代號是獵戶座Orion。按照原本計劃,微軟是想在2024年年中看到GPT-5的。

華爾街日報披露,GPT-5的大規模訓練至少進行了2輪。每次都需要幾個月,每次也都遇到了新問題。

最好的情況下,Orion比OpenAI目前的產品表現都要好。但與所消耗的成本相比,這種提升并不明顯。

據估測,一次為期6個月的訓練僅算力成本就要消耗5億美元。對比來看,GPT-4的訓練成本超1億美元。

另一方面,想要更好的模型,就需要更多的數據

公共資源的數據消耗殆盡,OpenAI決定雇人從頭構建數據。據爆料,它專門找了一些軟件工程師、數學家來寫代碼、解數學題,供GPT-5學習。

一直以來,AI圈內都認為模型學習代碼可以提升它解決其他問題的能力。

同時OpenAI也和一些物理學家合作,讓GPT-5學習科學家如何理解領域內的問題。

但問題就是,這樣太慢了。

AI合成數據的路子OpenAI也走。據說GPT-5就使用了o1合成的數據。

這種范式可能已經可以被論證。

隔壁Anthropic也被爆料使用AI合成數據訓練模型。他們的做法是把最好用的模型內部自留合成數據,因為模型性能與合成數據質量直接成正比。

圖片

以上,大概就是GPT-5最新相關信息。

不過話說回來,最近誰還在乎GPT-5呢(手動狗頭)?

圖片

畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。

剛剛發布的o3在ARC-AGI上刷新成績。最新結果報告顯示,在400項公共任務上,o3的最好成績已經達到91.5%。

在核心機制上,o3也給出新啟發。它通過LLM在token空間內搜索和執行,實現了在測試時內的知識重組。

隨著o3系列發布,AGI的預言依舊很有吸引力。

o3屠榜ARC-AGI測試,離AGI還有多遠?

簡單介紹一下ARC-AGI數據集,題目帶有色塊的網格陣列(以文本形式表述,用數字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據規律填充新的空白網格。

圖片

這幾個示例比較簡單,但實際面臨的問題可能是這樣的:

圖片

ARC-AGI測試集一共包含400道公開試題和100個私有問題。

在公開問題中,o3高效率版的準確率為82.8%,消耗了1.11億Token,平均每個任務成本為17美元。

低效率版本(計算量是高效版的172倍),準確率高達91.5%,不過消耗的Token數也達到了驚人的95億。

圖片

另外OpenAI還做了一個專門針對ARC-AGI的版本,使用了75%的公開數據集進行了訓練。

這個版本拿到私有測試集上測試,結果地計算量模式取得了76%的準確率,高計算量模式則為88%。

并且,低計算量版本的成本在ARC-AGI-Pub的規則范圍內(<$10k),成為了公共排行榜上的第一名。

88%的高計算量版本則過于昂貴,但仍然表明新任務的性能確實隨著計算量的增加而提高。

在此之前,GPT-3的準確率是零,GPT-4o為5%,o1最好也剛剛超過30%。

圖片

ARC挑戰的發起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認為,o3能夠適應以前從未遇到過的任務,可以說在ARC-AGI領域接近人類水平。

當然成本也十分昂貴,即使是低計算量模式,每個任務也需要17-20美元,而發起方雇傭真人解決此類問題的成本,平均到每個問題只有5美元。

但拋開成本問題,Chollet指出,o3對GPT系列的改進證明了架構的重要性,認為無法在GPT-4上通過投入更多計算來獲得這樣的成績。

所以,通過ARC-AGI測試,意味著o3實現AGI了嗎?Chollet認為并不是。

通過測試發現,o3在一些非常簡單的任務上仍然失敗,這表明其與人類智能存在根本差異。

另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測試表明其將對o3構成重大挑戰,即使在高計算量模式下,其得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。

但無論是否達到AGI,o3能夠實現的成績都是前所未有的,甚至有人認為,針對ARC這樣的任務而言,人類的優勢其實是在于視覺推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會比AI好。

圖片

并且,針對o3“沒能成功”的一個案例,還有人質疑是標準答案錯了。

這道題當中,變化規律是將處于同一行或列的兩個藍色格子連成線,并把穿過的紅色區域整塊涂藍。

圖片

這道題的“標準答案”和o3的嘗試,區別就是綠色框中的部分是否被涂成藍色:

在三個示例當中,由紅變藍的部分都是被連線從中間穿過,但在這道題中連線是從這個3×4的紅色區域下方經過,o3因此認為不該把這塊區域涂藍。

圖片

那么,o3又是怎么實現的呢?

有人認為是通過提示詞,但ARC挑戰負責人Greg Kamradt和OpenAI的研究人員Brandon McKinzie均否認了這一說法,表示給o3的提示詞非常簡單。

圖片

另外Chollet推測,o3的核心機制似乎是在Token空間內搜索和執行自然語言程序——在某種評估器模型引導下,搜索可能的描述解決任務所需的步驟的思維鏈空間。

按照Chollet的觀點,o3實現了在測試時的知識重組,總之,o3構建出了一種通向AGI的新的范式。

英偉達AI科學家范麟熙(Jim Fan)認為,o3的本質是“放松單點RL超級智能,以覆蓋有用問題空間中的更多點”。

也就是用深度換取廣度,放松對于個別任務的強化學習,換得在更多任務上的通用性。

范麟熙舉例說,像AlphaGo、波士頓動力電子地圖集都是超級人工智能,在特定的任務上表現非常出色。

但o3不再是像這樣只能應付單點任務的專家,而是一個在更大的有用任務集都表現優異的專家。

不過范麟熙也表示,o3仍然無法涵蓋人類認知的所有分布,我們仍然處于莫拉維克悖論之中。

(莫拉維克悖論認為,人類所獨有的高階智慧能力只需要非常少的計算能力(例如推理),但是無意識的技能和直覺卻需要極大的運算能力。)

ARC挑戰發起方的發現——o3在一些非常簡單的任務上失敗,似乎剛好印證了這一觀點。

最后,關于AGI,范麟熙表示,我們已經實現了巨大的里程碑,并且有清晰的路線圖,但還有更多事情要做。

圖片

One More Thing

作為12天發布的一部分,OpenAI在最后一天發布o3的同時,也發了一篇關于安全問題的論文。

圖片

論文引入了一種名為慎重對齊(deliberative alignment)的對齊方式,直接向推理模型傳授人工編寫、可解釋的安全規范,并訓練他們在回答之前對這些規范進行明確的推理。

圖片

結果,訓練出的模型不需要人工標記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。

OpenAI發現,o1在一系列內部和外部安全基準方面顯著優于GPT-4o等其他最先進模型 ,并且在許多具有挑戰性的(安全)數據集上的性能達到飽和。

這一發現,揭示了推理將成為提高模型安全性的一條新途徑。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-04-09 09:38:16

OpenAI模型

2025-01-20 07:30:00

OpenAIGPT-5模型

2024-12-24 14:30:00

模型AI訓練

2018-01-29 23:13:47

大數據戰略數據分析

2025-01-07 13:44:48

2024-01-18 12:30:03

2023-11-07 16:10:18

OpenAIGPTAI

2021-04-20 17:00:57

人工智能技術人臉識別

2025-06-19 09:06:00

2023-06-16 13:02:22

GPT-5GPT-4AI

2023-07-21 14:47:24

AI訓練

2024-01-09 12:53:16

模型訓練

2024-05-29 13:11:00

2023-09-19 12:45:36

2024-01-22 13:57:00

模型訓練

2024-03-20 12:43:57

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2024-11-11 13:52:31

2025-05-13 09:02:23

2022-10-28 09:48:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品一区二区av | 一区二区三区亚洲 | 久久一区精品 | 中文字幕精 | 成人在线视频免费看 | 毛片99 | av资源中文在线天堂 | 97精品超碰一区二区三区 | av黄色在线观看 | a级片在线| 少妇特黄a一区二区三区88av | 精品国产伦一区二区三区观看说明 | 免费久久网 | 欧美亚洲日本 | www.av7788.com| 噜久寡妇噜噜久久寡妇 | 91欧美激情一区二区三区成人 | 羞羞视频在线观看 | 国产成人99 | 欧美激情欧美激情在线五月 | 久久国产精品偷 | 一区二区三区av夏目彩春 | 欧美极品在线观看 | 成人在线播放 | 国产欧美一区二区久久性色99 | 999免费观看视频 | 在线视频一区二区三区 | 久久久九九 | 日韩精品免费在线观看 | 99久久精品国产麻豆演员表 | 狠狠干天天干 | 欧美成人在线网站 | 日韩av在线中文字幕 | 国产精品美女久久久久久免费 | 中文字幕亚洲一区二区va在线 | 99热在线播放 | 国产精品一区二区三区在线 | 成人午夜网 | 91在线免费视频 | 国产成人午夜精品影院游乐网 | 国产午夜精品久久久久免费视高清 |