成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話!71%準(zhǔn)確率成新SOTA

人工智能 新聞
號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動(dòng),GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA!

ARC-AGI是唯一可以用來衡量通用人工智能進(jìn)展的基準(zhǔn),創(chuàng)造者Fran?ois Chollets曾經(jīng)擲下豪言——

「它不可能輕易被擊??!」

為了測試這一點(diǎn),他于2020年在 Kaggle(Google LLC旗下的數(shù)據(jù)科學(xué)競賽平臺(tái))上主辦了首屆ARC-AGI競賽。

獲勝團(tuán)隊(duì)icecuber在測試集上僅取得了21%的成功率,這個(gè)成績強(qiáng)有力地證明了Fran?ois的斷言是正確的。

此后幾年,來自世界各地的挑戰(zhàn)者不斷刷新這個(gè)紀(jì)錄,但進(jìn)展緩慢。ARC-AGI似乎成為了一座不可跨越的高山。

可是這周二,ARC-AGI基準(zhǔn)無法被挑戰(zhàn)的神話被GPT-4o撼動(dòng)了!GPT-4o以在公共測試集50%、在訓(xùn)練集的保留子集71%的準(zhǔn)確率成為了新的SOTA!

圖片

ARC-AGI上周被大肆宣傳為LLM無法解決的基準(zhǔn)。這個(gè)說法激發(fā)了我親愛的同事Ryan Greenblatt的斗志,因此他上周試圖用 LLMs 來解決這個(gè)問題。Ryan在一組示例中獲得了 71% 的準(zhǔn)確率,而人類的準(zhǔn)確率為 85%;這(GPT-4o)是SOTA。

圖片

這個(gè)消息也迅速登上了HN熱搜榜。

圖片

值得一提的是,今年Mike Knoop、Fran?ois和Lab42聯(lián)手創(chuàng)建了2024年ARC獎(jiǎng),獎(jiǎng)金池超過110萬美元。

為了完成這個(gè)挑戰(zhàn),Ryan放棄了一個(gè)星期的項(xiàng)目,設(shè)計(jì)了很多花哨的技巧,爭取了高性能:

訓(xùn)練集:71% vs. 人類基線 85%

測試集:51% vs. 之前的 SOTA 34%(人類基線未知)

但遺憾的是,此提交不符合 ARC-AGI 獎(jiǎng)項(xiàng)和主要排行榜的資格,因?yàn)樗褂瞄]源模型和過多的運(yùn)行時(shí)計(jì)算。

可能Ryan會(huì)提交到私人排行榜中吧。

圖片

什么是ARC-AGI?

ARC-AGI的數(shù)據(jù)集由視覺問題組成,輸入輸出示例是由彩色單元格組成的網(wǎng)格,任務(wù)是猜測從輸入到輸出的轉(zhuǎn)換規(guī)律,然后補(bǔ)全缺失的網(wǎng)格。

圖片

看起來很簡單對吧,就像是小學(xué)的奧數(shù)題,讓GPT-4o來解決也并不困難。

不過,公共測試集中的任務(wù)要難得多,對于人類來說,也會(huì)有些棘手,但并非不可解決。

每一項(xiàng)ARC-AGI任務(wù)都是經(jīng)過人工驗(yàn)證的,包括公共測試集,確保ARC-AGI的所有任務(wù)都可以由人類解決。

畢竟這是一個(gè)通用人工智能基準(zhǔn),如果連人類自己都難倒了,那拿去測試LLM也說不過去。

據(jù)報(bào)道,亞馬遜土耳其機(jī)器人( Amazon Mechanical Turk,MTurk) 訓(xùn)練分布的人類基線是85%,但沒有針對公開測試集的人類基線,不過我們已知的是,公開測試集更難,那么針對公開測試集的人類基線應(yīng)該會(huì)更低。

Ryan給出了測試集中的一些代表性的問題,以及他基于GPT-4o的解決方案是否回答正確。

問題1:

圖片

問題2:

圖片

問題3:

圖片

從Ryan給出的這3個(gè)例子中可以看出,GPT-4o答對了三分之一。(跟小編的勝率一樣,前2個(gè)圖密密麻麻,沒看出個(gè)所以然來…)

怎么讓GPT-4o做到的

Ryan的解決方案的主要思路非常簡單:讓GPT-4o生成約8000個(gè)嘗試實(shí)現(xiàn)轉(zhuǎn)換的python程序,選擇一個(gè)在所有示例(通常有 3 個(gè)示例)中都正確的程序,然后提交該函數(shù)應(yīng)用于額外測試輸入時(shí)產(chǎn)生的輸出。

Ryan以圖像和各種ASCII表示形式向GPT-4o展示了該問題。

這種方法在本質(zhì)上與AlphaCode中應(yīng)用的方法類似,在AlphaCode中,一個(gè)模型會(huì)生成數(shù)百萬個(gè)試圖解決編程問題的完成項(xiàng),然后對這些完成項(xiàng)進(jìn)行匯總,以確定要提交的內(nèi)容。

從更高層次上來解釋,Ryan使用的方法是:

  • 向GPT-4o介紹ARC-AGI 的問題,并為問題中的每個(gè)網(wǎng)格提供圖像表示法和各種文本表示法。
  • 指導(dǎo)GPT-4o推理背后的規(guī)律,進(jìn)一步推理如何用代碼實(shí)現(xiàn)轉(zhuǎn)換,最后用代碼實(shí)現(xiàn)。
  • 使用幾次提示以及幾個(gè)精心手寫的分步推理示例來實(shí)際讓GPT-4o有效地進(jìn)行此推理。生成的提示通常長度約為30k個(gè)token(包括圖像)。
  • 從GPT-4o中抽取大量的完成樣本(每個(gè)問題約5000個(gè))。
  • 針對每個(gè)問題選取最有希望的12個(gè)補(bǔ)全,然后通過向GPT-4o展示該程序在示例中的實(shí)際輸出,并要求GPT-4o修改代碼使其正確,從而嘗試修復(fù)每個(gè)補(bǔ)全。
  • 然后,根據(jù)對正確示例程序的多數(shù)投票結(jié)果,選出3個(gè)提交程序。

概括來說,Ryan通過足夠長的、精雕細(xì)琢的少樣本提示,生成許多可能的Python程序,從大約5k個(gè)猜測中,使用示例選出最佳猜測,然后進(jìn)行調(diào)試。

除了對訓(xùn)練集進(jìn)行迭代外,Ryan還對公共測試集的100個(gè)問題子集進(jìn)行了少量迭代。

在這里介紹的所有結(jié)果都是在不重疊的公共測試集的另一個(gè)子集上計(jì)算得出的。

訓(xùn)練集和測試集不是獨(dú)立的,而且測試集的難度更大,因此使用測試集的子集進(jìn)行迭代有助于快速更好地了解問題隨難度的變化。

不幸的是,這些測試集不是獨(dú)立同分布(Independent Identically Distribution,IID):這使得迭代變得更加困難和混亂。

關(guān)于方法的更多細(xì)節(jié),以及完整的解決方案,可以參閱項(xiàng)目的GitHub:

圖片

https://github.com/rgreenblatt/arc_draw_more_samples_pub

采樣每增加一倍,精度提高3%

如果有更多的采樣,性能會(huì)有所提高嗎?

答案是會(huì)的!

縮放Python采樣數(shù)量可以可靠地提高性能,每增加一倍,精度提高3%。

而且這距離AlphaCode使用的數(shù)百萬個(gè)樣本還很遠(yuǎn)!

圖片

GPT-4o存在的非推理弱點(diǎn)

  • GPT-4o看不清楚。GPT-4o在網(wǎng)格上的視力很糟糕,當(dāng)被要求描述一個(gè)較大的網(wǎng)格中的內(nèi)容時(shí),它通常無法正確「看清」輸入,并陳述有關(guān)某些位置的顏色或存在的形狀的錯(cuò)誤事實(shí)。
  • GPT-4o不太擅長編碼(特別是對于此類幾何操作問題),并且經(jīng)常犯一些簡單的錯(cuò)誤,例如差一錯(cuò)誤(Off-by-one error,OBOE)。
  • 當(dāng)上下文中的token超過32k時(shí),其性能會(huì)下降。

消除這些非推理弱點(diǎn)將顯著提高解決方案的性能,而這些問題似乎很可能通過規(guī)?;╯calling)來解決。

距離ARC-AGI大獎(jiǎng)還有多遠(yuǎn)?

如何才能達(dá)到ARC-AGI所設(shè)定的85%的大獎(jiǎng)目標(biāo)呢?

圖片

Ryan做出了非常「數(shù)據(jù)化」的預(yù)測。

70% 的可能性:一個(gè)由3名頂尖ML工程師組成的團(tuán)隊(duì),通過微調(diào)GPT-4o(包括 SFT 和 RL)、1000萬美元的計(jì)算量和1年的時(shí)間,可以使用 GPT-4o 超越MTurk 85%的人類基線(簡單訓(xùn)練集)。

35% 概率:在上述同等條件下,公共測試集上的概率也可達(dá)85%。目前還不清楚哪些人在測試集上的表現(xiàn) >=85%,盡管這對于聰明的人來說可能并不難。

80% 的概率:下一代多模態(tài)大模型(例如 GPT-5)將能夠大幅提高 ARC-AGI 的性能。

LLM有學(xué)習(xí)能力嗎

Ryan引用了Fran?ois Chollets的一段話——

如果你是對的(LLMs可以進(jìn)行情境學(xué)習(xí)),那么,LLMs在ARC謎題上會(huì)表現(xiàn)得很好,因?yàn)?ARC 謎題并不復(fù)雜。你不需要認(rèn)真思考它,它們實(shí)際上對人類來說非常明顯。

即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知識(shí)比你多100,000倍,仍然做不到。ARC唯一的特殊之處在于它的設(shè)計(jì)初衷就是為了抵制記憶。這是 LLM性能的巨大障礙。

如果仔細(xì)觀察LLMs,很明顯他們并沒有真正即時(shí)合成新程序來解決他們面臨的任務(wù)。

Ryan則認(rèn)為,LLMs在進(jìn)行上下文學(xué)習(xí)時(shí)實(shí)際上做了一些相關(guān)的「學(xué)習(xí)」。

盡管整體性能非常弱,遠(yuǎn)遠(yuǎn)不如人類(否則他就不需要在他的解決方案中抽取數(shù)千個(gè)樣本),但這仍然是一種學(xué)習(xí)。

「我的觀點(diǎn)并不是說GPT-4o相對于人類來說是聰明的,但我確實(shí)認(rèn)為它是具有『智能』的。」

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-06-18 12:54:39

2025-05-26 08:33:00

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2024-08-02 13:14:51

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-05-06 15:32:23

模型AI測試

2024-06-12 11:50:23

2025-03-31 08:44:00

GPT-4o模型技術(shù)

2024-06-05 08:29:35

2024-06-27 12:45:30

2025-04-23 11:19:31

2024-05-21 12:23:17

2024-05-20 08:20:00

OpenAI模型

2024-10-17 13:30:00

2025-03-31 09:27:03

2024-09-23 15:04:16

2023-11-20 21:56:04

AI推理

2024-05-14 11:29:15

2025-04-08 02:26:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久久综合 | 国产欧美在线 | 成人亚洲片| 视频一区二区国产 | 日韩欧美福利视频 | 一级毛片高清 | 午夜免费网站 | 亚洲成人av | 国产精品三级 | 中日字幕大片在线播放 | 自拍偷拍一区二区三区 | 日韩成人免费中文字幕 | 国产成人综合av | 国产一区二区精品在线 | 亚洲资源站 | 久久久久久免费毛片精品 | 精品综合久久 | www.国产| 亚洲综合在线一区 | www.99re5.com | 日韩精品a在线观看图片 | 国产一级特黄视频 | 亚洲精品一区二区在线观看 | 欧美日韩专区 | 狠狠操网站 | 国产精品99一区二区 | 一本色道精品久久一区二区三区 | 91日日| 欧美精品一区二区三区四区 | 91啪亚洲精品 | 久久精品91 | 一区二区三区精品视频 | 欧美激情免费在线 | 在线观看免费福利 | 91 中文字幕 | 婷婷综合网 | 久久免费精品 | 精品国产一区二区在线 | 亚洲欧美在线视频 | 一级全黄视频 | 亚洲电影免费 |