GPT-4o攻破ARC-AGI無法被挑戰(zhàn)的神話！71%準(zhǔn)確率成新SOTA

作者：新智元 2024-06-20 10:43:15

人工智能新聞

號稱不可能輕易被擊敗的AGI基準(zhǔn)ARC-AGI被GPT-4o撼動(dòng)，GPT-4o以在公共測試集50%、在訓(xùn)練集71%的準(zhǔn)確率成為了新的SOTA！

ARC-AGI是唯一可以用來衡量通用人工智能進(jìn)展的基準(zhǔn)，創(chuàng)造者Fran?ois Chollets曾經(jīng)擲下豪言——

「它不可能輕易被擊??！」

為了測試這一點(diǎn)，他于2020年在 Kaggle（Google LLC旗下的數(shù)據(jù)科學(xué)競賽平臺(tái)）上主辦了首屆ARC-AGI競賽。

獲勝團(tuán)隊(duì)icecuber在測試集上僅取得了21%的成功率，這個(gè)成績強(qiáng)有力地證明了Fran?ois的斷言是正確的。

此后幾年，來自世界各地的挑戰(zhàn)者不斷刷新這個(gè)紀(jì)錄，但進(jìn)展緩慢。ARC-AGI似乎成為了一座不可跨越的高山。

可是這周二，ARC-AGI基準(zhǔn)無法被挑戰(zhàn)的神話被GPT-4o撼動(dòng)了！GPT-4o以在公共測試集50%、在訓(xùn)練集的保留子集71%的準(zhǔn)確率成為了新的SOTA！

ARC-AGI上周被大肆宣傳為LLM無法解決的基準(zhǔn)。這個(gè)說法激發(fā)了我親愛的同事Ryan Greenblatt的斗志，因此他上周試圖用 LLMs 來解決這個(gè)問題。Ryan在一組示例中獲得了 71% 的準(zhǔn)確率，而人類的準(zhǔn)確率為 85%；這（GPT-4o）是SOTA。

這個(gè)消息也迅速登上了HN熱搜榜。

值得一提的是，今年Mike Knoop、Fran?ois和Lab42聯(lián)手創(chuàng)建了2024年ARC獎(jiǎng)，獎(jiǎng)金池超過110萬美元。

為了完成這個(gè)挑戰(zhàn)，Ryan放棄了一個(gè)星期的項(xiàng)目，設(shè)計(jì)了很多花哨的技巧，爭取了高性能：

訓(xùn)練集：71% vs. 人類基線 85%

測試集：51% vs. 之前的 SOTA 34%（人類基線未知）

但遺憾的是，此提交不符合 ARC-AGI 獎(jiǎng)項(xiàng)和主要排行榜的資格，因?yàn)樗褂瞄]源模型和過多的運(yùn)行時(shí)計(jì)算。

可能Ryan會(huì)提交到私人排行榜中吧。

什么是ARC-AGI？

ARC-AGI的數(shù)據(jù)集由視覺問題組成，輸入輸出示例是由彩色單元格組成的網(wǎng)格，任務(wù)是猜測從輸入到輸出的轉(zhuǎn)換規(guī)律，然后補(bǔ)全缺失的網(wǎng)格。

看起來很簡單對吧，就像是小學(xué)的奧數(shù)題，讓GPT-4o來解決也并不困難。

不過，公共測試集中的任務(wù)要難得多，對于人類來說，也會(huì)有些棘手，但并非不可解決。

每一項(xiàng)ARC-AGI任務(wù)都是經(jīng)過人工驗(yàn)證的，包括公共測試集，確保ARC-AGI的所有任務(wù)都可以由人類解決。

畢竟這是一個(gè)通用人工智能基準(zhǔn)，如果連人類自己都難倒了，那拿去測試LLM也說不過去。

據(jù)報(bào)道，亞馬遜土耳其機(jī)器人( Amazon Mechanical Turk，MTurk) 訓(xùn)練分布的人類基線是85%，但沒有針對公開測試集的人類基線，不過我們已知的是，公開測試集更難，那么針對公開測試集的人類基線應(yīng)該會(huì)更低。

Ryan給出了測試集中的一些代表性的問題，以及他基于GPT-4o的解決方案是否回答正確。

問題1：

問題2：

問題3：

從Ryan給出的這3個(gè)例子中可以看出，GPT-4o答對了三分之一。（跟小編的勝率一樣，前2個(gè)圖密密麻麻，沒看出個(gè)所以然來…）

怎么讓GPT-4o做到的

Ryan的解決方案的主要思路非常簡單：讓GPT-4o生成約8000個(gè)嘗試實(shí)現(xiàn)轉(zhuǎn)換的python程序，選擇一個(gè)在所有示例（通常有 3 個(gè)示例）中都正確的程序，然后提交該函數(shù)應(yīng)用于額外測試輸入時(shí)產(chǎn)生的輸出。

Ryan以圖像和各種ASCII表示形式向GPT-4o展示了該問題。

這種方法在本質(zhì)上與AlphaCode中應(yīng)用的方法類似，在AlphaCode中，一個(gè)模型會(huì)生成數(shù)百萬個(gè)試圖解決編程問題的完成項(xiàng)，然后對這些完成項(xiàng)進(jìn)行匯總，以確定要提交的內(nèi)容。

從更高層次上來解釋，Ryan使用的方法是：

向GPT-4o介紹ARC-AGI 的問題，并為問題中的每個(gè)網(wǎng)格提供圖像表示法和各種文本表示法。
指導(dǎo)GPT-4o推理背后的規(guī)律，進(jìn)一步推理如何用代碼實(shí)現(xiàn)轉(zhuǎn)換，最后用代碼實(shí)現(xiàn)。
使用幾次提示以及幾個(gè)精心手寫的分步推理示例來實(shí)際讓GPT-4o有效地進(jìn)行此推理。生成的提示通常長度約為30k個(gè)token（包括圖像）。
從GPT-4o中抽取大量的完成樣本（每個(gè)問題約5000個(gè)）。
針對每個(gè)問題選取最有希望的12個(gè)補(bǔ)全，然后通過向GPT-4o展示該程序在示例中的實(shí)際輸出，并要求GPT-4o修改代碼使其正確，從而嘗試修復(fù)每個(gè)補(bǔ)全。
然后，根據(jù)對正確示例程序的多數(shù)投票結(jié)果，選出3個(gè)提交程序。

概括來說，Ryan通過足夠長的、精雕細(xì)琢的少樣本提示，生成許多可能的Python程序，從大約5k個(gè)猜測中，使用示例選出最佳猜測，然后進(jìn)行調(diào)試。

除了對訓(xùn)練集進(jìn)行迭代外，Ryan還對公共測試集的100個(gè)問題子集進(jìn)行了少量迭代。

在這里介紹的所有結(jié)果都是在不重疊的公共測試集的另一個(gè)子集上計(jì)算得出的。

訓(xùn)練集和測試集不是獨(dú)立的，而且測試集的難度更大，因此使用測試集的子集進(jìn)行迭代有助于快速更好地了解問題隨難度的變化。

不幸的是，這些測試集不是獨(dú)立同分布（Independent Identically Distribution，IID）：這使得迭代變得更加困難和混亂。

關(guān)于方法的更多細(xì)節(jié)，以及完整的解決方案，可以參閱項(xiàng)目的GitHub：

https://github.com/rgreenblatt/arc_draw_more_samples_pub

采樣每增加一倍，精度提高3%

如果有更多的采樣，性能會(huì)有所提高嗎？

答案是會(huì)的！

縮放Python采樣數(shù)量可以可靠地提高性能，每增加一倍，精度提高3%。

而且這距離AlphaCode使用的數(shù)百萬個(gè)樣本還很遠(yuǎn)！

GPT-4o存在的非推理弱點(diǎn)

GPT-4o看不清楚。GPT-4o在網(wǎng)格上的視力很糟糕，當(dāng)被要求描述一個(gè)較大的網(wǎng)格中的內(nèi)容時(shí)，它通常無法正確「看清」輸入，并陳述有關(guān)某些位置的顏色或存在的形狀的錯(cuò)誤事實(shí)。
GPT-4o不太擅長編碼（特別是對于此類幾何操作問題），并且經(jīng)常犯一些簡單的錯(cuò)誤，例如差一錯(cuò)誤（Off-by-one error，OBOE）。
當(dāng)上下文中的token超過32k時(shí)，其性能會(huì)下降。

消除這些非推理弱點(diǎn)將顯著提高解決方案的性能，而這些問題似乎很可能通過規(guī)?；╯calling）來解決。

距離ARC-AGI大獎(jiǎng)還有多遠(yuǎn)？

如何才能達(dá)到ARC-AGI所設(shè)定的85%的大獎(jiǎng)目標(biāo)呢？

Ryan做出了非常「數(shù)據(jù)化」的預(yù)測。

70% 的可能性：一個(gè)由3名頂尖ML工程師組成的團(tuán)隊(duì)，通過微調(diào)GPT-4o（包括 SFT 和 RL）、1000萬美元的計(jì)算量和1年的時(shí)間，可以使用 GPT-4o 超越MTurk 85%的人類基線（簡單訓(xùn)練集）。

35% 概率：在上述同等條件下，公共測試集上的概率也可達(dá)85%。目前還不清楚哪些人在測試集上的表現(xiàn) >=85%，盡管這對于聰明的人來說可能并不難。

80% 的概率：下一代多模態(tài)大模型（例如 GPT-5）將能夠大幅提高 ARC-AGI 的性能。

LLM有學(xué)習(xí)能力嗎

Ryan引用了Fran?ois Chollets的一段話——

如果你是對的（LLMs可以進(jìn)行情境學(xué)習(xí)），那么，LLMs在ARC謎題上會(huì)表現(xiàn)得很好，因?yàn)?ARC 謎題并不復(fù)雜。你不需要認(rèn)真思考它，它們實(shí)際上對人類來說非常明顯。
即使是孩子也可以做到，但LLMs不能。即使 LLMs 的知識(shí)比你多100,000倍，仍然做不到。ARC唯一的特殊之處在于它的設(shè)計(jì)初衷就是為了抵制記憶。這是 LLM性能的巨大障礙。
如果仔細(xì)觀察LLMs，很明顯他們并沒有真正即時(shí)合成新程序來解決他們面臨的任務(wù)。

Ryan則認(rèn)為，LLMs在進(jìn)行上下文學(xué)習(xí)時(shí)實(shí)際上做了一些相關(guān)的「學(xué)習(xí)」。

盡管整體性能非常弱，遠(yuǎn)遠(yuǎn)不如人類（否則他就不需要在他的解決方案中抽取數(shù)千個(gè)樣本），但這仍然是一種學(xué)習(xí)。

「我的觀點(diǎn)并不是說GPT-4o相對于人類來說是聰明的，但我確實(shí)認(rèn)為它是具有『智能』的。」

責(zé)任編輯：張燕妮來源：新智元