懸賞800萬的超難測試集，被GPT-4o實現新SOTA，準確率已達50%

2024-06-18 12:54:39

人工智能

在已公布的60萬美元中，有50萬美元（約360萬人民幣）的大獎，獲獎隊伍不超過五個，獎給最先在ARC-AGI上達到85%準確率的團隊。

GTP-4o挑戰懸賞八百萬的超難數據集，實現SOTA！

數據集當中包含了各種類型的圖形推理題目，被挑戰發起者預言“大模型很難完成”。

圖片

結果短短一周之內，這一挑戰就被一位博主Ryan Greenblatt完成了一半，準確率達50%；而此前的SOTA僅為34%。

針對自己的成果，Ryan發了一個表情包表示：

只要有更多的樣本，大模型的能力就能獲得提升。

圖片

成果發布后，Ryan所在機構CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家，用了很多精致技巧讓模型的表現提高到了這樣的程度。

圖片

要知道，挑戰的發起方此前開出了最高50萬美元（約360萬人民幣）、總計110萬美元（約798萬人民幣）的巨額賞金。

但有人預計，有60%的概率在未來一年內就會有人獲得獎項，甚至現有的模型加上一些提示技巧就能實現。

圖片

這也與Ryan的想法不謀而合，不過Ryan估計的概率更高些，是70%。

圖片

然而按照規則，想得獎的話，方法必須是開源的，而Ryan用的是GPT，所以可能與獎金無緣了。

不過，Ryan用到的的方法，還是值得我們了解一下的。

讓GPT編寫海量程序

Ryan挑戰的測試集名為ARC-AGI，題目帶有色塊的網格陣列，大模型需要觀察每道題目中3個輸入/輸出示例，然后根據規律填充新的空白網格。

圖片

當然，實際測試中的問題，會比上面的例子復雜得多。

圖片

首先，Ryan根據網格大小是否發生變化，把測試集中的問題細分成了兩類。

圖片

對于每個問題，Ryan都會把網格以圖像和ASCII字符兩種方式輸入給GPT-4o。

其中，ASCII字符包括以下內容：

每個位置的顏色和坐標
每種顏色出現的所有位置坐標，并按連通分量分組
將連通分量（形狀）按其左上角位置歸一化到原點后的表示
輸入輸出網格之間不同顏色的變化及其位置

對于后面需要修正的程序，還會把實際輸出與期望輸出的的差異（ASCII字符形式）一并輸入給模型。

根據前面不同的分類，Ryan會用不同的少樣本提示詞指示GPT-4o，提示詞中包含這三項指令：

分步推理和解釋每個例子中的轉換規則
思考如何將推理得到的規則實現為代碼
實際編寫對應的Python代碼

對每個問題，Ryan會從GPT-4o的回答中采樣約5000個完成結果，對程序進行篩選與修正。

采樣得到的完成結果首先會被轉化為Python程序并在測試用例上運行，然后選出在所有例子上都正確的程序。

接著，在剩余的程序中，Ryan設計了一個漢明距離度量方式，并據此從中選出最有希望的12個。

對這12個程序，Ryan會讓GPT-4o嘗試修正其中的錯誤，首先用少樣本提示詞要求模型獲取實際輸出與期望輸出差異，然后對每個待修正的程序再采樣約3000個完成結果。

最后，Ryan會選擇經過篩選和修正后能正確解決所有例子的3個程序，如果符合要求的程序少于3個，則會使用一些啟發式規則選出剩余的程序。

實際操作中，Ryan使用了多個不同的少樣本提示詞分別進行了上述過程，獲得了多組候選程序，并在所有組的正確程序中進行多數投票，選出出現頻率最高的3個作為最終結果。

此外，Ryan還使用了一些額外的策略，比如在訓練集和測試集的不相交子集上進行迭代優化，通過局部搜索等方法尋找更好的提示詞等

同時，他還引入了一些額外的規則，比如拒絕輸出與輸入完全相同的解，從而更好地篩選出有用的程序。

最終，Ryan的方法在ARC-AGI公開測試集上達到了50%的準確率，成為了新的SOTA，此前的SOTA為34%，而在訓練集（難度低于測試集）的一個子集上，該方法達到了72%的準確率。

不過Ryan同時指出，GPT-4o的視覺能力依然有待提高，同時還存在編程、長上下文和指令遵循能力不足，以及緩存空間不夠等問題，如果這些問題能夠被解決，將顯著提高Ryan所用方法的效果。

那么，ARC Prize究竟是一項怎樣的挑戰？

85%準確率可瓜分360萬獎金

這項ARC Prize，由零代碼SaaS平臺Zapier聯創Mike Knoop和谷歌資深工程師Fran?ois Chollet發起并出資。

項目顧問則包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross，以及瑞士企業家Pascal Kaufmann。

官方指出，現有的大多數AI基準測試都在衡量模型的“技能”，但“技能”并不等于“智力”，并表示“智力”指的是有效獲取新技能的能力。他們認為，“智力”型的任務對人類很簡單，但對于AI來說很難實現。

為此，活動方選擇了一套測試數據集，也就是Ryan挑戰的ARC-AGI，旨在評判大模型的“智力”，或者說“AGI能力”，并激發人們對于新算法和架構的探索，而不是單純增加數據規模。

該數據集出現的時間是在2019年，去年有300個團隊進行了嘗試，今年的挑戰則于6月11日開啟。

按照規則，參賽者需要在這個數據集上取得更高的準確率，同時提交者必須將自己編寫的代碼完全開源，使用的第三方工具也至少要有允許共享的開源許可。

圖片

在Ryan之前，已經提交的方案中最高的準確率為34%，而官方設置的“成功”標準，也是他們預估的人類水平，為85%。

圖片

大賽一共設置了110萬美元的獎金，目前已公布標準的獎項共計60萬美元，還有50萬美元的評獎方式等待官宣。

在已公布的60萬美元中，有50萬美元（約360萬人民幣）的大獎，獲獎隊伍不超過五個，獎給最先在ARC-AGI上達到85%準確率的團隊。

還有高分獎五名，將獲得5000-25000美元不等的獎勵，共計5萬美元。

此外還有一項論文獎，會頒發給能夠幫助人們了解如何在ARC-AGI上實現更好表現的團隊，冠亞軍獎分別獲得45000和5000美元。

圖片

參考鏈接：
[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt[2]https://arcprize.org/[3]https://x.com/liron/status/1800643034263990432

責任編輯：武曉燕來源：量子位

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

懸賞800萬的超難測試集，被GPT-4o實現新SOTA，準確率已達50%

讓GPT編寫海量程序

85%準確率可瓜分360萬獎金