AI模型的奧運(yùn)會(huì):誰(shuí)將在OlympicArena中奪冠? 精華
引言:AI模型的奧林匹克級(jí)評(píng)測(cè)
評(píng)估和比較不同AI模型的性能始終是一個(gè)核心話題。隨著技術(shù)的不斷進(jìn)步,這些模型在處理復(fù)雜任務(wù)的能力上有了顯著的提升。為了更精確地衡量這些先進(jìn)模型的能力,Huang等人在2024年引入了一個(gè)全新的、類似奧林匹克的多學(xué)科、多模態(tài)評(píng)測(cè)平臺(tái)——OlympicArena。這一平臺(tái)設(shè)計(jì)了包括11,163個(gè)雙語(yǔ)問(wèn)題,涵蓋文本和圖像交錯(cuò)的模態(tài),跨越七個(gè)常見(jiàn)學(xué)科和62個(gè)國(guó)際奧林匹克競(jìng)賽,嚴(yán)格檢查數(shù)據(jù)泄露問(wèn)題,旨在推動(dòng)AI在認(rèn)知推理方面的極限。
在這一背景下,本文將探討最新發(fā)布的AI模型——包括“Claude-3.5-Sonnet (Anthropic, 2024a)”、“Gemini-1.5-Pro (Reid et al., 2024)”和“GPT-4o”——在OlympicArena上的表現(xiàn)。通過(guò)引入奧林匹克獎(jiǎng)牌榜的方式,我們不僅比較了這些模型在不同學(xué)科的表現(xiàn),還通過(guò)細(xì)粒度的分析揭示了它們?cè)诓煌愋偷倪壿嫼鸵曈X(jué)推理能力上的優(yōu)勢(shì)和不足。
這種全面而深入的評(píng)測(cè)方法為研究人員和開(kāi)發(fā)者提供了一個(gè)清晰且具有競(jìng)爭(zhēng)性的框架,幫助他們更好地理解不同模型的強(qiáng)項(xiàng)和弱點(diǎn)。通過(guò)這樣的奧林匹克級(jí)評(píng)測(cè),我們可以更準(zhǔn)確地識(shí)別出在各個(gè)學(xué)術(shù)領(lǐng)域中表現(xiàn)最為出色的AI模型,從而推動(dòng)人工智能技術(shù)在更廣泛領(lǐng)域的應(yīng)用和發(fā)展。
OlympicArena基準(zhǔn)介紹
OlympicArena是由Huang等人在2024年提出的一個(gè)全新的、具有挑戰(zhàn)性的人工智能評(píng)測(cè)基準(zhǔn)。這一基準(zhǔn)測(cè)試旨在通過(guò)模擬奧林匹克級(jí)別的多學(xué)科、多模態(tài)競(jìng)賽環(huán)境,推動(dòng)人工智能在認(rèn)知推理能力上的極限。OlympicArena包含了11,163個(gè)雙語(yǔ)問(wèn)題,這些問(wèn)題涵蓋了文本只讀和文本-圖像交錯(cuò)的模態(tài),覆蓋了七個(gè)常見(jiàn)學(xué)科和62個(gè)國(guó)際奧林匹克競(jìng)賽項(xiàng)目。
1. 數(shù)據(jù)集的設(shè)計(jì)與挑戰(zhàn)
OlympicArena的設(shè)計(jì)嚴(yán)格檢查了數(shù)據(jù)泄露問(wèn)題,確保了測(cè)試的公正性和有效性。這個(gè)基準(zhǔn)測(cè)試不僅要求模型在多種類型的問(wèn)題上表現(xiàn)出高水平的理解和推理能力,還要求模型能夠處理復(fù)雜的、多模態(tài)的輸入信息。
2. 測(cè)試的設(shè)置
在OlympicArena的測(cè)試設(shè)置中,使用了測(cè)試數(shù)據(jù)集的分割(test split),并且沒(méi)有公開(kāi)答案,以防止數(shù)據(jù)泄露。所有的評(píng)估都可以通過(guò)規(guī)則匹配來(lái)執(zhí)行,不需要基于模型的評(píng)估。此外,為了保持問(wèn)題的原始結(jié)構(gòu),測(cè)試時(shí)直接使用文本輸入,不使用圖像標(biāo)題作為圖像的文本表達(dá)。
3. 競(jìng)爭(zhēng)者和評(píng)估方法
OlympicArena評(píng)估了多種開(kāi)源和專有的大型多模態(tài)模型(LMMs)和大型語(yǔ)言模型(LLMs)。這些模型包括但不限于OpenAI的GPT系列、Anthropic的Claude系列以及其他一些團(tuán)隊(duì)開(kāi)發(fā)的模型。評(píng)估方法包括精確度評(píng)估非編程任務(wù)和無(wú)偏pass@k評(píng)估編程任務(wù)。
4. 獎(jiǎng)牌表和細(xì)粒度分析
OlympicArena還創(chuàng)新性地引入了奧林匹克獎(jiǎng)牌表(OlympicArena Medal Table),這是一種類似于奧運(yùn)會(huì)的獎(jiǎng)牌系統(tǒng),用于評(píng)估AI模型在各個(gè)學(xué)科領(lǐng)域的表現(xiàn)。模型根據(jù)在任何給定學(xué)科中獲得的前三高分獲得獎(jiǎng)牌。此外,還進(jìn)行了關(guān)于不同學(xué)科、不同推理類型、不同語(yǔ)言和不同模態(tài)的細(xì)粒度分析,以深入理解各模型的能力和局限性。
通過(guò)這些詳盡的測(cè)試和評(píng)估,OlympicArena旨在提供一個(gè)全面、競(jìng)爭(zhēng)性的框架,幫助研究人員和開(kāi)發(fā)者更好地理解不同模型的強(qiáng)項(xiàng)和弱點(diǎn),從而推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用。
模型比較與評(píng)估方法
在這個(gè)章節(jié)中,我們將探討如何比較和評(píng)估不同的人工智能模型。我們將特別關(guān)注最近發(fā)布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o”。為了進(jìn)行全面的性能評(píng)估,我們將使用OlympicArena(Huang et al., 2024)提出的奧運(yùn)會(huì)獎(jiǎng)牌表方法,這是一種創(chuàng)新的排名機(jī)制,專門設(shè)計(jì)用來(lái)評(píng)估AI模型在各個(gè)學(xué)科領(lǐng)域的表現(xiàn)。
1. 評(píng)估指標(biāo)
所有問(wèn)題都可以使用基于規(guī)則的匹配進(jìn)行評(píng)估,因此我們使用準(zhǔn)確性作為非編程任務(wù)的評(píng)估指標(biāo),對(duì)于編程任務(wù),我們使用無(wú)偏的pass@k作為評(píng)估指標(biāo),其中k = 1,n = 5,c表示通過(guò)所有測(cè)試用例的正確樣本數(shù)。
2. OlympicArena獎(jiǎng)牌表
OlympicArena獎(jiǎng)牌表類似于奧運(yùn)會(huì)中使用的獎(jiǎng)牌系統(tǒng),它是一種專門設(shè)計(jì)用來(lái)評(píng)估AI模型在各個(gè)學(xué)科領(lǐng)域表現(xiàn)的排名機(jī)制。該表為在任何給定學(xué)科中取得前三名成績(jī)的模型頒發(fā)獎(jiǎng)牌,從而提供了一個(gè)清晰而有競(jìng)爭(zhēng)力的框架來(lái)比較不同的模型。具體來(lái)說(shuō),我們首先根據(jù)金牌數(shù)量對(duì)AI模型進(jìn)行排名,如果金牌數(shù)量相同,則根據(jù)總分進(jìn)行排名。這提供了一種直觀的方式來(lái)識(shí)別在不同學(xué)科領(lǐng)域中的領(lǐng)先模型,使研究人員和開(kāi)發(fā)人員更容易理解不同模型的優(yōu)點(diǎn)和缺點(diǎn)。
3. 細(xì)粒度評(píng)估
我們根據(jù)不同的學(xué)科、模態(tài)、語(yǔ)言以及不同類型的邏輯和視覺(jué)推理能力進(jìn)行細(xì)粒度評(píng)估。
4. 結(jié)果和分析
我們發(fā)現(xiàn),新發(fā)布的Claude-3.5-Sonnet非常強(qiáng)大,其表現(xiàn)幾乎與GPT-4o相當(dāng)。同時(shí),新發(fā)布的Gemini-1.5-Pro也展示出了相當(dāng)?shù)膶?shí)力,超過(guò)了GPT-4V。此外,根據(jù)OlympicArena獎(jiǎng)牌表,我們可以觀察到GPT-4o, Claude-3.5-Sonnet, 和Gemini-1.5-Pro是排名前三的模型。
5. 細(xì)粒度分析
我們對(duì)各個(gè)模型在不同學(xué)科、推理類型、語(yǔ)言類型和模態(tài)下的表現(xiàn)進(jìn)行了細(xì)粒度分析。例如,GPT-4o在傳統(tǒng)的演繹和歸納推理任務(wù),特別是數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面,表現(xiàn)出優(yōu)越的能力,超過(guò)了Claude-3.5-Sonnet 5%以上的數(shù)學(xué)和3%的計(jì)算機(jī)科學(xué)。另一方面,Claude-3.5-Sonnet在物理、化學(xué)和生物學(xué)等科目中表現(xiàn)出色,尤其是在生物學(xué)方面,它超過(guò)了GPT-4o 3%。
這些觀察結(jié)果表明,即使是目前最強(qiáng)大的模型,在文本任務(wù)上的準(zhǔn)確性也高于多模態(tài)任務(wù)。雖然差距不大,但這表明模型在利用多模態(tài)信息處理復(fù)雜推理問(wèn)題方面還有很大的改進(jìn)空間。
細(xì)粒度分析
在本章節(jié)中,我們將深入探討最新的AI模型在多個(gè)維度上的性能表現(xiàn),包括學(xué)科細(xì)分、推理類型、視覺(jué)推理能力、語(yǔ)言類型以及模態(tài)分析。通過(guò)這一細(xì)粒度分析,我們旨在揭示不同模型在處理復(fù)雜問(wèn)題時(shí)的優(yōu)勢(shì)和局限性。
1. 學(xué)科細(xì)分
在學(xué)科細(xì)分方面,我們比較了GPT-4o、Claude-3.5-Sonnet和Gemini-1.5-Pro三個(gè)模型在數(shù)學(xué)、計(jì)算機(jī)科學(xué)、物理、化學(xué)和生物學(xué)等領(lǐng)域的表現(xiàn)。GPT-4o在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域展現(xiàn)出了卓越的能力,尤其是在數(shù)學(xué)領(lǐng)域,其性能超過(guò)了Claude-3.5-Sonnet超過(guò)5%,在計(jì)算機(jī)科學(xué)領(lǐng)域也超過(guò)了3%。相反,Claude-3.5-Sonnet在物理、化學(xué)和生物學(xué)等領(lǐng)域表現(xiàn)更為出色,特別是在生物學(xué)領(lǐng)域,它超過(guò)了GPT-4o 3%的表現(xiàn)。
2. 推理類型
在推理類型方面,GPT系列模型在傳統(tǒng)的數(shù)學(xué)推理和編程能力方面表現(xiàn)突出,這表明GPT模型經(jīng)過(guò)了嚴(yán)格的訓(xùn)練,以處理需要強(qiáng)大演繹推理和算法思維的任務(wù)。而在需要知識(shí)與推理結(jié)合的學(xué)科,如物理、化學(xué)和生物學(xué)方面,Claude-3.5-Sonnet和Gemini-1.5-Pro展現(xiàn)出了競(jìng)爭(zhēng)性或更優(yōu)的性能。
3. 視覺(jué)推理能力
在視覺(jué)推理能力方面,Claude-3.5-Sonnet在模式識(shí)別和圖表解讀方面領(lǐng)先于GPT-4o,顯示出其在識(shí)別模式和解釋圖表方面的強(qiáng)大能力。兩個(gè)模型在符號(hào)解釋方面表現(xiàn)相當(dāng),表明它們?cè)诶斫夂吞幚矸?hào)信息方面具有可比的能力。然而,GPT-4o在空間推理和比較可視化方面的表現(xiàn)優(yōu)于Claude-3.5-Sonnet,展示了其在理解空間關(guān)系和比較視覺(jué)數(shù)據(jù)方面的優(yōu)勢(shì)。
4. 語(yǔ)言類型
在語(yǔ)言類型方面,盡管模型主要訓(xùn)練在英語(yǔ)數(shù)據(jù)上,但包括一些中文數(shù)據(jù)并具有跨語(yǔ)言泛化能力。中文問(wèn)題的難度比英語(yǔ)問(wèn)題更具挑戰(zhàn)性,尤其是在物理和化學(xué)等學(xué)科中,中文奧林匹克問(wèn)題更為困難。然而,一些在中國(guó)開(kāi)發(fā)或在支持中文的基礎(chǔ)模型上進(jìn)行微調(diào)的模型在中文場(chǎng)景中的表現(xiàn)優(yōu)于英文場(chǎng)景。
5. 模態(tài)分析
在模態(tài)分析方面,GPT-4o在文本和多模態(tài)任務(wù)中均表現(xiàn)優(yōu)異,特別是在文本任務(wù)中表現(xiàn)更為突出。這表明,盡管目前最強(qiáng)大的模型在處理復(fù)雜推理問(wèn)題時(shí)能夠利用多模態(tài)信息,但在文本任務(wù)中的準(zhǔn)確性更高,表明在提高模型利用多模態(tài)信息的能力方面仍有很大的改進(jìn)空間。
通過(guò)這一細(xì)粒度分析,我們不僅能夠更深入地理解不同AI模型在各個(gè)領(lǐng)域的性能,還能夠揭示它們?cè)谔幚韽?fù)雜問(wèn)題時(shí)的優(yōu)勢(shì)和局限性。這為未來(lái)模型的開(kāi)發(fā)和優(yōu)化提供了寶貴的見(jiàn)解。
模型性能的主要發(fā)現(xiàn)與討論
在本章節(jié)中,我們將詳細(xì)討論最新的AI模型在OlympicArena基準(zhǔn)測(cè)試中的表現(xiàn)。我們將重點(diǎn)關(guān)注最新發(fā)布的模型:“Claude-3.5- Sonnet (Anthropic, 2024a),” “Gemini-1.5-Pro (Reid et al., 2024),” 和 “GPT-4o。” 我們將使用奧運(yùn)會(huì)獎(jiǎng)牌表的方法來(lái)對(duì)AI模型進(jìn)行排名,這種方法基于模型在各個(gè)學(xué)科中的綜合表現(xiàn)。
1. 總體表現(xiàn)
根據(jù)實(shí)驗(yàn)結(jié)果,新發(fā)布的Claude-3.5-Sonnet表現(xiàn)強(qiáng)大,幾乎與GPT-4o相當(dāng)。同時(shí),新發(fā)布的Gemini-1.5-Pro也展示了相當(dāng)?shù)膶?shí)力,超過(guò)了GPT-4V。根據(jù)OlympicArena獎(jiǎng)牌表(見(jiàn)表1),如果一個(gè)模型在任何學(xué)科中取得前三名的成績(jī),它就會(huì)獲得一枚獎(jiǎng)牌。我們可以觀察到GPT-4o,Claude-3.5-Sonnet,和Gemini-1.5-Pro是排名前三的模型。
2. 針對(duì)學(xué)科的細(xì)粒度分析
雖然GPT-4o和Claude-3.5-Sonnet在各學(xué)科的總體表現(xiàn)相似,但每個(gè)模型都有其特定的優(yōu)勢(shì)。GPT-4o在傳統(tǒng)的演繹和歸納推理任務(wù)中表現(xiàn)出優(yōu)越的能力,特別是在數(shù)學(xué)和計(jì)算機(jī)科學(xué)方面,超過(guò)Claude-3.5-Sonnet超過(guò)5%和3%。另一方面,Claude-3.5-Sonnet在物理,化學(xué)和生物學(xué)等科目中表現(xiàn)出色,特別是在生物學(xué)方面,它超過(guò)了GPT-4o 3%。
3. 針對(duì)推理類型的細(xì)粒度分析
OpenAI的GPT系列在傳統(tǒng)的數(shù)學(xué)推理和編碼能力方面表現(xiàn)出色。這種在這兩個(gè)學(xué)科的優(yōu)越表現(xiàn)表明,GPT模型已經(jīng)經(jīng)過(guò)嚴(yán)格的訓(xùn)練,以處理需要強(qiáng)大的演繹推理和算法思維的任務(wù)。相反,當(dāng)涉及到需要知識(shí)與推理的整合的學(xué)科,如物理,化學(xué)和生物學(xué),其他模型如Claude-3.5-Sonnet和Gemini-1.5-Pro表現(xiàn)出有競(jìng)爭(zhēng)力或優(yōu)越的表現(xiàn)。
4. 針對(duì)語(yǔ)言類型的細(xì)粒度分析
我們發(fā)現(xiàn),這些強(qiáng)大的模型在英語(yǔ)問(wèn)題上的表現(xiàn)仍然優(yōu)于中文問(wèn)題,并且在多模態(tài)能力方面還有很大的改進(jìn)空間。然而,我們也發(fā)現(xiàn),一些在中國(guó)開(kāi)發(fā)或在支持中文的基礎(chǔ)模型上進(jìn)行微調(diào)的模型在中文場(chǎng)景中的表現(xiàn)優(yōu)于英文場(chǎng)景。這表明,優(yōu)化模型以適應(yīng)中文數(shù)據(jù),以及全球更多的語(yǔ)言,仍然需要大量的關(guān)注。
5. 針對(duì)模態(tài)的細(xì)粒度分析
如表6所示,GPT-4o在文本只讀和多模態(tài)任務(wù)中都優(yōu)于Claude-3.5-Sonnet,特別是在文本只讀問(wèn)題中表現(xiàn)出色。這些觀察結(jié)果表明,即使是目前最強(qiáng)大的模型,也在文本只讀任務(wù)中比多模態(tài)任務(wù)中的準(zhǔn)確率更高。雖然差距不大,但這表明模型在利用多模態(tài)信息處理復(fù)雜推理問(wèn)題方面還有很大的改進(jìn)空間。
通過(guò)理解這些細(xì)微差別,不僅有助于開(kāi)發(fā)更專業(yè)和多功能的模型,還強(qiáng)調(diào)了持續(xù)評(píng)估和改進(jìn)模型架構(gòu)的重要性,以更好地滿足不同學(xué)術(shù)和專業(yè)領(lǐng)域的多樣化需求。
論文地址:https://arxiv.org/pdf/2406.16772
代碼:https://github.com/GAIR-NLP/OlympicArena
本文轉(zhuǎn)載自?? AI論文解讀??,作者:柏企科技圈
