真相了！大模型解數(shù)學(xué)題和人類(lèi)真不一樣：死記硬背、知識(shí)欠缺明顯，GPT-4o表現(xiàn)最佳

作者：機(jī)器之心 2024-07-23 09:26:20

在本文中，我們提出了 WE-MATH，一個(gè)用于細(xì)粒度評(píng)測(cè) LMMs 在視覺(jué)數(shù)學(xué)推理任務(wù)中作答機(jī)制的綜合基準(zhǔn)。

本文作者來(lái)自北京郵電大學(xué)、騰訊微信、華中科技大學(xué)、北京理工大學(xué)。作者列表：?jiǎn)虧?rùn)祺，譚秋納，董冠霆，伍敏慧，孫沖，宋曉帥，公卻卓瑪，雷尚霖，衛(wèi)喆，張淼萱，喬潤(rùn)楓，張一凡，縱曉，徐一達(dá)，刁沐熙，包志敏，李琛，張洪剛。其中，共同第一作者喬潤(rùn)祺是北京郵電大學(xué)博士生，譚秋納是北京郵電大學(xué)碩士生，通訊作者是北京郵電大學(xué)張洪剛副教授，該文章為喬潤(rùn)祺在微信實(shí)習(xí)期間完成。

隨著人工智能技術(shù)的快速發(fā)展，能夠處理多種模態(tài)信息的多模態(tài)大模型（LMMs）逐漸成為研究的熱點(diǎn)。通過(guò)整合不同模態(tài)的信息，LMMs 展現(xiàn)出一定的推理和理解能力，在諸如視覺(jué)問(wèn)答、圖像生成、跨模態(tài)檢索等任務(wù)中表現(xiàn)出色。這種多模態(tài)能力使得 LMMs 在各類(lèi)復(fù)雜場(chǎng)景中的應(yīng)用潛力巨大，而為了嚴(yán)謹(jǐn)科學(xué)地檢驗(yàn) AI 是否具備較強(qiáng)的推理能力，數(shù)學(xué)問(wèn)答已成為衡量模型推理能力的重要基準(zhǔn)。

回顧 AI 的發(fā)展歷程，我們發(fā)現(xiàn)人類(lèi)的認(rèn)知和思考問(wèn)題的方式對(duì) AI 的發(fā)展產(chǎn)生了深遠(yuǎn)的影響。諸如神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制等突破均與人類(lèi)的思維模式息息相關(guān)。想象一下，人類(lèi)在解答一個(gè)數(shù)學(xué)問(wèn)題時(shí)，首先需要熟知題目所考察的知識(shí)點(diǎn)，而后利用相關(guān)知識(shí)進(jìn)行逐步推理從而得出答案。但模型在作答時(shí)，其推理過(guò)程是否與人類(lèi)一致呢？

聚焦于數(shù)學(xué)問(wèn)題，我們發(fā)現(xiàn)模型可以回答出復(fù)雜問(wèn)題，但在一些簡(jiǎn)單問(wèn)題面前卻捉襟見(jiàn)肘。為探究這一現(xiàn)象的原因，受人類(lèi)解題思維模式的啟發(fā)，我們首先對(duì)先掌握知識(shí)點(diǎn)，再運(yùn)用其進(jìn)行邏輯推理的解題過(guò)程建模如下：

其中 (X, Y) 和 (x_i, y_i) 分別表示數(shù)學(xué)問(wèn)題和每個(gè)子問(wèn)題中的問(wèn)題與答案，P_reason 代表 LMMs 的綜合運(yùn)用能力 (知識(shí)泛化)。基于此，We-Math 首先基于 67 個(gè)原子知識(shí)點(diǎn)構(gòu)建了一個(gè)多層級(jí)樹(shù)狀知識(shí)體系，緊接著以原子知識(shí)及推理答案為依據(jù)，通過(guò)將多知識(shí)點(diǎn)的復(fù)雜問(wèn)題拆解為多個(gè)原子知識(shí)點(diǎn)對(duì)應(yīng)的子問(wèn)題來(lái)探究模型的作答機(jī)制。

題目：WE-MATH: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?
論文：https://arxiv.org/pdf/2407.01284
主頁(yè)：https://we-math.github.io/
代碼：https://github.com/We-Math/We-Math
數(shù)據(jù)集：https://huggingface.co/datasets/We-Math/We-Math

目前 We-Math 在當(dāng)日的 HuggingFace Daily Paper 中排名第一，并在推特上的瀏覽量達(dá)到 10K+!

We-Math Benchmark

1. 數(shù)據(jù)構(gòu)成

We-Math 測(cè)評(píng)數(shù)據(jù)集共包含 6.5k 個(gè)多模態(tài)小學(xué)數(shù)學(xué)問(wèn)題和一個(gè)多層級(jí)知識(shí)架構(gòu)，每一個(gè)數(shù)學(xué)問(wèn)題均有對(duì)應(yīng)的知識(shí)點(diǎn)（1-3 個(gè)）。其中所有問(wèn)題的知識(shí)點(diǎn)均被 5 層 99 個(gè)節(jié)點(diǎn)（最后一層包含 67 個(gè)知識(shí)點(diǎn)）的知識(shí)架構(gòu)所涵蓋。并且如下圖所示，為了緩解模型在解決問(wèn)題過(guò)程中固有的問(wèn)題，我們參考教材與維基百科，啟發(fā)式的引入了 67 個(gè)知識(shí)點(diǎn)的描述，從而為 LMMs 的推理過(guò)程提供必要的知識(shí)提示。

2. 題目拆解

為了合理的評(píng)估模型的作答機(jī)制，我們嚴(yán)格以人類(lèi)作答的標(biāo)準(zhǔn)答案為依據(jù)，按照復(fù)雜問(wèn)題所包含的知識(shí)點(diǎn)，將其拆解成了 n 個(gè)子問(wèn)題，其中 n 表示復(fù)雜問(wèn)題包含的知識(shí)點(diǎn)數(shù)量。

如下圖所示，對(duì)于一道復(fù)雜問(wèn)題：Mary 從一個(gè)圓形花壇的最北端點(diǎn)沿花壇邊緣走到最東端點(diǎn)，走過(guò)的距離是 50.24 米，求解圓形花壇的面積。在解題過(guò)程中，首先需要根據(jù) “東南西北方向” 知識(shí)點(diǎn)，通過(guò) “最北” 和 “最東” 兩個(gè)方向的條件，求得 Mary 走過(guò)路徑所對(duì)應(yīng)的圓心角大小（“最北” 和 “最東” 的夾角為 90 度）。接著，根據(jù) “圓的周長(zhǎng)” 知識(shí)點(diǎn)，通過(guò)圓心角的大小為 90 度和 Mary 走過(guò)的路徑長(zhǎng)度的條件，計(jì)算出圓形花壇的周長(zhǎng)，并求得圓形花壇的半徑。最后，根據(jù) “圓的面積” 知識(shí)點(diǎn)，通過(guò)求得的半徑的條件，計(jì)算出圓形花壇的面積，至此完成題目的求解。

分析上述解題過(guò)程，為了探究模型的答題機(jī)制以及模型的細(xì)粒度推理表現(xiàn)，可以將原題按照其對(duì)應(yīng)的知識(shí)點(diǎn)拆解成三個(gè)子問(wèn)題，具體而言，第一問(wèn)：Mary 從一個(gè)圓形花壇的最北端點(diǎn)沿花壇邊緣走到最東端點(diǎn)，求她走過(guò)路徑的圓弧所對(duì)應(yīng)的圓心角的度數(shù)；第二問(wèn)：圓形花壇中，90 度圓心角所對(duì)應(yīng)的圓弧弧長(zhǎng)為 59.24m，求解圓形花壇的半徑；第三問(wèn)：求半徑為 32m 的圓形花壇的面積。

3. 度量標(biāo)準(zhǔn)

在此基礎(chǔ)上，如下圖所示，我們引入一種新的四維度量標(biāo)準(zhǔn)，即知識(shí)掌握不足 (IK)、泛化能力不足 (IG)、完全掌握 (CM) 和死記硬背 (RM)。

知識(shí)掌握不足 (IK): 模型無(wú)法作答出復(fù)雜問(wèn)題，并在子問(wèn)題中出現(xiàn)錯(cuò)誤，我們推測(cè)模型無(wú)法作答出復(fù)雜問(wèn)題的原因是因?yàn)閷?duì)知識(shí)點(diǎn)掌握不足所導(dǎo)致的。
泛化能力不足 (IG): 模型無(wú)法作答出復(fù)雜問(wèn)題，但是所有的子問(wèn)題中均回答正確，我們推測(cè)模型無(wú)法作答出復(fù)雜問(wèn)題的原因是因?yàn)槿鄙倬C合運(yùn)用能力（泛化能力）。
完全掌握 (CM): 模型可以作答出復(fù)雜問(wèn)題，并且可以作答出所有的子問(wèn)題，這種現(xiàn)象是合理且被期望得到的。
死記硬背 (RM): 模型可以作答出復(fù)雜問(wèn)題，但在子問(wèn)題中出現(xiàn)錯(cuò)誤，這與人類(lèi)的邏輯思維相悖，如果一個(gè)模型可以解決復(fù)雜的多步問(wèn)題，但無(wú)法作答出解答過(guò)程中所需的單步問(wèn)題，我們認(rèn)為這種情況是不合理的，考慮模型存在機(jī)械記憶的情況。

其中 IK、IG、CM 之間存在 IK<IG<CM 的層次關(guān)系，即模型需要先掌握知識(shí)，才可以討論綜合運(yùn)用的能力，而 RM 我們認(rèn)為是一種不合理的現(xiàn)象。此外，考慮到模型的不穩(wěn)定性，當(dāng)前判定結(jié)果是否屬于 RM 的標(biāo)準(zhǔn)較為嚴(yán)格。因此，我們提出了一種更靈活的寬松標(biāo)準(zhǔn)。如上圖所示，在包含兩個(gè)知識(shí)點(diǎn)的問(wèn)題中，TFT 和 FTT 情況根據(jù)寬松標(biāo)準(zhǔn)（Loose Metric）被視為 CM（而非 RM）。我們?cè)谖恼碌母戒浿型瑯佑懻摿怂木S度指標(biāo)在三步問(wèn)題中的情況。因此，結(jié)合上述情況我們最終提出了一個(gè)綜合打分度量標(biāo)準(zhǔn)，以此評(píng)估 LMM 推理過(guò)程中的固有問(wèn)題。

實(shí)驗(yàn)與結(jié)論

We-Math 目前在 17 個(gè)大模型中完成了評(píng)測(cè)，共包含 4 個(gè)閉源模型與 13 個(gè)開(kāi)源模型。其中表 1 與圖 6 展示了 LMMs 在不同知識(shí)點(diǎn)數(shù)量下的結(jié)果與模型在第二層級(jí)知識(shí)點(diǎn)下的表現(xiàn)；表 2 與圖 7、圖 8、圖 9 展示了 LMMs 在四維指標(biāo)下的結(jié)果以及在嚴(yán)格和寬松標(biāo)準(zhǔn)下的綜合打分結(jié)果；圖 10 展示了 KCA 策略對(duì)模型在 IK 問(wèn)題中的緩解結(jié)果。

LMMs 在不同知識(shí)點(diǎn)數(shù)量下的表現(xiàn)及其在第二層級(jí)知識(shí)點(diǎn)下的表現(xiàn)

模型作答情況與題目所包含的知識(shí)點(diǎn)數(shù)量呈現(xiàn)較明顯的負(fù)相關(guān)關(guān)系，即題目包含的知識(shí)點(diǎn)越多，模型作答情況越不理想。我們也提議可以通過(guò)題目包含的知識(shí)點(diǎn)數(shù)量對(duì)題目的難易度進(jìn)行建模。
模型在與計(jì)算相關(guān)的知識(shí)點(diǎn)下表現(xiàn)較好，在細(xì)粒度視覺(jué)問(wèn)題上表現(xiàn)欠佳。也進(jìn)一步表明 LMMs 在應(yīng)用公式上較為擅長(zhǎng)，但在理解和綜合應(yīng)用知識(shí)方面仍有局限。
GPT-4o 表現(xiàn)最佳，在包含不同知識(shí)點(diǎn)數(shù)量的題目中均保持領(lǐng)先，并在不同的知識(shí)點(diǎn)下基本保持領(lǐng)先。
LMMs 展現(xiàn)了一定的參數(shù)壓縮潛力。在不同的 LMMs 中，LLaVA-NeXT-110B 的表現(xiàn)最接近 GPT-4。而令人驚喜的是，盡管參數(shù)規(guī)模較小，InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 等模型的表現(xiàn)也展現(xiàn)出了較好的表現(xiàn)。

LMMs 在四維指標(biāo)下的表現(xiàn)及其在嚴(yán)格和寬松標(biāo)準(zhǔn)下的綜合評(píng)分結(jié)果

多數(shù)模型存在 “知識(shí)掌握不足” 和 “死記硬背” 的問(wèn)題，尤其是在較小的模型中更加明顯。并且，“知識(shí)掌握不足” 仍是大多數(shù)模型的主要問(wèn)題。
GPT-4o 在 “死記硬背” 的衡量維度上大幅領(lǐng)先于其他模型，進(jìn)一步說(shuō)明 GPT-4o 更貼近于人類(lèi)的解題方式，其所呈現(xiàn)的結(jié)果更加可靠，意味著模型真正的學(xué)到了知識(shí)，而不是 “死記硬背”。
GPT-4o 在 “知識(shí)掌握不足” 這個(gè)衡量維度上大幅領(lǐng)先于其他模型，已經(jīng)逐漸邁向下一階段，需要進(jìn)一步提升 “知識(shí)泛化能力”。

LMMs 在 KCA 策略下的表現(xiàn)

模型在 KCA 策略下整體表現(xiàn)有所提升。如上圖所示，不同參數(shù)規(guī)模的 LMMs 在引入 KCA 策略后，在嚴(yán)格和寬松指標(biāo)上均表現(xiàn)出一致的性能提升。
KCA 策略顯著緩解了 IK 問(wèn)題，但對(duì) IG 問(wèn)題的改善并不明顯。這與人類(lèi)直覺(jué)一致，因?yàn)橹R(shí)描述主要解決的是推理知識(shí)的缺口。然而，要解決 IG 問(wèn)題，需要全面提升 LMMs 的知識(shí)泛化能力，這也為未來(lái)研究指明了方向。

總結(jié)

在本文中，我們提出了 WE-MATH，一個(gè)用于細(xì)粒度評(píng)測(cè) LMMs 在視覺(jué)數(shù)學(xué)推理任務(wù)中作答機(jī)制的綜合基準(zhǔn)。WE-MATH 共包含 6.5k 個(gè)視覺(jué)數(shù)學(xué)問(wèn)題，涵蓋 5 層 67 個(gè)知識(shí)點(diǎn)的多級(jí)知識(shí)架構(gòu)。我們開(kāi)創(chuàng)性地根據(jù)題目所需的知識(shí)點(diǎn)將其拆解為多個(gè)子問(wèn)題，并引入了一種新的四維度指標(biāo)用于細(xì)粒度的推理評(píng)估。通過(guò) WE-MATH，我們對(duì)現(xiàn)有的 LMMs 在視覺(jué)數(shù)學(xué)推理中的表現(xiàn)進(jìn)行了全面評(píng)估，并揭示了模型作答情況與題目所包含的知識(shí)點(diǎn)數(shù)量呈現(xiàn)較明顯的負(fù)相關(guān)關(guān)系。

此外，我們發(fā)現(xiàn)多數(shù)模型存在死記硬背的問(wèn)題 (RM)，并且知識(shí)掌握不足（IK）是 LMMs 最大的缺陷。然而，GPT-4o 的主要挑戰(zhàn)已從 IK 逐漸轉(zhuǎn)向 IG，這表明它是第一個(gè)邁向下一個(gè)階段的模型。最后，我們對(duì) KCA 策略和錯(cuò)誤案例的分析進(jìn)一步啟發(fā)性地引導(dǎo)現(xiàn)有的 LMMs 向人類(lèi)般的視覺(jué)數(shù)學(xué)推理發(fā)展。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心