輕松拿捏高等數(shù)學(xué)，LLM平均得分90+！GPT-4o、Mistral幾乎沒錯(cuò)

作者：新智元 2025-03-11 13:42:19

在32道高等數(shù)學(xué)測(cè)試中，LLM表現(xiàn)出色，平均能得分90.4(按百分制計(jì)算)。GPT-4o和Mistral AI更是幾乎沒錯(cuò)！向量計(jì)算、幾何分析、積分計(jì)算、優(yōu)化問題等，高等AI模型輕松拿捏。研究發(fā)現(xiàn)，再提示（Re-Prompting）對(duì)提升準(zhǔn)確率至關(guān)重要。

朋友會(huì)離開你，兄弟會(huì)背叛你。

但數(shù)學(xué)不會(huì)，數(shù)學(xué)不會(huì)就是不會(huì)。

相信學(xué)不好高等數(shù)學(xué)的人，對(duì)上面這個(gè)梗深有感悟。

數(shù)學(xué)不會(huì)好像是真不會(huì)：出口成章也好，身體素質(zhì)驚人也好，面對(duì)微積分，能有什么招？

那大語言模型（LLMs）是不是也是一個(gè)偏科生呢？

最新研究用32道測(cè)試題，總計(jì)320分，涵蓋4大主題：向量計(jì)算、幾何分析、積分計(jì)算、優(yōu)化問題，評(píng)估了AI模型在高等數(shù)學(xué)的表現(xiàn)。

總體而言，結(jié)果表明LLM高等數(shù)學(xué)不錯(cuò)，平均得分為90.4(按百分制計(jì)算)：

-ChatGPT 4o和Mistral AI在不同類型的數(shù)學(xué)問題上表現(xiàn)穩(wěn)定，準(zhǔn)確率較高，展現(xiàn)出較強(qiáng)的數(shù)學(xué)推理能力和可靠性。

-Gemini Advanced（1.5 Pro）和Meta AI在某些積分和優(yōu)化問題上表現(xiàn)較弱，顯示出需要針對(duì)性優(yōu)化的領(lǐng)域。

其中， ChatGPT 4o和Mistral AI表現(xiàn)優(yōu)異，并列第一：

有7款A(yù)I模型參與了測(cè)試：ChatGPT 4o、Gemini Advanced（1.5 Pro）、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。

此外，研究發(fā)現(xiàn)再提示（Re-Prompting）對(duì)提升準(zhǔn)確率至關(guān)重要。

某些情況下，模型首次回答錯(cuò)誤，但在重新提示后能夠修正答案，這表明改進(jìn)交互方式可提升模型解題效果。

新研究對(duì)教育工作者、研究人員和開發(fā)者在數(shù)學(xué)教育與實(shí)踐應(yīng)用中的LLM選擇具有重要參考價(jià)值，同時(shí)也為L(zhǎng)LM技術(shù)的進(jìn)一步優(yōu)化和發(fā)展提供了關(guān)鍵的靈感。

論文鏈接：https://arxiv.org/abs/2503.03960

LLM在微積分能帶來什么驚喜？

微積分以其復(fù)雜的概念和嚴(yán)謹(jǐn)?shù)慕忸}方法，是測(cè)試LLM能力極限的理想領(lǐng)域。

解決微積分問題不僅需要計(jì)算的準(zhǔn)確性，還要求模型具備深厚的數(shù)學(xué)原理理解能力、邏輯推理能力，以及將理論概念應(yīng)用于實(shí)際問題的能力。

新研究所選問題涵蓋微積分的多個(gè)重要主題，包括向量分析、幾何解釋、積分計(jì)算和優(yōu)化問題。

通過評(píng)估這些模型在解題過程中的表現(xiàn)，希望識(shí)別它們的優(yōu)勢(shì)、劣勢(shì)和可改進(jìn)之處，從而推動(dòng)更強(qiáng)大、更可靠的LLM技術(shù)的發(fā)展。

隨著教育機(jī)構(gòu)和工業(yè)界越來越多地探索AI技術(shù)的應(yīng)用，深入了解LLM在處理復(fù)雜數(shù)學(xué)問題方面的能力和局限性變得至關(guān)重要。

新研究的分析結(jié)果對(duì)多個(gè)群體具有重要價(jià)值，包括開發(fā)AI輔助學(xué)習(xí)工具的教育工作者、致力于提升LLM能力的研究人員，以及希望在實(shí)際應(yīng)用中部署這些技術(shù)的從業(yè)者。

此外，本研究還回應(yīng)了對(duì)AI模型在專業(yè)領(lǐng)域進(jìn)行系統(tǒng)評(píng)估的日益增長(zhǎng)的需求。

通過精心設(shè)計(jì)的一組測(cè)試題和詳細(xì)的評(píng)分體系，本研究為評(píng)估LLM在數(shù)學(xué)問題求解方面的表現(xiàn)提供了一種方法論框架。

此外，本研究還引入了重新提示（re-prompting）機(jī)制，并對(duì)錯(cuò)誤模式進(jìn)行了深入分析，以探討模型的學(xué)習(xí)能力以及提高其準(zhǔn)確性和可靠性的潛在策略。這些研究結(jié)果有助于更全面地理解LLM在數(shù)學(xué)推理中的優(yōu)勢(shì)和局限性，并為未來的優(yōu)化提供有價(jià)值的參考。

研究方法

大型語言模型（LLMs）在架構(gòu)和訓(xùn)練方法上，大多集中在語言處理任務(wù)上，但也各具特色：

ChatGPT 4o以其先進(jìn)的自然語言理解和生成能力而聞名；
Gemini Advanced with 1.5 Pro旨在處理高性能語言任務(wù)；
Copilot Pro專注于編程和數(shù)學(xué)問題求解；
Claude 3.5 Sonnet強(qiáng)調(diào)準(zhǔn)確且具上下文意識(shí)的文本生成；
Meta AI旨在提供多功能的語言理解和生成；
Mistral AI以其高效且精準(zhǔn)的語言處理能力著稱；
Perplexity則專為復(fù)雜問題求解和推理任務(wù)設(shè)計(jì)。

現(xiàn)在就關(guān)心一個(gè)問題：這些模型高等數(shù)學(xué)到底會(huì)不會(huì)？

這次評(píng)估共涉及32道測(cè)試題，總分320分。

如果模型在首次嘗試中給出正確答案，則得10分；如果在第二次嘗試中找到正確答案，則得5分。

測(cè)試題涵蓋多個(gè)微積分主題，包括：向量計(jì)算與幾何解釋、積分計(jì)算及其應(yīng)用、優(yōu)化問題與約束優(yōu)化、微分方程及其應(yīng)用以及高級(jí)微積分概念（如格林定理、曲線積分等）。

模型的評(píng)估主要基于兩個(gè)核心標(biāo)準(zhǔn)：

準(zhǔn)確性（Accuracy）——指模型給出的答案是否正確。
解題過程（Step-by-Step Explanation）——指模型是否能夠提供清晰、正確的解題步驟。

為了進(jìn)一步測(cè)試模型的錯(cuò)誤修正能力，本研究引入了重新提示（re-prompting）機(jī)制。

如果模型首次解答錯(cuò)誤，則會(huì)再次提示它解決該問題，并對(duì)修正后的答案進(jìn)行評(píng)估。該機(jī)制有助于更全面地分析模型的問題解決能力及其從錯(cuò)誤中學(xué)習(xí)和修正答案的能力。

測(cè)試結(jié)果

總體來看，所有LLM的平均得分為90.4(按百分制計(jì)算)，顯示出較強(qiáng)的整體表現(xiàn)。其中ChatGPT 4o和Mistral AI得分310，并列第一，具體結(jié)果如下：

ChatGPT 4o和Mistral AI等模型展現(xiàn)出了較高的準(zhǔn)確性和精確度，而其他模型在某些類型的問題上表現(xiàn)較為吃力。

比如，在關(guān)于向量分解的問題上，所有模型都正確計(jì)算了一個(gè)向量在另一個(gè)向量上的投影以及正交分量，表明它們?cè)谔幚硐蛄糠纸鈫栴}時(shí)具有較高的準(zhǔn)確性和穩(wěn)定性。

找到向量u=3i?5j+2k在向量v=7i+j?2k上的投影，以及u中與v正交的分量，顯示所有步驟。

然而，不同模型在具體問題的解答能力上仍存在明顯差異。

比如，求正交向量上，只有Claude 3.5 Sonnet最初回答錯(cuò)誤，但在重提示后糾正了錯(cuò)誤。

求一個(gè)同時(shí)正交于向量u=?4,?3,1?和v=?2,5,3?的單位向量，并展示所有步驟。

而在優(yōu)化領(lǐng)域的求極值上，谷歌的Gemini Adavnced with 1.5 Pro直接翻車，提示它錯(cuò)誤后，沒有改正過來，兩次持續(xù)出錯(cuò)，暴露了其在優(yōu)化問題上的特定弱點(diǎn)。

檢查函數(shù)的相對(duì)極值和鞍點(diǎn)：f(x, y)=-5x^2+4xy-y^2+16x+10。并給出全部步驟。

Meta AI在求一道積分問題上，回答錯(cuò)誤；而ChatGPT 4o經(jīng)過再提示后，幾乎不會(huì)出錯(cuò)。

總體二樣，大語言模型，在微積分測(cè)試中的表現(xiàn)存在差異。

其他20多個(gè)問題的具體測(cè)試結(jié)果，請(qǐng)參考原文。

結(jié)果分析

對(duì)LLMs在微積分測(cè)試中的表現(xiàn)分析揭示了多個(gè)關(guān)鍵見解和趨勢(shì)，這對(duì)于理解它們?cè)跀?shù)學(xué)問題求解中的能力和局限性至關(guān)重要。

ChatGPT 4o和Mistral AI以96.9%的得分并列第一，表現(xiàn)最優(yōu)。

ChatGPT 4o在廣泛的問題類型中均表現(xiàn)出色，展現(xiàn)了其強(qiáng)大的數(shù)學(xué)推理能力。而Mistral AI在向量微積分和多元微積分方面表現(xiàn)尤為突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表現(xiàn)相同，得分均為87.5%。

LLM的優(yōu)勢(shì)

簡(jiǎn)單問題的穩(wěn)定性：ChatGPT 4o 和Mistral AI在解答基礎(chǔ)性問題（如向量計(jì)算、幾何解釋和基本求導(dǎo)）時(shí)展現(xiàn)出一致的準(zhǔn)確性。這表明它們?cè)谔幚砘A(chǔ)微積分概念方面具備較強(qiáng)的穩(wěn)健性和可靠性。

重新提示（Re-prompting）的有效性：在多次測(cè)試中，某些模型最初給出的答案錯(cuò)誤，但在重新提示后成功修正。這表明通過迭代提問和反饋機(jī)制可以有效提升模型的表現(xiàn)。

特定領(lǐng)域的高準(zhǔn)確性：在涉及方向余弦、偏導(dǎo)數(shù)、曲線積分等問題時(shí)，所有模型的解答均正確。這表明它們?cè)谶@些微積分專題上具備較強(qiáng)的共識(shí)和理解能力。

LLM的劣勢(shì)

復(fù)雜積分計(jì)算：在處理復(fù)雜積分（如迭代積分、三重積分和曲線下區(qū)域面積計(jì)算）時(shí)，模型普遍表現(xiàn)不佳。這表明它們?cè)谖⒎e分求解方面仍有待改進(jìn)。

優(yōu)化問題：部分模型（尤其是Gemini Advanced with 1.5 Pro）在求解優(yōu)化問題時(shí)表現(xiàn)較弱，尤其是在相對(duì)極值和鞍點(diǎn)的識(shí)別方面存在困難，說明其優(yōu)化技術(shù)仍需加強(qiáng)。

持續(xù)性錯(cuò)誤：某些模型在特定問題上反復(fù)出錯(cuò)。例如，Meta AI在積分計(jì)算上存在較大困難，而Gemini Advanced with 1.5 Pro在梯度計(jì)算上表現(xiàn)不佳。這些持續(xù)性錯(cuò)誤表明其算法可能需要進(jìn)一步優(yōu)化。

重新提示（Re-prompting）的重要性

本研究強(qiáng)調(diào)了重新提示機(jī)制在提高解題準(zhǔn)確性方面的重要作用。

多個(gè)模型在第一次解答錯(cuò)誤后，通過重新提示成功修正答案。

這表明迭代提問和反饋機(jī)制可以顯著提高模型的解題能力，尤其是在復(fù)雜問題上，初始錯(cuò)誤的可能性更大，而重新提示可以提高最終正確率。

對(duì)LLM發(fā)展的啟示

本研究對(duì)各模型的表現(xiàn)進(jìn)行了詳細(xì)分析，為L(zhǎng)LM技術(shù)的持續(xù)優(yōu)化提供了有價(jià)值的見解。

研究結(jié)果揭示了當(dāng)前LLM的優(yōu)勢(shì)與不足，為未來的定向改進(jìn)提供了清晰的路線圖，尤其是在以下幾個(gè)方面：復(fù)雜積分計(jì)算、優(yōu)化問題求解、梯度計(jì)算的精確性。

如果開發(fā)者能針對(duì)這些弱點(diǎn)進(jìn)行優(yōu)化，在數(shù)學(xué)問題求解中，將有助于提升LLM的整體性能和可靠性。

本研究的結(jié)果對(duì)教育工作者、研究人員和開發(fā)者都具有重要意義，尤其是在數(shù)學(xué)教育和實(shí)際應(yīng)用方面：

表現(xiàn)優(yōu)異的模型（如ChatGPT 4o 和 Mistral AI）：展現(xiàn)出了較強(qiáng)的數(shù)學(xué)問題求解能力，使它們成為可靠的數(shù)學(xué)輔助工具，可應(yīng)用于教育領(lǐng)域。
其他模型的不足：指明了改進(jìn)方向，為L(zhǎng)LM技術(shù)的進(jìn)一步優(yōu)化提供了參考。未來，隨著LLM在數(shù)學(xué)領(lǐng)域的不斷進(jìn)步，它們有望成為更強(qiáng)大、更可靠的數(shù)學(xué)教育和問題求解工具，在教學(xué)、科研和工業(yè)應(yīng)用等多個(gè)領(lǐng)域發(fā)揮重要作用。

責(zé)任編輯：張燕妮來源：新智元