打破美國AI公司霸榜，上交AI數(shù)學(xué)開源模型阿貝爾排行榜首

作者：機器之心 2023-09-21 10:30:05

上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān)，研發(fā)并開源了數(shù)學(xué)計算大模型 “阿貝爾（Abel）”，在多個榜單上取得開源第一！是首個海內(nèi)外高校團隊推出的 SOTA 數(shù)學(xué)開源大模型。

以 ChatGPT 為代表的大模型產(chǎn)品引領(lǐng)了一場新的產(chǎn)業(yè)革命，激發(fā)了國內(nèi)外各機構(gòu)積極投入相關(guān)技術(shù)研究的熱情。在過去幾個月的技術(shù)競爭中，國產(chǎn)大模型在文本理解和知識理解任務(wù)方面表現(xiàn)出色，堪稱一位優(yōu)秀的 “文科生”。

然而，在復(fù)雜數(shù)學(xué)推理計算、物理建模、科學(xué)發(fā)現(xiàn)等 “理科” 領(lǐng)域，大模型的研究尚未達到令人滿意的水平，與美國頂尖科技公司（OpenAI、Google、Anthropic）相比，仍存在很大差距。例如，在數(shù)學(xué)推理方面的權(quán)威評測集 GSM8K 和 MATH 上，美國 AI 公司一直占據(jù)前幾名，突顯了其領(lǐng)先地位。

在這樣的背景下，上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān)，研發(fā)并開源了數(shù)學(xué)計算大模型 “阿貝爾（Abel）”，在多個榜單上取得開源第一！是首個海內(nèi)外高校團隊推出的 SOTA 數(shù)學(xué)開源大模型。

項目主頁：https://GAIR-NLP.github.io/abel
開源模型：https://github.com/GAIR-NLP/abel

“在還未回國前，我和 Meta 非常優(yōu)秀的科學(xué)家合作了一篇叫做 LIMA 的工作，在那篇工作里我們僅使用 1000 個樣本就可以訓(xùn)練模型使其在達到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務(wù)場景上都得到了驗證，比如數(shù)學(xué)推理。這也成為當(dāng)時的遺憾，使得我對如何讓大模型學(xué)好數(shù)學(xué)充滿了興趣。”上海交大生成式人工智能研究組負(fù)責(zé)人同時也是阿貝爾項目的負(fù)責(zé)人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數(shù)學(xué)家尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數(shù)和分析方面的開創(chuàng)性工作而創(chuàng)建的，代數(shù)也是現(xiàn)在模型相對擅長解決的，不過，我們還有很長的路要走。”

模型表現(xiàn)

表 1：?? 代表專有模型，而 ?? 表示開源模型，?? 表示模型開發(fā)由學(xué)術(shù)大學(xué)主導(dǎo)（而不是由公司主導(dǎo)）；這里僅考慮不使用任何工具（例如 Python）的模型；GAIRMath-Abel 為該團隊提出的模型

在阿貝爾（GAIRMath-Abel）這個項目里，作者展示了，盡管

沒有使用工具
沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)
沒有使用獎勵模型
沒有使用基于人類反饋的強化學(xué)習(xí)（Reinforcement Learning from Human Feedback, RLHF）
僅使用有監(jiān)督精調(diào)（Supervised Fine-tuning，SFT）

阿貝爾在 GSM8k（83.62）和 MATH（28.26）權(quán)威評測集上實現(xiàn)了開源數(shù)學(xué)模型（不使用外部工具）的最好成績，具體說來：

在 GSM8K 上的性能達到了 83.62，超過了許多國外大廠優(yōu)秀的模型，如 PaLM-1、Minerva（Google）、Claude-instant（Anthropic）以及 ChatGPT（OpenAI），僅落后于 Google 的最新模型 PaLM-2-Flan1 個百分點；同時也顯著高于所有開源國產(chǎn)模型
在具有高難度的數(shù)學(xué)競賽問題上，阿貝爾準(zhǔn)確率達到了 28.26%（相比于 GPT4 的 42.5%），它在其他開源模型中保持了顯著領(lǐng)先地位，超過了之前最佳的開源模型 5 個多百分點
7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢取得了開源模型性能的最佳
阿貝爾在排行榜前十名中占據(jù)了 3 個位置，并且是唯一一家由大學(xué)領(lǐng)導(dǎo)的項目（其他都是明星創(chuàng)業(yè)公司或大型科技公司）
使用作者的方法，不僅在 GSM8K 和 MATH 上取得了出色的成績，而且在提供新數(shù)據(jù)集（TALSCQ-EN）時，迅速達到了最好性能（SOTA），并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。

除了優(yōu)秀的性能本身，該項目也揭示了：

有監(jiān)督精調(diào)的能力被嚴(yán)重低估，研究人員應(yīng)該以應(yīng)有的敬畏和謹(jǐn)慎來對待這個過程。
出色的數(shù)學(xué)問題解決能力可以通過有監(jiān)督精調(diào)實現(xiàn)的很好，這將在未來對這個方向的探索中引發(fā)更多富有想象力的可能性

訓(xùn)練方法

為了訓(xùn)練阿貝爾，該團隊提出Parental Oversight （家長監(jiān)督），一種監(jiān)督微調(diào)的保姆策略（Babysitting Strategy）。

Parental Oversight 的核心理念在于，在對大模型進行微調(diào)的過程中應(yīng)該懷著一種敬畏和謹(jǐn)慎的態(tài)度，就如同家長在對孩子進行教育時，必須要用最淺顯易懂并謹(jǐn)慎的方式進行教導(dǎo)，在穩(wěn)健成長的同時避免揠苗助長。各種不同的數(shù)據(jù)和數(shù)據(jù)的呈現(xiàn)方式代表的是不同的教育方式，而研究者必須謹(jǐn)慎小心的選擇最好的方式教導(dǎo)大模型。

事實上，在 GAI 的背景下，數(shù)據(jù)結(jié)構(gòu)工程 (Data Structure Engineering) 已經(jīng)成為一種新的范式。有效的處理數(shù)據(jù)的方向?qū)Υ竽Ｐ驮诓煌掠稳蝿?wù)上的成功與否有著極為關(guān)鍵性的影響。從 Parental Oversight 理念出發(fā)，在復(fù)雜推理任務(wù)上取得好的結(jié)果，最關(guān)鍵的是要精心策劃訓(xùn)練數(shù)據(jù)，而不是不加選擇地使用任何樣本進行監(jiān)督學(xué)習(xí)。

通過最精確謹(jǐn)慎的監(jiān)督，協(xié)助大模型在復(fù)雜推理的下游任務(wù)上成長。在有監(jiān)督精調(diào)的訓(xùn)練樣本中，不僅應(yīng)包含正確的答案，還應(yīng)告訴模型如何從預(yù)訓(xùn)練模型的知識中獲得正確答案。此外，如果語言模型的知識不足以獲得真實答案，監(jiān)護監(jiān)督應(yīng)該幫助模型迅速填補知識上的空白。

局限性 & 規(guī)劃

盡管阿貝爾數(shù)學(xué)模型在評估的幾個數(shù)據(jù)集上表現(xiàn)優(yōu)異，但是開發(fā)者也總結(jié)了它的不足之處：

過擬合：盡管進行了魯棒性分析，并考慮到數(shù)學(xué)生成型 AI 天生具有脆弱性（通常需要高級解碼策略，如多數(shù)投票），但過于依賴構(gòu)建 SFT 樣本以提高性能可能會不可避免地導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。（然而，過擬合并不是當(dāng)前項目的主要關(guān)注點，因為即使對過擬合各種增強訓(xùn)練數(shù)據(jù)，對于復(fù)雜的數(shù)學(xué)推理任務(wù)，如 MATH 數(shù)據(jù)集，仍然很難實現(xiàn)有利的測試結(jié)果。）盡管如此，團隊仍然需要進行更廣泛的健壯性分析，并積極探索可以將模型轉(zhuǎn)化為數(shù)學(xué)通才的訓(xùn)練方法，并進行更全面的跨領(lǐng)域泛化分析。
泛化性：一個好的數(shù)學(xué)模型不應(yīng)僅限于解決 GSM8K 和 MATH 數(shù)據(jù)集上的問題；它應(yīng)該能夠處理各種類型的問題，包括評估不同知識領(lǐng)域并需要不同類型的回答的問題（例如，多項選擇、真假、證明、算術(shù)等）。當(dāng)前模型的能力不足以泛化到這些多樣的場景。
通用性：最終，作者預(yù)計大型模型賦予的數(shù)學(xué)推理能力可以整合到各個領(lǐng)域的聊天機器人中，如醫(yī)學(xué)、法律、物理學(xué)、化學(xué)等。實現(xiàn) AGI 的關(guān)鍵在于將強大的數(shù)學(xué)模型的力量融入其他模型中，而這在當(dāng)前項目中尚未探索。
多語言性：當(dāng)前模型的訓(xùn)練數(shù)據(jù)和基本模型限制了它在除英語以外的語言中提供回應(yīng)的能力。
高級技術(shù)：當(dāng)前模型主要關(guān)注有監(jiān)督精調(diào)（SFT），尚未探索獎勵模型、RLHF（從人類反饋中進行強化學(xué)習(xí)）和工具調(diào)用等高級技術(shù)。

開發(fā)者表示已經(jīng)列出了一系列問題，并用 Github 維護這些限制和潛在解決方案。歡迎大家提出建設(shè)性意見和見解。

下一步計劃

最后，作者也簡單用一張圖透露了實驗室的下一步計劃：從 “阿貝爾” 到 “伯努利”。

責(zé)任編輯：張燕妮來源：機器之心

AI 開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

打破美國AI公司霸榜，上交AI數(shù)學(xué)開源模型阿貝爾排行榜首

模型表現(xiàn)

訓(xùn)練方法

局限性 & 規(guī)劃

下一步計劃