打破美國AI公司霸榜,上交AI數(shù)學(xué)開源模型阿貝爾排行榜首
以 ChatGPT 為代表的大模型產(chǎn)品引領(lǐng)了一場新的產(chǎn)業(yè)革命,激發(fā)了國內(nèi)外各機構(gòu)積極投入相關(guān)技術(shù)研究的熱情。在過去幾個月的技術(shù)競爭中,國產(chǎn)大模型在文本理解和知識理解任務(wù)方面表現(xiàn)出色,堪稱一位優(yōu)秀的 “文科生”。
然而,在復(fù)雜數(shù)學(xué)推理計算、物理建模、科學(xué)發(fā)現(xiàn)等 “理科” 領(lǐng)域,大模型的研究尚未達到令人滿意的水平,與美國頂尖科技公司(OpenAI、Google、Anthropic)相比,仍存在很大差距。例如,在數(shù)學(xué)推理方面的權(quán)威評測集 GSM8K 和 MATH 上,美國 AI 公司一直占據(jù)前幾名,突顯了其領(lǐng)先地位。
在這樣的背景下,上海交大生成式人工智能研究組 (GAIR) 積極攻克難關(guān),研發(fā)并開源了數(shù)學(xué)計算大模型 “阿貝爾(Abel)”,在多個榜單上取得開源第一!是首個海內(nèi)外高校團隊推出的 SOTA 數(shù)學(xué)開源大模型。
- 項目主頁:https://GAIR-NLP.github.io/abel
- 開源模型:https://github.com/GAIR-NLP/abel
“在還未回國前,我和 Meta 非常優(yōu)秀的科學(xué)家合作了一篇叫做 LIMA 的工作,在那篇工作里我們僅使用 1000 個樣本就可以訓(xùn)練模型使其在達到接近 GPT4 的水平。但是這種 “少即是多” 的思想并沒有在所有的任務(wù)場景上都得到了驗證,比如數(shù)學(xué)推理。這也成為當(dāng)時的遺憾,使得我對如何讓大模型學(xué)好數(shù)學(xué)充滿了興趣。”上海交大生成式人工智能研究組負(fù)責(zé)人同時也是阿貝爾項目的負(fù)責(zé)人劉鵬飛分享道。“Abel 是為了致敬挪威偉大數(shù)學(xué)家 尼爾斯?阿貝爾 (Niels Henrik Abel) 在代數(shù)和分析方面的開創(chuàng)性工作而創(chuàng)建的,代數(shù)也是現(xiàn)在模型相對擅長解決的,不過,我們還有很長的路要走。”
模型表現(xiàn)
表 1:?? 代表專有模型,而 ?? 表示開源模型,?? 表示模型開發(fā)由學(xué)術(shù)大學(xué)主導(dǎo)(而不是由公司主導(dǎo));這里僅考慮不使用任何工具(例如 Python)的模型;GAIRMath-Abel 為該團隊提出的模型
在阿貝爾(GAIRMath-Abel)這個項目里,作者展示了,盡管
- 沒有使用工具
- 沒有使用數(shù)學(xué)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)
- 沒有使用獎勵模型
- 沒有使用基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)
- 僅使用有監(jiān)督精調(diào)(Supervised Fine-tuning,SFT)
阿貝爾在 GSM8k(83.62)和 MATH(28.26)權(quán)威評測集上實現(xiàn)了開源數(shù)學(xué)模型(不使用外部工具)的最好成績,具體說來:
- 在 GSM8K 上的性能達到了 83.62,超過了許多國外大廠優(yōu)秀的模型,如 PaLM-1、Minerva(Google)、Claude-instant(Anthropic)以及 ChatGPT(OpenAI),僅落后于 Google 的最新模型 PaLM-2-Flan1 個百分點;同時也顯著高于所有開源國產(chǎn)模型
- 在具有高難度的數(shù)學(xué)競賽問題上,阿貝爾準(zhǔn)確率達到了 28.26%(相比于 GPT4 的 42.5%),它在其他開源模型中保持了顯著領(lǐng)先地位,超過了之前最佳的開源模型 5 個多百分點
- 7B 和 13B 模型在 GSM8K 和 MATH 兩方面以顯著優(yōu)勢取得了開源模型性能的最佳
- 阿貝爾在排行榜前十名中占據(jù)了 3 個位置,并且是唯一一家由大學(xué)領(lǐng)導(dǎo)的項目(其他都是明星創(chuàng)業(yè)公司或大型科技公司)
- 使用作者的方法,不僅在 GSM8K 和 MATH 上取得了出色的成績,而且在提供新數(shù)據(jù)集(TALSCQ-EN)時,迅速達到了最好性能(SOTA),并且輕松超越了商業(yè)模型 MathGPT 和 GPT4。
除了優(yōu)秀的性能本身,該項目也揭示了:
- 有監(jiān)督精調(diào)的能力被嚴(yán)重低估,研究人員應(yīng)該以應(yīng)有的敬畏和謹(jǐn)慎來對待這個過程。
- 出色的數(shù)學(xué)問題解決能力可以通過有監(jiān)督精調(diào)實現(xiàn)的很好,這將在未來對這個方向的探索中引發(fā)更多富有想象力的可能性
訓(xùn)練方法
為了訓(xùn)練阿貝爾,該團隊提出Parental Oversight (家長監(jiān)督),一種監(jiān)督微調(diào)的保姆策略(Babysitting Strategy)。
Parental Oversight 的核心理念在于,在對大模型進行微調(diào)的過程中應(yīng)該懷著一種敬畏和謹(jǐn)慎的態(tài)度,就如同家長在對孩子進行教育時,必須要用最淺顯易懂并謹(jǐn)慎的方式進行教導(dǎo),在穩(wěn)健成長的同時避免揠苗助長。各種不同的數(shù)據(jù)和數(shù)據(jù)的呈現(xiàn)方式 代表的是不同的教育方式,而研究者必須謹(jǐn)慎小心的選擇最好的方式教導(dǎo)大模型。
事實上,在 GAI 的背景下,數(shù)據(jù)結(jié)構(gòu)工程 (Data Structure Engineering) 已經(jīng)成為一種新的范式。有效的處理數(shù)據(jù)的方向?qū)Υ竽P驮诓煌掠稳蝿?wù)上的成功與否有著極為關(guān)鍵性的影響。從 Parental Oversight 理念出發(fā),在復(fù)雜推理任務(wù)上取得好的結(jié)果,最關(guān)鍵的是要精心策劃訓(xùn)練數(shù)據(jù),而不是不加選擇地使用任何樣本進行監(jiān)督學(xué)習(xí)。
通過最精確謹(jǐn)慎的監(jiān)督,協(xié)助大模型在復(fù)雜推理的下游任務(wù)上成長。在有監(jiān)督精調(diào)的訓(xùn)練樣本中,不僅應(yīng)包含正確的答案,還應(yīng)告訴模型如何從預(yù)訓(xùn)練模型的知識中獲得正確答案。此外,如果語言模型的知識不足以獲得真實答案,監(jiān)護監(jiān)督應(yīng)該幫助模型迅速填補知識上的空白。
局限性 & 規(guī)劃
盡管阿貝爾數(shù)學(xué)模型在評估的幾個數(shù)據(jù)集上表現(xiàn)優(yōu)異,但是開發(fā)者也總結(jié)了它的不足之處:
- 過擬合:盡管進行了魯棒性分析,并考慮到數(shù)學(xué)生成型 AI 天生具有脆弱性(通常需要高級解碼策略,如多數(shù)投票),但過于依賴構(gòu)建 SFT 樣本以提高性能可能會不可避免地導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。(然而,過擬合并不是當(dāng)前項目的主要關(guān)注點,因為即使對過擬合各種增強訓(xùn)練數(shù)據(jù),對于復(fù)雜的數(shù)學(xué)推理任務(wù),如 MATH 數(shù)據(jù)集,仍然很難實現(xiàn)有利的測試結(jié)果。)盡管如此,團隊仍然需要進行更廣泛的健壯性分析,并積極探索可以將模型轉(zhuǎn)化為數(shù)學(xué)通才的訓(xùn)練方法,并進行更全面的跨領(lǐng)域泛化分析。
- 泛化性:一個好的數(shù)學(xué)模型不應(yīng)僅限于解決 GSM8K 和 MATH 數(shù)據(jù)集上的問題;它應(yīng)該能夠處理各種類型的問題,包括評估不同知識領(lǐng)域并需要不同類型的回答的問題(例如,多項選擇、真假、證明、算術(shù)等)。當(dāng)前模型的能力不足以泛化到這些多樣的場景。
- 通用性:最終,作者預(yù)計大型模型賦予的數(shù)學(xué)推理能力可以整合到各個領(lǐng)域的聊天機器人中,如醫(yī)學(xué)、法律、物理學(xué)、化學(xué)等。實現(xiàn) AGI 的關(guān)鍵在于將強大的數(shù)學(xué)模型的力量融入其他模型中,而這在當(dāng)前項目中尚未探索。
- 多語言性:當(dāng)前模型的訓(xùn)練數(shù)據(jù)和基本模型限制了它在除英語以外的語言中提供回應(yīng)的能力。
- 高級技術(shù):當(dāng)前模型主要關(guān)注有監(jiān)督精調(diào)(SFT),尚未探索獎勵模型、RLHF(從人類反饋中進行強化學(xué)習(xí))和工具調(diào)用等高級技術(shù)。
開發(fā)者表示已經(jīng)列出了一系列問題,并用 Github 維護這些限制和潛在解決方案。歡迎大家提出建設(shè)性意見和見解。
下一步計劃
最后,作者也簡單用一張圖透露了實驗室的下一步計劃:從 “阿貝爾” 到 “伯努利”。