上財開源首個金融領域R1類推理大模型,7B模型媲美DeepSeek-R1 671B滿血版性能
該項目由上海財經大學統計與數據科學學院張立文教授與上海財經大學統計與數據科學學院博士生郭鑫、碩士生劉趙偉和課題組核心成員蔡維格、牛晉怡、曾凌峰、婁方齊、王子璇、胥佳杰、趙學前、楊子緯,以及財躍星辰白祚博士和團隊成員陳德智、許晟、李超共同完成。
近日,上海財經大學統計與數據科學學院張立文教授與其領銜的金融大語言模型課題組(SUFE-AIFLM-Lab)聯合數據科學和統計研究院、財躍星辰、滴水湖高級金融學院正式發布首款 DeepSeek-R1 類推理型人工智能金融大模型:Fin-R1,以僅 7B 的輕量化參數規模展現出卓越性能,全面超越參評的同規模模型并以 75 的平均得分位居第二,與參數量為 671B 的行業標桿 DeepSeek-R1 平均分差距僅為 3.0%。
Fin-R1 基于 Qwen2.5-7B-Instruct 模型開發,通過構建高質量金融推理數據集與兩階段混合框架訓練,實現了金融推理的邏輯閉環,其技術創新表明高校在垂直領域大模型研發中實現了從技術突破到產業落地的閉環,標志著高校在金融科技領域的自主創新邁入新高度。
- Github 地址:https://github.com/SUFE-AIFLM-Lab/Fin-R1
- 技術報告:https://arxiv.org/abs/2503.16252
- 模型地址:https://huggingface.co/SUFE-AIFLM-Lab/Fin-R1
1、簡介
當前推理型大語言模型在眾多領域正迅速發展,然而當通用推理模型落地金融領域時,仍面臨垂直場景適配性不足的挑戰。金融推理任務常涉及法律條款、經濟指標、數理建模等知識,不僅需要跨學科知識融合,更要求可驗證的、分步驟的決策邏輯。在實際的金融業務場景中,模型應用普遍面臨知識整合困難、決策過程不透明、業務泛化能力不足等問題。
為此,我們從多個權威數據源蒸餾并篩選出約 60k 條面向金融專業場景的高質量 COT 數據集 Fin-R1-Data,該數據集涵蓋中英文金融垂直領域的多維度專業知識并根據具體任務內容將其分為金融代碼、金融專業知識、金融非推理類業務知識和金融推理類業務知識四大模塊,可有效支撐銀行、證券以及信托等多個金融核心業務場景。在 Fin-R1-Data 數據的基礎上我們以 Qwen2.5-7B-Instruct 為基座進行指令微調 (SFT) 預熱和強化學習 (RL) 訓練得到金融推理大模型 Fin-R1。我們通過構建金融高質量 CoT 數據集與結合指令微調(SFT)和強化學習(RL)進行訓練的兩階段工作框架為模型在金融領域的應用提供了堅實的理論支撐、決策邏輯以及技術實現能力,同時能有效提升模型的金融復雜推理能力和泛化能力,使模型在金融推理任務中展現出卓越性能。
圖 1 Fin-R1 應用場景示例
Fin-R1 的總體工作流程如下:我們首先通過構建 60k 規模的金融推理數據集 Fin-R1-Data,幫助模型重構知識體系,然后采用 "兩步驟訓練框架" 塑造模型認知和推理能力,最后在多個金融基準測試上驗證模型的性能突破,實現了從 “數據構建 - 模型訓練 - 性能驗證 - 模型部署 - 場景應用” 的完整技術閉環。
圖 2 Fin-R1 總體工作流程
2、場景應用 —— 強大的多場景適配能力
金融代碼是指在金融領域中用于實現各種金融模型、算法和分析任務的計算機編程代碼,涵蓋了從簡單的財務計算到復雜的金融衍生品定價、風險評估和投資組合優化等多個方面,以方便金融專業人士進行數據處理、統計分析、數值計算和可視化等工作。
金融計算是對金融領域的各種問題進行定量分析和計算的過程,其核心在于通過建立數學模型和運用數值方法來解決實際金融問題,可為金融決策提供科學依據,幫助金融機構和投資者更好地管理風險、優化資源配置和提高投資回報率。
英語金融計算強調在跨語言環境下使用英語進行金融模型的構建和計算,并能夠以英語撰寫金融分析報告和與國際同行進行溝通交流。
金融安全合規聚焦于防范金融犯罪與遵守監管要求,幫助企業建立健全的合規管理體系,定期進行合規檢查和審計,確保業務操作符合相關法規要求。
智能風控利用 AI 與大數據技術識別和管理金融風險,與傳統風控手段相比,智能風控具有更高的效率、準確性和實時性,它通過對海量金融數據的深度挖掘和分析,能夠發現潛在的風險模式和異常交易行為,從而及時預警和采取相應的風險控制措施。
ESG 分析通過評估企業在環境(Environmental)、社會(Social)、治理(Governance)的表現,衡量其可持續發展能力,確保投資活動不僅能夠獲得財務回報,還能促進可持續發展和社會責任的履行。金融機構和企業也通過提升自身的 ESG 績效,來滿足投資者和社會對企業更高的期望和要求。
3、數據構建 —— 破解知識碎片難題
傳統的金融數據分散、標注成本高,而且缺乏對復雜推理邏輯的針對性設計,導致模型難以適配金融業務場景,為將 DeepSeek-R1 的推理能力遷移至金融場景并解決高質量金融推理數據問題,我們用 Deepseek - R1(滿血版)針對涵蓋行業語料(FinCorpus、Ant_Finance),專業認知(FinPEE),業務知識(FinCUGE、FinanceIQ、Finance-Instruct-500K),表格解析(FinQA),市場洞察(TFNS),多輪交互(ConvFinQA)以及量化投資(FinanceQT)的多個數據集進行領域知識蒸餾篩選,構建了約 60k 條面向專業金融推理場景的高質量 COT 數據集 Fin-R1-Data 。
圖 3 Fin-R1 數據生成流程
3.1 數據蒸餾
在蒸餾過程中,我們構建了基于 Deepseek - R1 的數據蒸餾框架。在蒸餾過程中,嚴格遵循 DeepSeek - R1 官方規范配置參數,具體參數配置如下:
- 將 temperature 設定為 0.6;
- 針對數學類型數據,采用 "請用 \\boxed {{}} 格式包裹最終答案" 作為標準化提示詞;
- 防止跳出思維模式,強制在每個輸出的開頭增加 "\n",再開始生成數據。
3.2 數據篩選
為了保證數據質量,項目組首創 “答案 + 推理邏輯” 雙輪打分機制,雙輪質檢,嚴把數據關。
- 第一輪:用規則匹配和 Qwen2.5-72B-Instruct 對答案準確性進行打分,確保數據 “零錯誤”;
- 第二輪:深度校驗推理邏輯的一致性和術語合規性,讓 AI 的 “思維鏈條” 嚴絲合縫。
- 第三輪:引入金融專家團隊對關鍵數據進行人工復核,保障訓練數據高質量。
圖 4 Fin-R1 數據分布
表 1 Fin-R1 數據量表
4、模型訓練 ——“劃重點 - 考試 - 打分”
4.1 特訓成果:金融界的 "最強大腦"
針對金融領域復雜推理任務,我們利用 Qwen2.5-7B-Instruct 進行兩步驟微調訓練得到金融推理大語言模型 Fin-R1 。首先通過高質量金融推理數據的 SFT (Supervised Fine-Tuning) 幫助模型重構知識體系,然后在 GRPO(Group Relative Policy Optimization) 算法的基礎上結合格式獎勵和準確度獎勵進行強化學習,以此提升金融推理任務的準確性和泛化能力。Fin-R1 能夠完整地呈現思考過程,為金融決策提供深入且有價值的洞察,更為金融投資、風險管理、智能投顧以及量化交易等金融業務領域提供了可靠的技術底座。未來,這樣的 "金融特訓營" 模式有望在更多專業領域復制推廣。
4.2 微調訓練(SFT 指令微調)
針對非推理類模型在 RL 訓練過程中存在訓練不穩定等問題,研究團隊對 AI 進行專項知識補課,像教學生一樣訓練模型,讓非推理類模型掌握金融推理的基本功。使用金融推理數據集對模型進行定向訓練(SFT),使模型初步具備長思維鏈思考模式,降低模型訓練難度,保證訓練穩定性。
4.3 實戰優化(RL 強化學習)
通過考試和專家打分(RL 強化學習),不斷糾正 AI 在復雜場景中的判斷失誤,確保每個決策都經得起推敲。在模型掌握基礎知識后,通過 "考試 + 專家打分" 機制(RL)持續提升專業性:
- 智能考官把關:引入 Qwen2.5-Max 作為驗證器用于檢查答案對錯,比傳統正則表達式方式準確度更高。
- 雙軌打分制:采用 “基于規則的格式獎勵 “和” 基于模型驗證的準確性獎勵 “兩種獎勵訓練模型,實現金融文本生成 “形神兼備”。
圖 5 Fin-R1 模型訓練流程
5、性能驗證 —— 專業場景性能超越,驗證技術閉環價值
在覆蓋多項金融業務場景的權威評測中,我們考慮模型的推理能力與資源消耗,將 Fin-R1 與涵蓋輕量級和高性能的不同模型進行了全面評估。最終 Fin-R1 以僅 7B 的輕量化參數規模展現出顯著的性能優勢,以 75.2 的平均得分位居第二,全面超越同規模參評模型,同時與行業標桿 DeepSeek-R1 平均分差距僅 3.0, 且超越 DeepSeek-R1-Distill-Llama-70B(69.2)6.0 分。此外,Fin-R1 在聚焦真實金融表格數值推理任務的 FinQA 以及多輪交互場景的 ConvFinQA 兩大關鍵任務測試上分別以 76.0 和 85.0 的得分在參評模型中登頂第一,展現出了模型在金融推理場景及金融多輪交互場景中的強大處理能力。
Fin-R1 的評測表現不僅反映出模型在投顧服務、投資者會議等多輪交互場景中具有長對話跟蹤能力,能避免傳統模型常見的上下文遺忘或邏輯跳躍問題并生成邏輯連貫的漸進式建議,同時展現出模型在處理財務報表重組、財務比率交叉驗證時的強大數值推理能力。精準覆蓋金融行業對可解釋性、合規性、數值嚴謹性的核心訴求。具體評測結果如下:
表 2 Fin-R1 及其他模型在各數據集上的評測表現
6、模型部署
Github 現已提供 "開箱即用" 的本地化部署方案,只需運行一個安裝腳本,就能在單張 4090 顯卡上輕松部署 Fin-R1 模型。無論是銀行風控還是量化交易,用戶都能快速上手,解決各類金融場景問題,真正實現 "一鍵部署,金融 AI 觸手可及"!
7、總結
Fin-R1 從訓練框架到模型權重均開源,計算資源需求量小,個人電腦即可部署,更加適用于金融場景,并且通過兩階段訓練框架,解決了金融數據碎片化和推理邏輯不可控等問題,在各大金融基準測試中表現卓越,展現出強大的推理能力和業務泛化能力,為金融智能化發展提供了有力支持。