FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%

發(fā)布于 2025-6-19 07:37

瀏覽

0收藏

大型語(yǔ)言模型（LLMs）在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色，但在專業(yè)金融任務(wù)中仍存在性能不足。

本文提出FinLoRA基準(zhǔn)，評(píng)估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn)。創(chuàng)建19個(gè)金融數(shù)據(jù)集，包括4個(gè)新XBRL分析數(shù)據(jù)集，支持LoRA方法的評(píng)估。實(shí)施并比較五種LoRA方法，平均提高36%準(zhǔn)確率，驗(yàn)證低秩適應(yīng)和量化的有效性。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

摘要

FinLoRA項(xiàng)目基于LoRA方法，評(píng)估其在金融領(lǐng)域的應(yīng)用，特別是CFA考試和SEC文件分析。研究中使用了19個(gè)金融數(shù)據(jù)集，包括4個(gè)基于150份SEC文件的新XBRL分析數(shù)據(jù)集。評(píng)估了5種LoRA方法和5種基礎(chǔ)LLM，結(jié)果顯示LoRA方法在性能上平均提升36%。提供了準(zhǔn)確率、F1、BERTScore等實(shí)驗(yàn)結(jié)果，以及在微調(diào)和推理階段的計(jì)算成本。FinLoRA旨在普及金融智能化。

簡(jiǎn)介

大型語(yǔ)言模型（LLMs）在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色，但在專業(yè)金融任務(wù)中仍存在性能不足。完全微調(diào)計(jì)算成本高，參數(shù)高效微調(diào)（PEFT）如低秩適應(yīng)（LoRA）成為可行解決方案，能提升LLMs在特定領(lǐng)域的表現(xiàn)。

FinLoRA是一個(gè)新基準(zhǔn)，評(píng)估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn)，特別是XBRL數(shù)據(jù)分析。本研究創(chuàng)建19個(gè)金融數(shù)據(jù)集，包括4個(gè)新XBRL分析數(shù)據(jù)集，支持LoRA方法的評(píng)估。實(shí)施并比較五種LoRA方法，平均提高36%準(zhǔn)確率，驗(yàn)證低秩適應(yīng)和量化的有效性。進(jìn)行了46輪微調(diào)和194輪評(píng)估，從多個(gè)角度分析LoRA方法的表現(xiàn)和資源需求。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

LLMs是否需要對(duì)財(cái)務(wù)任務(wù)進(jìn)行微調(diào)？

雖然通用LLMs表現(xiàn)出優(yōu)秀的NLP能力，但它們?cè)趶?fù)雜的財(cái)務(wù)任務(wù)上的表現(xiàn)往往不足。

缺乏高質(zhì)量金融數(shù)據(jù)：通用LLM的預(yù)訓(xùn)練數(shù)據(jù)集（如The Pile）主要來(lái)自一般網(wǎng)絡(luò)爬蟲，缺乏專門的金融數(shù)據(jù)，需通過(guò)針對(duì)性微調(diào)以獲取復(fù)雜金融分析所需的理解。

通用LLM在專業(yè)金融任務(wù)中的不足：通用LLM在處理需要深厚領(lǐng)域知識(shí)的任務(wù)（如XBRL分析）時(shí)表現(xiàn)不佳，常因表面關(guān)鍵詞匹配而出錯(cuò)，微調(diào)后可顯著改善。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

成本與時(shí)間：從零開始訓(xùn)練模型（如BloombergGPT）成本高達(dá)270萬(wàn)美元且耗時(shí)253天，使用LoRA方法微調(diào)現(xiàn)有模型更具經(jīng)濟(jì)性和時(shí)間效率。

FinLoRA基準(zhǔn)

基準(zhǔn)任務(wù)、數(shù)據(jù)集和指標(biāo)

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

任務(wù)類型：一般金融任務(wù)、金融證書、財(cái)務(wù)報(bào)告、財(cái)務(wù)報(bào)表分析。

公共金融數(shù)據(jù)集：FinLoRA包含15個(gè)數(shù)據(jù)集。

情感分析：FPB、FiQA SA、TFNS、NWGI，包含金融文本和情感標(biāo)簽。
標(biāo)題分析：Headline數(shù)據(jù)集，基于問(wèn)題將金融標(biāo)題分類為“是”或“否”。
命名實(shí)體識(shí)別：NER數(shù)據(jù)集，標(biāo)注地點(diǎn)、人物、組織。
金融證書：CFA和CPA相關(guān)證書。
財(cái)務(wù)報(bào)告：XBRL術(shù)語(yǔ)、FiNER、FNXL。
財(cái)務(wù)報(bào)表分析：Financial Math和FinanceBench。

新增四個(gè)XBRL分析數(shù)據(jù)集：基于2019-2023年道瓊斯30家公司年報(bào)，包含問(wèn)題、相關(guān)XBRL文本片段和答案。數(shù)據(jù)集任務(wù)類型：

XBRL標(biāo)簽提取：根據(jù)自然語(yǔ)言描述提取特定XBRL標(biāo)簽。
XBRL數(shù)值提取：根據(jù)自然語(yǔ)言描述提取數(shù)值。
XBRL公式構(gòu)建：識(shí)別相關(guān)事實(shí)和標(biāo)簽，構(gòu)建標(biāo)準(zhǔn)財(cái)務(wù)公式。
XBRL公式計(jì)算：將數(shù)值代入公式并計(jì)算結(jié)果。

數(shù)據(jù)集構(gòu)建流程：將財(cái)務(wù)任務(wù)分類為九類，為每類創(chuàng)建訓(xùn)練集，使用2019-2023年道瓊斯30家公司10-K報(bào)告生成問(wèn)題，自動(dòng)過(guò)濾相關(guān)XBRL文件片段。

評(píng)估指標(biāo)：使用準(zhǔn)確匹配（EM）評(píng)估LLM輸出，報(bào)告準(zhǔn)確率和加權(quán)F1分?jǐn)?shù)，XBRL術(shù)語(yǔ)和FinanceBench使用BERTScore F1。

基礎(chǔ)模型和LoRA方法

基準(zhǔn)模型：評(píng)估了Llama 3.1 8B Instruct和Gemini 2.0 Flash Lite的LoRA微調(diào)性能，另外還評(píng)估了Llama 3.1 70B Instruct、DeepSeek V3和GPT-4o作為基模型。

LoRA方法：

Vanilla LoRA：通過(guò)低秩分解引入可訓(xùn)練權(quán)重，保持預(yù)訓(xùn)練模型權(quán)重不變。
QLoRA：使用4位量化減少內(nèi)存，動(dòng)態(tài)去量化權(quán)重。
DoRA：將權(quán)重分解為幅度向量和方向矩陣，僅更新方向矩陣，保持參數(shù)數(shù)量與LoRA相同。
rsLoRA：使用穩(wěn)定的縮放因子，增強(qiáng)高秩任務(wù)的梯度穩(wěn)定性。
LoRA與聯(lián)邦學(xué)習(xí)：在金融領(lǐng)域，允許多個(gè)機(jī)構(gòu)在不共享數(shù)據(jù)的情況下，通過(guò)本地?cái)?shù)據(jù)微調(diào)模型并聚合LoRA更新。

基準(zhǔn)的角度

LoRA方法性能評(píng)估：比較LoRA、QLoRA、rsLoRA、DoRA與Gemini 2.0 Flash Lite在金融任務(wù)中的表現(xiàn)，評(píng)估其相對(duì)SOTA模型的效果。

LoRA適用性研究：探討不同金融任務(wù)（如情感分析、XBRL標(biāo)記與分析）對(duì)LoRA微調(diào)的響應(yīng)性及數(shù)據(jù)集特性。

資源與成本比較：分析不同LoRA方法的微調(diào)成本及推理速度，評(píng)估其在實(shí)時(shí)金融應(yīng)用中的延遲和吞吐量?jī)?yōu)勢(shì)。

實(shí)際部署考慮：

數(shù)據(jù)隱私：研究在多機(jī)構(gòu)協(xié)作訓(xùn)練中如何通過(guò)聯(lián)邦學(xué)習(xí)保護(hù)數(shù)據(jù)隱私，比較本地LoRA微調(diào)與集中訓(xùn)練的表現(xiàn)。
災(zāi)難性遺忘：評(píng)估LoRA微調(diào)對(duì)模型通用知識(shí)的影響，通過(guò)MMLU等基準(zhǔn)測(cè)試量化性能變化。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)在四個(gè)NVIDIA A5000 GPU上進(jìn)行，使用不同的推理和微調(diào)API。針對(duì)每種LoRA方法，基于任務(wù)類別合并訓(xùn)練集微調(diào)了9個(gè)LoRA適配器，學(xué)習(xí)率為1e-4，批量大小為2-8。推理時(shí)溫度設(shè)置為0.0，共進(jìn)行了46輪微調(diào)和194輪評(píng)估。

角度一：LoRA方法在金融數(shù)據(jù)集上的性能

Vanilla LoRA（8位，秩8）在整體平均分上表現(xiàn)最佳（74.74），比Llama 3.1 8B基模型（37.05）提高了37.69%。Vanilla LoRA在一般金融任務(wù)中優(yōu)于其他LoRA變體，而rsLoRA在金融分析、報(bào)告和財(cái)務(wù)報(bào)表分析中表現(xiàn)最佳。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

rsLoRA在高秩下表現(xiàn)更佳，設(shè)置r=8以提高內(nèi)存效率，盡管在低秩下略遜于LoRA和QLoRA，但在高秩（如r=64）時(shí)能顯著降低困惑度，捕捉更多細(xì)節(jié)。

DoRA的表現(xiàn)不如其他LoRA方法，因更新幅度向量和方向矩陣使用相同學(xué)習(xí)率導(dǎo)致訓(xùn)練不足，建議為幅度向量設(shè)置更高的學(xué)習(xí)率以提高性能。

LoRA調(diào)優(yōu)的Llama 3.1 8B模型在大多數(shù)數(shù)據(jù)集上表現(xiàn)優(yōu)于SOTA基線模型，盡管在NWGI和FNXL上表現(xiàn)不佳；與Gemini 2.0 FL模型相比，Llama 3.1在金融分析和XBRL數(shù)據(jù)分析任務(wù)上表現(xiàn)更強(qiáng)。

角度二：財(cái)務(wù)任務(wù)LoRA適用性

LoRA在不同金融任務(wù)中的效果差異明顯，XBRL分析任務(wù)的性能提升顯著，而FinanceBench的提升有限。XBRL數(shù)據(jù)的標(biāo)準(zhǔn)化語(yǔ)義和分類法為L(zhǎng)LM提供了更結(jié)構(gòu)化的學(xué)習(xí)環(huán)境，促進(jìn)了更有效的適應(yīng)。FinanceBench依賴于缺乏豐富標(biāo)準(zhǔn)化元數(shù)據(jù)的OCR處理PDF數(shù)據(jù)，導(dǎo)致效果不佳。XBRL在金融報(bào)告分析中對(duì)LLM集成的有效性至關(guān)重要。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

角度三：LoRA方法的資源使用和性能權(quán)衡

LoRA微調(diào)模型的計(jì)算成本：使用四個(gè)NVIDIA A5000 GPU，微調(diào)時(shí)間為14.1小時(shí)（QLoRA）至15.9小時(shí)（DoRA），總GPU小時(shí)約為56.4至63.6小時(shí)，成本約為$14.66至$16.54。該成本顯著低于Google或OpenAI的微調(diào)服務(wù)。Gemini API在推理延遲上表現(xiàn)更優(yōu)，對(duì)增加的提示長(zhǎng)度不敏感，盡管考慮到網(wǎng)絡(luò)開銷。本地部署的Llama 3.1 8B Instruct推理速度可通過(guò)增大批量大小顯著提升。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

角度四：LoRA在真實(shí)金融場(chǎng)景中的實(shí)用性

Federated LoRA: 在四節(jié)點(diǎn)環(huán)境中評(píng)估了Federated LoRA，使用FedAvg算法，結(jié)果顯示其性能優(yōu)于基礎(chǔ)Llama模型，但不及集中式LoRA。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

災(zāi)難性遺忘: 評(píng)估了8個(gè)適配器在MMLU和GSM8K基準(zhǔn)上的表現(xiàn)，結(jié)果顯示所有適配器與基礎(chǔ)模型在MMLU上準(zhǔn)確率相同，GSM8K上表現(xiàn)更佳，表明LoRA沒(méi)有出現(xiàn)災(zāi)難性遺忘，且可能存在跨領(lǐng)域知識(shí)轉(zhuǎn)移。

FinLoRA：在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法，性能提升36%-AI.x社區(qū)

總結(jié)

本文提出FinLoRA基準(zhǔn)，評(píng)估LoRA方法在一般和專業(yè)金融任務(wù)上的表現(xiàn)。收集了19個(gè)多樣化的數(shù)據(jù)集，涵蓋廣泛的金融應(yīng)用。進(jìn)行了46輪微調(diào)和194輪評(píng)估，全面分析常用LoRA方法。提供整體性能、任務(wù)特定結(jié)果、微調(diào)和推理的資源需求及實(shí)際部署考慮（如數(shù)據(jù)隱私和災(zāi)難性遺忘）。結(jié)果顯示微調(diào)顯著提升LLM在金融任務(wù)上的有效性。FinLoRA提供數(shù)據(jù)集和基線結(jié)果，為未來(lái)研究奠定基礎(chǔ)。計(jì)劃通過(guò)納入更多LoRA方法擴(kuò)展FinLoRA。

本文轉(zhuǎn)載自??靈度智能??，作者：靈度智能

標(biāo)簽

LLM

LoRA

FinLoRA

已于2025-6-19 09:33:27修改

贊

回復(fù)