FinLoRA:在金融數(shù)據(jù)集上微調(diào)LLM的基準(zhǔn)LoRA方法,性能提升36%
大型語(yǔ)言模型(LLMs)在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色,但在專業(yè)金融任務(wù)中仍存在性能不足。
本文提出FinLoRA基準(zhǔn),評(píng)估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn)。創(chuàng)建19個(gè)金融數(shù)據(jù)集,包括4個(gè)新XBRL分析數(shù)據(jù)集,支持LoRA方法的評(píng)估。實(shí)施并比較五種LoRA方法,平均提高36%準(zhǔn)確率,驗(yàn)證低秩適應(yīng)和量化的有效性。
摘要
FinLoRA項(xiàng)目基于LoRA方法,評(píng)估其在金融領(lǐng)域的應(yīng)用,特別是CFA考試和SEC文件分析。研究中使用了19個(gè)金融數(shù)據(jù)集,包括4個(gè)基于150份SEC文件的新XBRL分析數(shù)據(jù)集。評(píng)估了5種LoRA方法和5種基礎(chǔ)LLM,結(jié)果顯示LoRA方法在性能上平均提升36%。提供了準(zhǔn)確率、F1、BERTScore等實(shí)驗(yàn)結(jié)果,以及在微調(diào)和推理階段的計(jì)算成本。FinLoRA旨在普及金融智能化。
簡(jiǎn)介
大型語(yǔ)言模型(LLMs)在金融、醫(yī)療、法律、教育和科學(xué)發(fā)現(xiàn)等領(lǐng)域表現(xiàn)出色,但在專業(yè)金融任務(wù)中仍存在性能不足。完全微調(diào)計(jì)算成本高,參數(shù)高效微調(diào)(PEFT)如低秩適應(yīng)(LoRA)成為可行解決方案,能提升LLMs在特定領(lǐng)域的表現(xiàn)。
FinLoRA是一個(gè)新基準(zhǔn),評(píng)估不同LoRA變體在復(fù)雜金融任務(wù)中的表現(xiàn),特別是XBRL數(shù)據(jù)分析。本研究創(chuàng)建19個(gè)金融數(shù)據(jù)集,包括4個(gè)新XBRL分析數(shù)據(jù)集,支持LoRA方法的評(píng)估。實(shí)施并比較五種LoRA方法,平均提高36%準(zhǔn)確率,驗(yàn)證低秩適應(yīng)和量化的有效性。進(jìn)行了46輪微調(diào)和194輪評(píng)估,從多個(gè)角度分析LoRA方法的表現(xiàn)和資源需求。
LLMs是否需要對(duì)財(cái)務(wù)任務(wù)進(jìn)行微調(diào)?
雖然通用LLMs表現(xiàn)出優(yōu)秀的NLP能力,但它們?cè)趶?fù)雜的財(cái)務(wù)任務(wù)上的表現(xiàn)往往不足。
缺乏高質(zhì)量金融數(shù)據(jù):通用LLM的預(yù)訓(xùn)練數(shù)據(jù)集(如The Pile)主要來(lái)自一般網(wǎng)絡(luò)爬蟲,缺乏專門的金融數(shù)據(jù),需通過(guò)針對(duì)性微調(diào)以獲取復(fù)雜金融分析所需的理解。
通用LLM在專業(yè)金融任務(wù)中的不足:通用LLM在處理需要深厚領(lǐng)域知識(shí)的任務(wù)(如XBRL分析)時(shí)表現(xiàn)不佳,常因表面關(guān)鍵詞匹配而出錯(cuò),微調(diào)后可顯著改善。
成本與時(shí)間:從零開始訓(xùn)練模型(如BloombergGPT)成本高達(dá)270萬(wàn)美元且耗時(shí)253天,使用LoRA方法微調(diào)現(xiàn)有模型更具經(jīng)濟(jì)性和時(shí)間效率。
FinLoRA基準(zhǔn)
基準(zhǔn)任務(wù)、數(shù)據(jù)集和指標(biāo)
任務(wù)類型:一般金融任務(wù)、金融證書、財(cái)務(wù)報(bào)告、財(cái)務(wù)報(bào)表分析。
公共金融數(shù)據(jù)集:FinLoRA包含15個(gè)數(shù)據(jù)集。
- 情感分析:FPB、FiQA SA、TFNS、NWGI,包含金融文本和情感標(biāo)簽。
- 標(biāo)題分析:Headline數(shù)據(jù)集,基于問(wèn)題將金融標(biāo)題分類為“是”或“否”。
- 命名實(shí)體識(shí)別:NER數(shù)據(jù)集,標(biāo)注地點(diǎn)、人物、組織。
- 金融證書:CFA和CPA相關(guān)證書。
- 財(cái)務(wù)報(bào)告:XBRL術(shù)語(yǔ)、FiNER、FNXL。
- 財(cái)務(wù)報(bào)表分析:Financial Math和FinanceBench。
新增四個(gè)XBRL分析數(shù)據(jù)集:基于2019-2023年道瓊斯30家公司年報(bào),包含問(wèn)題、相關(guān)XBRL文本片段和答案。數(shù)據(jù)集任務(wù)類型:
- XBRL標(biāo)簽提取:根據(jù)自然語(yǔ)言描述提取特定XBRL標(biāo)簽。
- XBRL數(shù)值提取:根據(jù)自然語(yǔ)言描述提取數(shù)值。
- XBRL公式構(gòu)建:識(shí)別相關(guān)事實(shí)和標(biāo)簽,構(gòu)建標(biāo)準(zhǔn)財(cái)務(wù)公式。
- XBRL公式計(jì)算:將數(shù)值代入公式并計(jì)算結(jié)果。
數(shù)據(jù)集構(gòu)建流程:將財(cái)務(wù)任務(wù)分類為九類,為每類創(chuàng)建訓(xùn)練集,使用2019-2023年道瓊斯30家公司10-K報(bào)告生成問(wèn)題,自動(dòng)過(guò)濾相關(guān)XBRL文件片段。
評(píng)估指標(biāo):使用準(zhǔn)確匹配(EM)評(píng)估LLM輸出,報(bào)告準(zhǔn)確率和加權(quán)F1分?jǐn)?shù),XBRL術(shù)語(yǔ)和FinanceBench使用BERTScore F1。
基礎(chǔ)模型和LoRA方法
基準(zhǔn)模型:評(píng)估了Llama 3.1 8B Instruct和Gemini 2.0 Flash Lite的LoRA微調(diào)性能,另外還評(píng)估了Llama 3.1 70B Instruct、DeepSeek V3和GPT-4o作為基模型。
LoRA方法:
- Vanilla LoRA:通過(guò)低秩分解引入可訓(xùn)練權(quán)重,保持預(yù)訓(xùn)練模型權(quán)重不變。
- QLoRA:使用4位量化減少內(nèi)存,動(dòng)態(tài)去量化權(quán)重。
- DoRA:將權(quán)重分解為幅度向量和方向矩陣,僅更新方向矩陣,保持參數(shù)數(shù)量與LoRA相同。
- rsLoRA:使用穩(wěn)定的縮放因子,增強(qiáng)高秩任務(wù)的梯度穩(wěn)定性。
- LoRA與聯(lián)邦學(xué)習(xí):在金融領(lǐng)域,允許多個(gè)機(jī)構(gòu)在不共享數(shù)據(jù)的情況下,通過(guò)本地?cái)?shù)據(jù)微調(diào)模型并聚合LoRA更新。
基準(zhǔn)的角度
LoRA方法性能評(píng)估:比較LoRA、QLoRA、rsLoRA、DoRA與Gemini 2.0 Flash Lite在金融任務(wù)中的表現(xiàn),評(píng)估其相對(duì)SOTA模型的效果。
LoRA適用性研究:探討不同金融任務(wù)(如情感分析、XBRL標(biāo)記與分析)對(duì)LoRA微調(diào)的響應(yīng)性及數(shù)據(jù)集特性。
資源與成本比較:分析不同LoRA方法的微調(diào)成本及推理速度,評(píng)估其在實(shí)時(shí)金融應(yīng)用中的延遲和吞吐量?jī)?yōu)勢(shì)。
實(shí)際部署考慮:
- 數(shù)據(jù)隱私:研究在多機(jī)構(gòu)協(xié)作訓(xùn)練中如何通過(guò)聯(lián)邦學(xué)習(xí)保護(hù)數(shù)據(jù)隱私,比較本地LoRA微調(diào)與集中訓(xùn)練的表現(xiàn)。
- 災(zāi)難性遺忘:評(píng)估LoRA微調(diào)對(duì)模型通用知識(shí)的影響,通過(guò)MMLU等基準(zhǔn)測(cè)試量化性能變化。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)在四個(gè)NVIDIA A5000 GPU上進(jìn)行,使用不同的推理和微調(diào)API。針對(duì)每種LoRA方法,基于任務(wù)類別合并訓(xùn)練集微調(diào)了9個(gè)LoRA適配器,學(xué)習(xí)率為1e-4,批量大小為2-8。推理時(shí)溫度設(shè)置為0.0,共進(jìn)行了46輪微調(diào)和194輪評(píng)估。
角度一:LoRA方法在金融數(shù)據(jù)集上的性能
Vanilla LoRA(8位,秩8)在整體平均分上表現(xiàn)最佳(74.74),比Llama 3.1 8B基模型(37.05)提高了37.69%。Vanilla LoRA在一般金融任務(wù)中優(yōu)于其他LoRA變體,而rsLoRA在金融分析、報(bào)告和財(cái)務(wù)報(bào)表分析中表現(xiàn)最佳。
rsLoRA在高秩下表現(xiàn)更佳,設(shè)置r=8以提高內(nèi)存效率,盡管在低秩下略遜于LoRA和QLoRA,但在高秩(如r=64)時(shí)能顯著降低困惑度,捕捉更多細(xì)節(jié)。
DoRA的表現(xiàn)不如其他LoRA方法,因更新幅度向量和方向矩陣使用相同學(xué)習(xí)率導(dǎo)致訓(xùn)練不足,建議為幅度向量設(shè)置更高的學(xué)習(xí)率以提高性能。
LoRA調(diào)優(yōu)的Llama 3.1 8B模型在大多數(shù)數(shù)據(jù)集上表現(xiàn)優(yōu)于SOTA基線模型,盡管在NWGI和FNXL上表現(xiàn)不佳;與Gemini 2.0 FL模型相比,Llama 3.1在金融分析和XBRL數(shù)據(jù)分析任務(wù)上表現(xiàn)更強(qiáng)。
角度二:財(cái)務(wù)任務(wù)LoRA適用性
LoRA在不同金融任務(wù)中的效果差異明顯,XBRL分析任務(wù)的性能提升顯著,而FinanceBench的提升有限。XBRL數(shù)據(jù)的標(biāo)準(zhǔn)化語(yǔ)義和分類法為L(zhǎng)LM提供了更結(jié)構(gòu)化的學(xué)習(xí)環(huán)境,促進(jìn)了更有效的適應(yīng)。FinanceBench依賴于缺乏豐富標(biāo)準(zhǔn)化元數(shù)據(jù)的OCR處理PDF數(shù)據(jù),導(dǎo)致效果不佳。XBRL在金融報(bào)告分析中對(duì)LLM集成的有效性至關(guān)重要。
角度三:LoRA方法的資源使用和性能權(quán)衡
LoRA微調(diào)模型的計(jì)算成本:使用四個(gè)NVIDIA A5000 GPU,微調(diào)時(shí)間為14.1小時(shí)(QLoRA)至15.9小時(shí)(DoRA),總GPU小時(shí)約為56.4至63.6小時(shí),成本約為$14.66至$16.54。該成本顯著低于Google或OpenAI的微調(diào)服務(wù)。Gemini API在推理延遲上表現(xiàn)更優(yōu),對(duì)增加的提示長(zhǎng)度不敏感,盡管考慮到網(wǎng)絡(luò)開銷。本地部署的Llama 3.1 8B Instruct推理速度可通過(guò)增大批量大小顯著提升。
角度四:LoRA在真實(shí)金融場(chǎng)景中的實(shí)用性
Federated LoRA: 在四節(jié)點(diǎn)環(huán)境中評(píng)估了Federated LoRA,使用FedAvg算法,結(jié)果顯示其性能優(yōu)于基礎(chǔ)Llama模型,但不及集中式LoRA。
災(zāi)難性遺忘: 評(píng)估了8個(gè)適配器在MMLU和GSM8K基準(zhǔn)上的表現(xiàn),結(jié)果顯示所有適配器與基礎(chǔ)模型在MMLU上準(zhǔn)確率相同,GSM8K上表現(xiàn)更佳,表明LoRA沒(méi)有出現(xiàn)災(zāi)難性遺忘,且可能存在跨領(lǐng)域知識(shí)轉(zhuǎn)移。
總結(jié)
本文提出FinLoRA基準(zhǔn),評(píng)估LoRA方法在一般和專業(yè)金融任務(wù)上的表現(xiàn)。收集了19個(gè)多樣化的數(shù)據(jù)集,涵蓋廣泛的金融應(yīng)用。進(jìn)行了46輪微調(diào)和194輪評(píng)估,全面分析常用LoRA方法。提供整體性能、任務(wù)特定結(jié)果、微調(diào)和推理的資源需求及實(shí)際部署考慮(如數(shù)據(jù)隱私和災(zāi)難性遺忘)。結(jié)果顯示微調(diào)顯著提升LLM在金融任務(wù)上的有效性。FinLoRA提供數(shù)據(jù)集和基線結(jié)果,為未來(lái)研究奠定基礎(chǔ)。計(jì)劃通過(guò)納入更多LoRA方法擴(kuò)展FinLoRA。
本文轉(zhuǎn)載自??靈度智能??,作者:靈度智能
