整合 200 多項相關(guān)研究,大模型「終生學(xué)習(xí)」最新綜述來了
該論文作者均來自于華南理工大學(xué)馬千里教授團(tuán)隊,所在實驗室為機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒炇摇U撐牡娜还餐谝蛔髡邽椴┦可嵖『馈⒋T士生邱圣潔、碩士生施成明,主要研究方向包括大模型和終生學(xué)習(xí)等,通訊作者為馬千里教授(IEEE/ACM TASLP 副主編)。馬千里教授團(tuán)隊近年來在國際權(quán)威期刊(如 TPAMI 等)和國際頂級學(xué)術(shù)會議(如 NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等)上發(fā)表多篇 Time Series/NLP/Recommendation System 相關(guān)的研究工作,和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。
隨著大語言模型在各個領(lǐng)域應(yīng)用的不斷拓展,如何讓這些模型能夠連續(xù)適應(yīng)數(shù)據(jù)、任務(wù)和用戶偏好的變化成為一個關(guān)鍵問題。傳統(tǒng)的靜態(tài)數(shù)據(jù)集訓(xùn)練方法已經(jīng)無法滿足現(xiàn)實世界的動態(tài)需求。
為了解決這一挑戰(zhàn),終生學(xué)習(xí)(Lifelong Learning)或連續(xù)學(xué)習(xí)(Continual Learning)技術(shù)應(yīng)運(yùn)而生。它能讓大語言模型在其工作壽命中不斷學(xué)習(xí)和適應(yīng),在整合新知識的同時保留以前學(xué)習(xí)過的信息,防止災(zāi)難性遺忘(Catastrophic Forgetting)。
最近,來自華南理工大學(xué)的研究者調(diào)研、整理并總結(jié)了大語言模型(LLMs)的終生學(xué)習(xí)(Lifelong Learning)方法及其發(fā)展前景,并將其總結(jié)為一篇全面且前沿的綜述。
- 論文標(biāo)題:Towards Lifelong Learning of Large Language Models: A Survey
- 機(jī)構(gòu):華南理工大學(xué)
- 論文地址:https://arxiv.org/abs/2406.06391
- 項目地址:https://github.com/qianlima-lab/awesome-lifelong-learning-methods-for-llm
圖 1 展示了終生學(xué)習(xí)(Lifelong Learning)在大語言模型和人類學(xué)習(xí)過程中的類比。圖中通過兩條平行的學(xué)習(xí)路徑來展示人類和大語言模型在終生學(xué)習(xí)中的進(jìn)化過程。
人類學(xué)習(xí)(Human Learning)
1. 步行(Walk):人類從最基礎(chǔ)的技能(如步行)開始學(xué)習(xí)。
2. 騎自行車(Ride a Bike):隨著學(xué)習(xí)的進(jìn)展,人類掌握了更復(fù)雜的技能(如騎自行車)。
3. 開車(Drive a Car):最終,人類可以掌握更加復(fù)雜和高級的技能(如開車)。
每一步都代表著人類在終生學(xué)習(xí)過程中不斷獲取新技能和知識的過程。
大語言模型學(xué)習(xí)(LLMs Learning)
1. 新語言(New Language):大語言模型從學(xué)習(xí)新的語言開始(如學(xué)會處理不同的自然語言)。
2. 新領(lǐng)域(New Domain):接下來,模型學(xué)習(xí)新的領(lǐng)域知識(如從自然語言處理擴(kuò)展到醫(yī)學(xué)領(lǐng)域)。
3. 新信息(New Information):最終,模型可以學(xué)習(xí)和整合新的信息,無論是語言還是領(lǐng)域。
每一步代表著大語言模型在終生學(xué)習(xí)過程中不斷擴(kuò)展和更新知識的過程。這張圖強(qiáng)調(diào)終生學(xué)習(xí)的過程:終生學(xué)習(xí)是一個連續(xù)的過程,涵蓋了從基礎(chǔ)到高級的逐步進(jìn)化。終生學(xué)習(xí)不僅僅是簡單的知識積累,而是一個動態(tài)的、不斷進(jìn)化的過程。
近年來,終生學(xué)習(xí)已成為一個越來越熱門的研究課題,涌現(xiàn)出有關(guān)神經(jīng)網(wǎng)絡(luò)終生學(xué)習(xí)的大規(guī)模調(diào)查。大多數(shù)現(xiàn)有研究主要關(guān)注卷積神經(jīng)網(wǎng)絡(luò)(CNN)的終生學(xué)習(xí)的各種應(yīng)用場景和圖神經(jīng)網(wǎng)絡(luò)的終生學(xué)習(xí)。然而,只有少量文獻(xiàn)關(guān)注語言模型的終生學(xué)習(xí)。盡管最近的一些綜述收集了終生學(xué)習(xí)的最新文獻(xiàn),但都沒有涉及連續(xù)文本分類、連續(xù)命名實體識別、連續(xù)關(guān)系提取和連續(xù)機(jī)器翻譯等場景,對連續(xù)對齊、連續(xù)知識編輯、基于工具的終生學(xué)習(xí)和基于檢索的終生學(xué)習(xí)的討論也很少。
這篇綜述是第一個從 12 個場景出發(fā),對大語言模型終生學(xué)習(xí)方法進(jìn)行全面系統(tǒng)研究的調(diào)查。
總體來說,綜述的主要貢獻(xiàn)包括:
- 新穎分類:引入了一個詳細(xì)的結(jié)構(gòu)化框架,將有關(guān)終生學(xué)習(xí)的大量文獻(xiàn)分為 12 個場景;
- 通用技術(shù):確定了所有終生學(xué)習(xí)情況下的通用技術(shù),并將現(xiàn)有文獻(xiàn)分為每個場景中不同的技術(shù)組;
- 未來方向:強(qiáng)調(diào)了一些新興技術(shù),如模型擴(kuò)展和數(shù)據(jù)選擇,這些技術(shù)在前 LLM 時代探索較少。
一、引言
本綜述系統(tǒng)地總結(jié)了現(xiàn)有的終生學(xué)習(xí)技術(shù)方法,在圖 2 中將其分為內(nèi)部知識和外部知識兩大類。
- 內(nèi)部知識是指通過完全或部分訓(xùn)練將新知識吸收到模型參數(shù)中,包括連續(xù)預(yù)訓(xùn)練和連續(xù)微調(diào)。
- 外部知識是指在不更新模型參數(shù)的情況下,將維基百科或應(yīng)用程序接口等外部資源中的新知識納入模型,包括基于檢索的終生學(xué)習(xí)和基于工具的終生學(xué)習(xí)。
內(nèi)部知識(Internal Knowledge)
1. 連續(xù)預(yù)訓(xùn)練(Continual Pretraining):
- 連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練(Continual Vertical Domain Pretraining):針對特定垂直領(lǐng)域(如金融、醫(yī)療等)進(jìn)行的連續(xù)預(yù)訓(xùn)練。
- 連續(xù)語言領(lǐng)域預(yù)訓(xùn)練(Continual Language Domain Pretraining):針對自然語言和代碼語言進(jìn)行的連續(xù)預(yù)訓(xùn)練。
- 連續(xù)時間領(lǐng)域預(yù)訓(xùn)練(Continual Temporal Domain Pretraining):針對時間相關(guān)數(shù)據(jù)(如時間序列數(shù)據(jù))的連續(xù)預(yù)訓(xùn)練。
2. 連續(xù)微調(diào)(Continual Finetuning):
特定任務(wù)(Task Specific):
- 連續(xù)文本分類(Continual Text Classification):針對文本分類任務(wù)進(jìn)行的連續(xù)微調(diào)。
- 連續(xù)命名實體識別(Continual Named Entity Recognition):針對命名實體識別任務(wù)進(jìn)行的連續(xù)微調(diào)。
- 連續(xù)關(guān)系抽取(Continual Relation Extraction):針對關(guān)系抽取任務(wù)進(jìn)行的連續(xù)微調(diào)。
- 連續(xù)機(jī)器翻譯(Continual Machine Translation):針對機(jī)器翻譯任務(wù)進(jìn)行的連續(xù)微調(diào)。
任務(wù)無關(guān)(Task Agnostic):
- 連續(xù)指令微調(diào)(Continual Instruction-Tuning):通過指令微調(diào)實現(xiàn)模型的連續(xù)學(xué)習(xí)。
- 連續(xù)知識編輯(Continual Knowledge Editing):針對知識更新進(jìn)行的連續(xù)學(xué)習(xí)。
- 連續(xù)對齊(Continual Alignment):針對模型與新任務(wù)對齊進(jìn)行的連續(xù)學(xué)習(xí)。
外部知識(External Knowledge)
1. 基于檢索的終生學(xué)習(xí)(Retrieval-Based Lifelong Learning):通過檢索外部知識庫實現(xiàn)的終生學(xué)習(xí)。
2. 基于工具的終生學(xué)習(xí)(Tool-Based Lifelong Learning):通過調(diào)用外部工具實現(xiàn)的終生學(xué)習(xí)。
二、終生學(xué)習(xí)概況
2.1 問題定義
終生學(xué)習(xí)的目標(biāo)是從一系列任務(wù)中學(xué)習(xí)一個語言模型,通過輸入自然語言,生成目標(biāo)輸出。具體來說,對于生成任務(wù),如問答,輸入和輸出分別代表問題和答案;對于機(jī)器翻譯任務(wù),輸入和輸出代表源語言和目標(biāo)語言;對于文本分類任務(wù),輸入為文本內(nèi)容,輸出為類別標(biāo)簽;對于自回歸語言模型的預(yù)訓(xùn)練任務(wù),輸入為一系列的詞元,輸出為相應(yīng)的下一個詞元。
2.2 評估指標(biāo)
綜述介紹了評估終生學(xué)習(xí)效果的指標(biāo),主要從整體性能、穩(wěn)定性和適應(yīng)性三個角度進(jìn)行評估:
- 整體性能(Overall Measurement):包括平均準(zhǔn)確率(AA)和平均增量準(zhǔn)確率(AIA)。AA 是指模型在學(xué)習(xí)所有任務(wù)后的平均表現(xiàn),而 AIA 則考慮了每個任務(wù)學(xué)習(xí)后的歷史變化。
- 穩(wěn)定性測量(Stability Measurement):包括遺忘測量(FGT)和向后轉(zhuǎn)移(BWT)。FGT 評估舊任務(wù)的平均性能下降,而 BWT 評估舊任務(wù)的平均性能變化。
- 適應(yīng)性測量(Plasticity Measurement):包括向前轉(zhuǎn)移(FWD),即模型在新任務(wù)上性能的平均提升。
2.3 通用技術(shù)
綜述在圖 3 中展示了四種主要的終生學(xué)習(xí)方法,用于應(yīng)對大語言模型在處理連續(xù)任務(wù)(Task t-1 到 Task t)時的災(zāi)難性遺忘問題。以下是對每種方法的解釋:
(a) 基于重放的方法(Replay-Based Methods):
- 含義:這種方法通過在訓(xùn)練新任務(wù)時重放以前任務(wù)的數(shù)據(jù),來鞏固模型對舊任務(wù)的記憶。通常,重放的數(shù)據(jù)會被存儲在一個緩沖區(qū)(Buffer)中,并與當(dāng)前任務(wù)的數(shù)據(jù)一起用于訓(xùn)練。主要包括:
–經(jīng)驗重放(Experience Replay):通過保存一部分舊任務(wù)的數(shù)據(jù)樣本,并在訓(xùn)練新任務(wù)時將這些數(shù)據(jù)重新用于訓(xùn)練,從而減少遺忘的發(fā)生。
–生成重放(Generative Replay):不同于保存舊數(shù)據(jù),這種方法利用生成模型來創(chuàng)建偽樣本,從而在新任務(wù)的訓(xùn)練中引入舊任務(wù)的知識。
- 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過程,模型在訓(xùn)練 Task t 時,使用了緩沖區(qū)中的舊數(shù)據(jù)(Input t-1 )。
(b) 基于正則化的方法(Regularization-Based Methods):
- 含義:這種方法通過對模型參數(shù)施加正則化約束,來防止模型在學(xué)習(xí)新任務(wù)時對舊任務(wù)參數(shù)的過度調(diào)整。正則化約束可以幫助模型保留對舊任務(wù)的記憶。主要包括:
–權(quán)重正則化(Weight Regularization):通過對模型參數(shù)施加額外的約束,限制新任務(wù)訓(xùn)練時對重要權(quán)重的修改,以此保護(hù)舊任務(wù)的知識。例如,L2 正則化和彈性權(quán)重鞏固(Elastic Weight Consolidation,EWC)就是常見的技術(shù)。
–特征正則化(Feature Regularization):正則化不僅可以作用于權(quán)重,還可以通過限制模型在特征空間中的表現(xiàn),確保新舊任務(wù)之間的特征分布保持穩(wěn)定。
- 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過程,模型在訓(xùn)練 Task t 時,通過參數(shù)正則化來保持對 Task t-1 的性能。
(c) 基于架構(gòu)的方法(Architecture-Based Methods):
- 含義:這種方法側(cè)重于調(diào)整模型結(jié)構(gòu),以便無縫集成新任務(wù),同時盡量減少對先前所學(xué)知識的干擾。主要包括圖 4 中的六種方法:
–(a) 提示詞微調(diào)(Prompt Tuning):通過在模型的輸入前添加 “軟提示詞”(Soft Prompts),以引導(dǎo)模型的生成或分類任務(wù)。這種方法只需要調(diào)整少量的參數(shù)(即提示詞),而不需要改變模型的主干結(jié)構(gòu)。
–(b) 前綴微調(diào)(Prefix Tuning):在輸入序列的前綴部分添加訓(xùn)練好的可調(diào)參數(shù),這些參數(shù)被插入到 Transformer 層的自注意力機(jī)制中,幫助模型更好地捕捉上下文信息。
–(c) 低秩適應(yīng)(LoRA,Low-Rank Adaptation):LoRA 通過在特定層次上增加低秩矩陣來適應(yīng)新的任務(wù),而不需要改變大模型的主要權(quán)重。這種方法極大地減少了參數(shù)調(diào)整的數(shù)量,同時保持了模型的性能。
–(d) 適配器(Adapters):Adapters 是插入到模型不同層之間的可訓(xùn)練模塊,這些模塊能夠在不改變原有模型權(quán)重的情況下,通過少量的附加參數(shù)來適應(yīng)新任務(wù)。通常應(yīng)用在 FFN(Feed Forward Network)和 MHA(Multi-Head Attention)部分。
–(e) 專家混合(Mixture of Experts):通過選擇性地激活某些 “專家” 模塊來處理不同的輸入,這些專家模塊可以是模型中的特定層或者子網(wǎng)絡(luò)。Router 模塊負(fù)責(zé)決定哪個專家模塊需要激活。
–(f) 模型擴(kuò)展(Model Expansion):通過添加新層(New Layer)來擴(kuò)展模型的容量,而保留原有的層(Old Layer)。這種方法允許模型逐漸增加其容量,以適應(yīng)更加復(fù)雜的任務(wù)需求。
- 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過程,模型在學(xué)習(xí)新任務(wù)時,部分參數(shù)被凍結(jié)(Frozen),而新增的模塊用于訓(xùn)練新任務(wù)(Trainable)。
(d) 基于蒸餾的方法(Distillation-Based Methods):
- 含義:這種方法通過知識蒸餾(Knowledge Distillation),將舊模型的知識傳遞給新模型。在訓(xùn)練新任務(wù)時,新模型不僅學(xué)習(xí)當(dāng)前任務(wù)的數(shù)據(jù),還要模仿舊模型對舊任務(wù)的輸出,從而保持舊任務(wù)的知識。主要包括:
–從新數(shù)據(jù)蒸餾(Distillation from New Data):學(xué)生模型在教師模型的指導(dǎo)下學(xué)習(xí)新任務(wù),通過蒸餾舊模型的知識來減少對舊知識的遺忘。
–從舊數(shù)據(jù)蒸餾(Distillation from Old Data):利用教師模型在舊數(shù)據(jù)上的表現(xiàn)來引導(dǎo)學(xué)生模型對新任務(wù)的學(xué)習(xí),從而達(dá)到保留舊知識的效果。
–從偽舊數(shù)據(jù)蒸餾(Distillation from Pseudo-Old Data):通過生成偽舊數(shù)據(jù)(Pseudo-Old Data),讓學(xué)生模型在學(xué)習(xí)新任務(wù)時保持對舊知識的記憶。
- 圖示:圖 3 中顯示了從 Task t-1 到 Task t 的過程,模型在訓(xùn)練新任務(wù)時,通過模仿舊模型的預(yù)測結(jié)果來保持對舊任務(wù)的知識。
三、連續(xù)預(yù)訓(xùn)練
連續(xù)預(yù)訓(xùn)練可以更新大語言模型的內(nèi)部知識,而無需承擔(dān)全面預(yù)訓(xùn)練的高昂成本,從而增強(qiáng)大語言模型的能力。目前的研究橫跨垂直、語言和時間領(lǐng)域,解決了災(zāi)難性遺忘和時間適應(yīng)等難題。經(jīng)驗重放、知識蒸餾、參數(shù)高效微調(diào)、模型擴(kuò)展和再加熱等技術(shù)已顯示出良好的前景。
3.1 連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練
連續(xù)垂直領(lǐng)域預(yù)訓(xùn)練(Continual Vertical Domain Pretraining)旨在通過在一系列領(lǐng)域特定的數(shù)據(jù)集上連續(xù)訓(xùn)練語言模型,確保模型在多個垂直領(lǐng)域或任務(wù)中表現(xiàn)出色,同時保留先前獲得的知識。
主要方法:
1. 參數(shù)高效微調(diào)(Parameter-Efficient Fine-Tuning):
- 示例:CorpusBrain++ 采用骨干 - 適配器架構(gòu)和經(jīng)驗重放策略來應(yīng)對現(xiàn)實世界中的知識密集型語言任務(wù)。
- 示例:Med-PaLM 通過使用少量示例引入醫(yī)學(xué)領(lǐng)域的指令提示調(diào)優(yōu)。
2. 模型擴(kuò)展(Model Expansion):
- 示例:ELLE 采用功能保留的模型擴(kuò)展策略,通過靈活擴(kuò)展現(xiàn)有預(yù)訓(xùn)練語言模型的寬度和深度來提高知識獲取和集成的效率。
- 示例:LLaMA Pro 通過擴(kuò)展 Transformer 塊并使用新語料庫進(jìn)行微調(diào),在通用使用、編程和數(shù)學(xué)任務(wù)中表現(xiàn)出色。
3. 再預(yù)熱(Re-warming):
- 示例:Gupta 等提出的策略,通過引入新數(shù)據(jù)集時調(diào)整學(xué)習(xí)率,防止長期訓(xùn)練期間學(xué)習(xí)率過低,從而提高適應(yīng)新數(shù)據(jù)集的效果。
4. 數(shù)據(jù)選擇(Data Selection):
- 示例:RHO-1 通過選擇性語言模型(SLM)訓(xùn)練,優(yōu)先選擇對訓(xùn)練過程有更大影響的標(biāo)記。
- 示例:EcomGPT-CT 通過半結(jié)構(gòu)化電子商務(wù)數(shù)據(jù)增強(qiáng)模型在領(lǐng)域特定任務(wù)中的表現(xiàn)。
3.2 連續(xù)語言領(lǐng)域預(yù)訓(xùn)練
連續(xù)語言領(lǐng)域預(yù)訓(xùn)練(Continual Language Domain Pretraining)旨在使語言模型能夠不斷整合新數(shù)據(jù),并適應(yīng)不斷變化的語言領(lǐng)域而不遺忘先前的知識。
主要方法:
1. 架構(gòu)調(diào)整方法(Architecture-Based Methods):
- 示例:Yadav 等通過引入教師強(qiáng)制機(jī)制改進(jìn)提示調(diào)優(yōu),創(chuàng)建一組提示引導(dǎo)模型在新任務(wù)上的微調(diào)。
- 示例:ModuleFormer 和 Lifelong-MoE 使用專家混合(MoE)方法,通過模塊化和動態(tài)增加模型容量來增強(qiáng) LLM 的效率和適應(yīng)性。
2. 再預(yù)熱(Re-warming):
- 示例:Ibrahim 等提出的再預(yù)熱方法,通過在訓(xùn)練新數(shù)據(jù)時臨時增加學(xué)習(xí)率,幫助模型更快地適應(yīng)新語言。
3.3 連續(xù)時間領(lǐng)域預(yù)訓(xùn)練
連續(xù)時間領(lǐng)域預(yù)訓(xùn)練(Continual Temporal Domain Pretraining)涉及不斷更新語言模型,以保持其在時間敏感數(shù)據(jù)上的準(zhǔn)確性和相關(guān)性。
主要挑戰(zhàn):
1. 性能下降:Lazaridou 等的研究顯示,模型在未來數(shù)據(jù)上的表現(xiàn)顯著下降,凸顯了 LLM 在時間泛化上的困難。
2. 有限改進(jìn):R?ttger 等發(fā)現(xiàn),雖然時間適應(yīng)在掩碼語言模型任務(wù)上有輕微改進(jìn),但與單純的領(lǐng)域適應(yīng)相比,對下游任務(wù)性能的提升并不顯著。
通過這些方法和研究,作者展示了連續(xù)預(yù)訓(xùn)練在不同維度上的方法和挑戰(zhàn),并強(qiáng)調(diào)了在垂直領(lǐng)域、語言領(lǐng)域和時間域中應(yīng)用終生學(xué)習(xí)的必要性和有效性。
四、連續(xù)微調(diào)
連續(xù)預(yù)訓(xùn)練可增強(qiáng)大語言模型的內(nèi)部知識,在此基礎(chǔ)上,連續(xù)微調(diào)增強(qiáng)了大語言模型的內(nèi)部知識,并使大語言模型適應(yīng)特定任務(wù),如文本分類、命名實體識別、關(guān)系提取、機(jī)器翻譯或一般生成任務(wù),如指令調(diào)整、知識編輯和與人類偏好對齊。為了應(yīng)對災(zāi)難性遺忘和任務(wù)干擾等挑戰(zhàn),采用了蒸餾、重放、正則化、基于架構(gòu)和基于梯度的方法等技術(shù)。作者在圖 5 中對 7 種連續(xù)微調(diào)場景進(jìn)行了說明。
這張圖展示了七種不同類型的任務(wù)如何通過連續(xù)學(xué)習(xí)在大語言模型中實現(xiàn)。以下是對每個部分的詳細(xì)解釋:
(a) 連續(xù)文本分類
- 示例:連續(xù)文本分類任務(wù)通過逐步引入新的分類類別(如 Intent: Transfer -> Intent: Credit Score -> Intent: Fun Fact)來訓(xùn)練模型,使其能夠適應(yīng)不斷變化的分類需求。
(b) 連續(xù)命名實體識別
- 示例:連續(xù)命名實體識別任務(wù)展示了如何在識別特定實體的同時,逐步引入新的實體類型(如 Athlete -> Sports Team -> Politician),使模型能夠在識別新的實體時仍保持對舊實體的識別能力。
(c) 連續(xù)關(guān)系抽取
- 示例:連續(xù)關(guān)系抽取任務(wù)通過不斷引入新的關(guān)系類型(如 Relation: Founded By -> Relation: State or Province of Birth -> Relation: Country of Headquarters),展示了模型如何逐步擴(kuò)展其關(guān)系抽取能力。
(d) 連續(xù)知識編輯
- 示例:連續(xù)知識編輯任務(wù)通過不斷更新模型的知識庫,確保其能夠?qū)ψ钚碌氖聦嵾M(jìn)行準(zhǔn)確的回答(如 Who is the president of the US? -> Which club does Cristiano Ronaldo currently play for? -> Where was the last Winter Olympics held?)。
(e) 連續(xù)機(jī)器翻譯
- 示例:連續(xù)機(jī)器翻譯任務(wù)通過逐步擴(kuò)展模型對不同語言的翻譯能力(如 English -> Chinese, English -> Spanish, English -> French),展示了模型在多語言環(huán)境中的適應(yīng)能力。
(f) 連續(xù)指令微調(diào)
- 示例:連續(xù)指令微調(diào)任務(wù)通過逐步引入新的指令類型(如 Summarization -> Style Transfer -> Mathematics),訓(xùn)練模型在多種任務(wù)類型下的表現(xiàn)能力。
(g) 連續(xù)對齊
- 示例:連續(xù)對齊任務(wù)通過引入新的對齊目標(biāo)(如 Helpful and Harmless -> Concise and Organized -> Positive Sentiment),展示了模型在不同道德和行為標(biāo)準(zhǔn)下的連續(xù)學(xué)習(xí)能力。
五、外部知識
連續(xù)預(yù)訓(xùn)練和連續(xù)微調(diào)對 LLM 的終生學(xué)習(xí)至關(guān)重要,然而隨著 LLM 越來越大、功能越來越強(qiáng),有兩個新興方向越來越受歡迎,它們可以在不修改大語言模型參數(shù)的情況下,為大語言模型提供新的外部知識。作者考慮基于檢索的終生學(xué)習(xí)和基于工具的終生學(xué)習(xí),因為這兩種方法都是實現(xiàn) LLM 終生學(xué)習(xí)的有前途的方法。圖 6 舉例說明了這兩種方法。
基于檢索的終生學(xué)習(xí)(Retrieval-Based Lifelong Learning)
- 介紹:隨著世界信息的不斷擴(kuò)大和快速發(fā)展,根據(jù)歷史數(shù)據(jù)訓(xùn)練的靜態(tài)模型很快就會過時,無法理解或生成有關(guān)新發(fā)展的內(nèi)容。基于檢索的終生學(xué)習(xí)解決了大型語言模型從外部來源獲取和吸收最新知識的關(guān)鍵需求,在需要時,模型通過檢索這些外部資源,來補(bǔ)充或更新其知識庫。這些外部資源提供了一個巨大的當(dāng)前知識庫,為增強(qiáng)預(yù)訓(xùn)練 LLM 的靜態(tài)特性提供了重要的補(bǔ)充資產(chǎn)。
- 示例:圖中的這些外部資源是模型能夠訪問并檢索的。通過訪問外部信息源,如維基百科、書籍、數(shù)據(jù)庫等,模型能夠更新自身的知識,并在遇到新信息時作出適應(yīng)。
基于工具的終生學(xué)習(xí)(Tool-Based Lifelong Learning)
- 介紹:基于工具的終生學(xué)習(xí)源于將其功能擴(kuò)展到靜態(tài)知識之外并使其能夠與環(huán)境動態(tài)交互的必要性。在現(xiàn)實世界的應(yīng)用中,模型往往需要執(zhí)行一些任務(wù),這些任務(wù)涉及直接文本生成或解釋之外的操作。
- 示例:圖中模型利用這些工具來擴(kuò)展和更新自身的能力,通過與外部工具的交互來實現(xiàn)終生學(xué)習(xí)。例如,模型可以通過應(yīng)用程序編程接口獲取實時數(shù)據(jù),或通過物理工具與外部環(huán)境互動,以此來完成特定任務(wù)或獲取新知識。
六、討論與結(jié)論
6.1 主要挑戰(zhàn)
- 災(zāi)難性遺忘(Catastrophic Forgetting):這是終生學(xué)習(xí)的核心挑戰(zhàn)之一,新信息的引入可能會覆蓋模型之前學(xué)到的內(nèi)容。
- 可塑性 - 穩(wěn)定性困境(Plasticity-Stability Dilemma):在保持模型的學(xué)習(xí)能力和穩(wěn)定性之間找到平衡非常關(guān)鍵,這直接影響模型獲取新知識的能力,同時保留其廣泛的通用能力。
- 昂貴的計算成本(Expensive Computation Cost):全量微調(diào)大語言模型的計算需求可能非常高。
- 模型權(quán)重或預(yù)訓(xùn)練數(shù)據(jù)的不可用性:由于隱私、專有限制或商業(yè)許可,原始訓(xùn)練數(shù)據(jù)或模型權(quán)重往往不可用于進(jìn)一步的改進(jìn)。
6.2 當(dāng)前趨勢
- 從特定任務(wù)到通用任務(wù):研究逐漸從專注于特定任務(wù)(如文本分類、命名實體識別)轉(zhuǎn)向更廣泛的通用任務(wù),如指令調(diào)優(yōu)、知識編輯等。
- 從全量微調(diào)到部分微調(diào):鑒于全量微調(diào)的高資源消耗,部分微調(diào)策略(如 Adapter 層、Prompt 調(diào)優(yōu)、LoRA)變得越來越受歡迎。
- 從內(nèi)部知識到外部知識:為了克服頻繁的內(nèi)部更新限制,越來越多的策略采用外部知識源,如檢索增強(qiáng)生成(Retrieval-Augmented Generation)和工具學(xué)習(xí),使模型能夠動態(tài)訪問和利用當(dāng)前的外部數(shù)據(jù)。
6.3 未來方向
- 多模態(tài)終生學(xué)習(xí):將文本以外的多種模態(tài)(如圖像、視頻、音頻、時間序列數(shù)據(jù)、知識圖譜)整合到終生學(xué)習(xí)中,以開發(fā)更全面、更具適應(yīng)性的模型。
- 高效終生學(xué)習(xí):研究人員正致力于開發(fā)更高效的策略來管理模型訓(xùn)練和更新的計算需求,如模型剪枝、模型合并、模型擴(kuò)展等方法。
- 通用終生學(xué)習(xí):最終目標(biāo)是使大語言模型能夠主動獲取新知識,并通過與環(huán)境的動態(tài)交互進(jìn)行學(xué)習(xí),不再僅僅依賴于靜態(tài)數(shù)據(jù)集。
6.4 結(jié)論
作者將現(xiàn)有研究分為 12 種終生學(xué)習(xí)場景,并提供了全面的方法歸納整理。此外還分析強(qiáng)調(diào)了在管理災(zāi)難性遺忘、確保計算效率和在知識獲取中的特定性與通用性之間維持平衡的必要性。隨著領(lǐng)域的不斷發(fā)展,這些先進(jìn)策略的集成將對塑造下一代人工智能系統(tǒng)起到關(guān)鍵作用,幫助它們更接近實現(xiàn)真正的人類般的學(xué)習(xí)和適應(yīng)能力。
通過對這些技術(shù)方法及其各自類別的詳細(xì)研究,本綜述旨在強(qiáng)調(diào)將終生學(xué)習(xí)能力整合到終生學(xué)習(xí)工具中,從而提高它們在現(xiàn)實世界應(yīng)用中的適應(yīng)性、可靠性和整體性能。同時為研究人員和工程師提供一個全面的視角,幫助他們更好地理解和應(yīng)用終生學(xué)習(xí)技術(shù),推動大語言模型的進(jìn)一步發(fā)展。如果對文章感興趣,可以查閱原始論文以了解更多研究內(nèi)容。