成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<code id="20agw"><source id="20agw"></source></code>

<abbr id="20agw"></abbr>

<input id="20agw"><dd id="20agw"></dd></input>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！

發布于 2024-8-2 15:07

瀏覽

0收藏

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！-AI.x社區

引言：大型語言模型在微調過程中的遺忘問題

在人工智能領域，大型語言模型（LLM）因其在多種任務中展示出的卓越能力而備受關注。這些模型通常先在大規模語料庫上進行預訓練，以掌握廣泛的語言能力，然后在特定任務的數據集上進行微調，以適應具體的應用場景。然而，微調過程中一個常見且棘手的問題是模型可能會忘記在預訓練階段獲得的知識，這種現象被稱為“遺忘”。

遺忘問題不僅降低了模型的通用性能，還可能影響到模型在新任務上的表現。因此，如何在微調過程中盡可能保留預訓練階段的知識，成為了研究的一個重要方向。本文中，我們將介紹一種新的微調算法——動量過濾優化器（MoFO），該算法通過在每次迭代中僅更新動量最大的參數子集，有效緩解了遺忘問題，同時保持了微調任務的性能。

論文標題：MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning
機構：The Chinese University of Hong Kong, Shenzhen, China; Shenzhen Research Institute of Big Data; Hong Kong University of Science and Technology
論文鏈接：https://arxiv.org/pdf/2407.20999.pdf

MoFO優化器的概念和動機

1. 概念介紹

Momentum-Filtered Optimizer (MoFO) 是一種新型的微調算法，旨在解決大型語言模型（LLM）在微調過程中可能出現的知識遺忘問題。MoFO的核心思想是在每次迭代中選擇并更新具有最大動量幅度的模型參數。這種方法與全參數訓練相比，能夠在達到類似的微調性能的同時，保持參數更接近預訓練模型，從而減輕知識遺忘。

2. 動機

在微調大型語言模型時，常見的問題是模型可能會忘記在預訓練階段獲得的知識，這會導致模型在通用能力上的下降。為了解決這一問題，研究者們提出了多種方法，包括基于回放的方法和正則化方法。然而，這些方法要么需要訪問預訓練數據，增加了計算和存儲成本，要么需要修改損失函數，可能會損害模型在微調任務上的表現。

MoFO方法的提出，是基于對微調損失景觀的觀察，即通過選擇更新動量最大的參數子集，可以使模型收斂到更接近原始損失函數的最小值，從而在不犧牲微調性能的情況下減少遺忘。此外，MoFO不需要訪問預訓練數據，也不會改變原始損失函數，使其特別適用于只有微調檢查點的開源LLM場景。

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！-AI.x社區

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！-AI.x社區

MoFO的算法細節

1. 算法構成

MoFO算法將所有參數分為B個固定部分，每個部分包含不同的網絡參數（例如權重矩陣和偏置項）。在每次迭代中，MoFO選擇每個部分中動量最大的α%的參數進行更新。這種動量過濾機制可以通過PyTorch的反向傳播機制自動實現，其中自動返回的梯度會根據每個參數部分進行計算。

2. 實現細節

具體來說，MoFO在每次迭代中執行以下步驟：

將所有參數按照網絡結構劃分為不同的部分。
對每個部分，計算每個參數的動量，并選擇動量最大的α%的參數。
只更新這些選中的參數，而保持其他參數不變。

這種基于動量的選擇規則不僅簡化了計算過程，還通過選擇對減少微調損失最有影響的參數，提高了微調過程的效率和效果。通過這種方法，MoFO有效地選擇并更新最具影響力的參數，從而在增強微調過程的同時，減輕了預訓練知識的災難性遺忘。

實驗設置和數據集介紹

1. 數據集介紹

在本研究中，我們使用了兩組數據集進行實驗：用于指令式微調的數據集和用于持續微調的數據集。

指令式微調數據集：這組數據集涵蓋了不同領域的問題-答案對，特別是包括了395K數學問題-答案對的MetaMathQA數據集。我們隨機選擇了該數據集的10%（即33,000個問題-答案對）進行訓練。
持續微調數據集：我們在TRACE基準數據集上實施了MoFO方法，該數據集設計了8種不同領域的任務，包括領域特定知識、多語言能力、代碼生成和數學推理等。

2. 評估指標

指令式微調的評估指標：我們引入了一系列廣泛使用的基準來評估LLM在指令式微調后的性能和災難性遺忘效應。這些基準包括MMLU（大規模多任務語言理解）、Commonsense（常識推理能力評估）和GSM8K（數學能力評估）。
持續微調的評估指標：我們考慮了兩個關鍵指標：總體性能（OP）和向后轉移（BWT）。這些指標提供了一個全面的評估，可以衡量模型在增量學習的同時保留過去經驗的能力。

實驗結果與分析

1. 實驗結果

指令式微調結果：在MetaMathQA數據集上，MoFO與其他基線方法相比，在數學任務（GSM8K）上的表現相當，但在保持一般能力方面表現更好。例如，MoFO在MMLU的準確性上不僅保持不變，甚至略有提高。
持續微調結果：在TRACE基準數據集上，MoFO在OP和BWT得分上均優于全參數微調（Full FT）和半參數微調（HFT）。此外，MoFO與重放方法結合使用時，OP指標比單獨使用重放方法提高了1.5%。

2. 分析

參數更新分數的影響：我們發現，參數更新分數在保持模型性能和避免災難性遺忘方面起著關鍵作用。較低的更新分數有助于減少遺忘，但可能限制了優化的有效性。
更新策略的影響：MoFO通過選擇具有最大動量幅度的參數進行更新，與基于梯度的選擇相比，顯示出更強的優化能力和更少的遺忘。

通過這些實驗，我們驗證了MoFO在減輕災難性遺忘和提高微調性能方面的有效性。

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！-AI.x社區

遺忘"大腦？香港中文大學提出新算法MoFO助力AI記住預訓練知識！-AI.x社區

MoFO的理論分析和收斂性

1. 理論基礎

MoFO（Momentum-Filtered Optimizer）是一種優化算法，旨在減輕在微調大型語言模型（LLM）時發生的知識遺忘問題。MoFO通過在每次迭代中只更新具有最大動量幅度的參數子集，從而保持模型參數更接近于預訓練模型。這種方法基于動量而非梯度來選擇更新的參數，這與傳統的Adam優化器有所不同。

2. 收斂性分析

在對MoFO的收斂性進行理論分析時，我們考慮了其簡化版本，即作為梯度下降（GD）的變體。根據提出的定理，如果損失函數的梯度是Lipschitz連續的，并且學習率滿足特定條件，則MoFO的GD版本將保證收斂到最小損失值。這一理論支持表明，MoFO能夠在不犧牲微調性能的情況下，有效減輕知識遺忘。

MoFO在持續微調中的應用

1. 持續微調的實驗設置

在持續微調的場景中，我們使用了TRACE基準數據集，該數據集包含多個不同領域的任務。我們在這些任務上順序訓練TinyLlama-1.1B模型，并采用MoFO進行優化。實驗中，MoFO的參數更新比例設置為5%，并使用余弦衰減的學習率調度。

2. 持續微調的性能評估

我們通過兩個關鍵指標來評估LLM在持續學習場景中的性能：整體性能（OP）和向后轉移（BWT）。MoFO在這些指標上的表現優于全參數微調和其他基線方法。特別是，與單獨使用重放方法相比，結合MoFO的重放方法在OP指標上有1.5%的性能提升。此外，當與GEM方法結合使用時，MoFO在OP指標上也顯示出0.9%的改進。

3. 結論

MoFO不僅在持續微調任務中表現出色，而且通過選擇性參數更新，有效地減輕了災難性遺忘，保持了模型對預訓練知識的保留。這些結果強調了MoFO在持續微調中的優越性能，并為未來在多模態大型語言模型中應用MoFO提供了理論和實證基礎。

討論與未來工作

1. 討論

本研究提出的Momentum-Filtered Optimizer（MoFO）方法在減輕大型語言模型（LLM）在微調過程中的遺忘問題上顯示出顯著的優勢。通過選擇具有最大動量幅度的參數進行更新，MoFO能夠在不犧牲微調任務性能的前提下，使模型參數更接近預訓練模型，從而有效減輕了遺忘現象。

實驗結果表明，與全參數微調（Full FT）和其他基線方法相比，MoFO在保持或甚至提升一般能力方面表現更為出色。例如，在MetaMathQA數據集上的數學推理任務（GSM8K）和一般能力保持方面，MoFO展示了優于L1和L2正則化方法的性能。

此外，MoFO在連續微調場景中也表現出色，如在TRACE基準測試中，MoFO的表現優于傳統的全參數微調方法，顯示出更好的整體性能（OP）和更低的后向遷移（BWT）得分。

2. 未來工作

盡管MoFO已經取得了一定的成果，但仍有一些潛在的改進和應用方向。首先，MoFO的收斂性尚未完全解決，未來的研究可以探索如何優化MoFO的動量篩選機制以確保更穩定和快速的收斂。其次，考慮到MoFO在處理遺忘問題方面的有效性，將其應用于多模態LLM可能是一個有前景的研究方向，這可能進一步提升模型在更廣泛應用場景中的表現。最后，結合其他連續學習策略，如經驗重放或梯度修剪，可能會進一步增強MoFO的性能和靈活性。

總結

本文介紹了一種新的微調優化算法——Momentum-Filtered Optimizer（MoFO），旨在解決LLM在微調過程中的知識遺忘問題。通過在每次迭代中僅更新動量最大的參數子集，MoFO能夠有效地減少參數移動，從而減輕災難性遺忘，并保持甚至提升模型在特定任務上的性能。實驗結果驗證了MoFO在多種微調場景中的有效性，包括指令微調和連續微調。未來的工作將探索MoFO的進一步優化以及在多模態LLM中的應用潛力。

本文轉載自 ??AI論文解讀??，作者：柏企

標簽

贊

收藏

回復

舉報

回復

相關推薦

基于預訓練模型的知識圖譜嵌入編輯

mb5f8eba9bdb0af ? 3164瀏覽 ? 0回復
今日arXiv最熱大模型論文：超越LoRA，北京大學提出預訓練模型非梯度優化法

pangguiyu ? 3389瀏覽 ? 0回復
港中文提出CLongEval中文基準測試集，準確評估大模型長上下文能力

zhangyannni ? 5589瀏覽 ? 0回復
生成式AI如何告別版權困擾？基于權重顯著性的機器遺忘算法有奇效

輕薄滴假象 ? 2655瀏覽 ? 0回復
蘋果超強視覺預訓練模型助力下游任務拿SOTA?。ǚ诸?、檢測、分割、深度估計）

angel ? 4526瀏覽 ? 0回復
全模態預訓練范式MiCo：理解任何模態并學習通用表示｜港中文&中科院

Crystalcxt ? 2972瀏覽 ? 0回復
如何解決模型的災難性遺忘問題？清華大學提出新方法！

AI論文解讀 ? 5367瀏覽 ? 0回復
LLM分布式預訓練淺析

zhcs333 ? 3194瀏覽 ? 0回復
你真的了解預訓練嗎？預訓練與微調的區別是什么？

AI探索時代 ? 7336瀏覽 ? 0回復
機器遺忘：為什么教AI學會遺忘至關重要？

51CTO內容精選 ? 2708瀏覽 ? 0回復
斯坦福大學研究團隊破解小規模語料庫知識獲取難題，提出創新的合成持續預訓練方法

AI論文解讀 ? 4129瀏覽 ? 0回復
多模態AI搜索引擎最強設計，趕超商業！GPT-4o、Qwen榮登榜首！研究者陣容豪華：香港中文大學、字節、北大、

51CTO技術棧 ? 2770瀏覽 ? 0回復
打破視覺-語言預訓練的瓶頸：新算法解決噪聲和標注問題

AI論文解讀 ? 3486瀏覽 ? 0回復
中國人民大學提出新的數據增強方法

AI論文解讀 ? 2730瀏覽 ? 0回復
清華大學提出1-Bit FQT：將全量化訓練極限推到極致,訓練速度提升5倍！

AI論文解讀 ? 2865瀏覽 ? 0回復
多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3455瀏覽 ? 0回復
深入理解預訓練與微調，為什么需要預訓練，什么是微調？

AI探索時代 ? 4373瀏覽 ? 0回復
OpenAI 發布GPT-4.5：更大規模、更知識淵博的模型，預訓練的巔峰之作，COT升級為COD

Syrupup ? 3582瀏覽 ? 0回復
香港科技大學聯合DeepSeek-AI推出CODEI/O：讓AI學會“濃縮”推理模式

arnoldzhw ? 1092瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

深度剖析：為何擴散模型會成為語言模型的未來？ 2025-03-14 07:45:15發布
一文讀懂 RAG-Gym：用過程監督優化推理與搜索智能體 2025-03-04 10:43:21發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇：超越GPT-4！香港科技大學破解Transformer算術難題，乘法準確率超99.9%

下一篇：我們一起聊聊Google DeepMind推出Gemma 2 技術報告

社區精華內容

目錄

主站蜘蛛池模板：中文字幕中文字幕 | 日韩欧美久久 | 可以免费看的毛片 | 国产免费视频 | 亚洲精品国产精品国自产在线 | 精品av| 99亚洲精品 | 国产欧美一区二区三区在线看 | 99亚洲精品 | 在线看片网站 | 国产在线拍偷自揄拍视频 | 国产精品久久久久久久久久尿 | 亚洲综合在线视频 | 曰韩三级 | 毛片片 | 中文字幕亚洲一区 | 久草精品视频 | 日韩一区二区三区视频 | 国产色 | 人成在线视频 | 国产精品乱码一区二区三区 | 二区三区在线观看 | 国产特黄一级 | 亚洲精品一区中文字幕乱码 | 欧美一级小视频 | 国产精品久久久久久久久久久久久 | 日韩成人在线视频 | 国产在线二区 | 亚洲精品一区中文字幕乱码 | 久久成人精品一区二区三区 | 色婷婷综合网 | 日韩成人精品 | 日韩视频区 | 中文在线视频 | 日韩伦理一区二区三区 | 国产一区二区在线播放 | 在线视频一区二区三区 | 欧美在线视频二区 | 国产精品美女www | av天天看 | 午夜电影福利 |

<s id="2kaoc"><tbody id="2kaoc"></tbody></s>