能否將擴散模型思想應用于 LLMs 領域?大型語言擴散模型(LLDM)詳解 原創 精華
編者按: 當你面對需要高質量逆向推理能力的應用場景時,傳統大語言模型是否讓你感到力不從心?在詩歌逆向補全、邏輯逆向推導等任務中,為什么即使是 GPT-4o 這樣的強大模型也會表現失常?
文章深入介紹了 LLaDA(Large Language Diffusion with mAsking) 這一創新模型的工作原理、訓練過程與性能表現。與傳統自回歸模型不同,LLaDA 借鑒了計算機視覺領域的擴散模型思想,通過逐步去除掩碼來生成文本,而非從左到右逐個生成 token。
性能測試顯示,8B 參數的 LLaDA 基礎模型明顯優于同等規模的 LLaMA 2,并與 LLaMA 3 表現相當。更令人驚喜的是,LLaDA 在逆向推理任務中表現出色,有效解決了自回歸模型在“逆向詛咒”上的局限性,甚至在詩歌逆向補全任務中超越了 GPT-4o 和 Qwen 2.5。
作者 | AI Papers Academy
編譯 | 岳揚
在這篇文章,我們將對《Large Language Diffusion Models》這篇論文進行解析,介紹首個基于擴散模型的 LLM,該模型可與強大的 LLM 相媲美。
Paper authors (Source[1])
01 引言
近年來,大語言模型(LLMs)變得極其強大,為通向通用人工智能(AGI)鋪平了道路。這些模型本質上是自回歸的,即根據給定的 token 序列預測下一個 token。我們可以把這個過程想象成它們在一個詞一個詞地生成回答內容,其中的每個新詞都基于前面已有的詞匯。事實證明,這種方法非常強大,讓我們取得了今天的成就。
然而,這種方法也面臨著一些挑戰。例如,按順序逐個生成 token 的計算成本很高。此外,固有的從左到右的建模方式限制了模型在逆向推理(reversal reasoning)任務中的有效性。 后文將提到一個案例 —— 逆向詩歌補全任務,即給定詩歌中的一句話,模型需要預測詩中這句話前一句的內容。無論如何,有一點值得探討:自回歸建模是否唯一可行的方式?
《Large Language Diffusion Models》對這一假設提出了挑戰。正如 LLMs 是自然語言處理的基石一樣,擴散模型則是計算機視覺領域的王者,是頂級文生圖模型的核心技術。在本文中,我們將解讀研究人員如何將擴散模型應用于語言建模領域。
02 什么是擴散模型?
讓我們先快速回顧一下計算機視覺中的擴散模型,這將有助于我們理解本文的核心思想。
擴散模型逐步去除圖像中的噪聲(Cat images source[2])
擴散模型以提示詞作為輸入,例如“一只貓坐在一臺筆記本電腦上”。模型通過學習逐步去除圖像中的噪聲來生成清晰的圖像。模型從最左側所示的隨機噪聲圖像開始,每一步都去除部分噪聲。去噪過程是以輸入提示詞為條件的,因此最終生成的圖像會匹配提示詞內容。上圖中的三個點(...)表示本例中我們跳過了一些中間步驟。最終我們得到一張清晰的貓圖像,這就是擴散模型根據給定提示詞生成的最終輸出。
在訓練過程中,為了學習如何去除噪聲,我們會逐步向清晰圖像添加噪聲,這個過程稱為擴散過程。該領域已取得一系列進展,但這不是本文的重點。
03 大型語言擴散模型的直觀理解
LLaDA 逐步去除 token 序列中的掩碼
本文介紹的模型名為 LLaDA,全稱是 Large Language Diffusion with mAsking。我們從最左側的 token 序列開始,其中黑色部分表示被掩碼的 token。黃色的未掩碼 token 代表提示詞,黑色的被掩碼 token 代表待生成的響應。請注意,這里的被掩碼的 token 由特殊符號表示,不同于我們之前提到的圖像中疊加的噪聲。
我們逐步去除 token 序列中的掩碼,藍色代表已解除掩碼的 token。最終,我們移除所有掩碼,得到針對輸入提示詞的完整響應。在本例中,清晰的響應 token 序列對應文字為:"從前,在一個小村莊里,住著一只聰明的老貓頭鷹(Once upon a time, in a small village, there lived a wise old owl)"。
04 LLaDA 訓練與推理過程概述
讓我們來深入探討大型語言擴散模型的更多細節。下圖展示了該模型的兩個訓練階段(預訓練與監督式微調)以及推理過程。
LLaDA 訓練過程與推理示意圖(Source[1])
4.1 LLaDA 訓練階段1 —— 預訓練階段
我們從預訓練階段開始,如上圖最左側所示。
頂部是訓練集中的一個樣本序列。我們隨機選擇掩碼比例 t(0 到 1 之間的值),隨后獨立地為每個 token 隨機決定是否掩碼,概率為 t。這一步會產生部分被掩碼的 token 序列。該序列被輸入模型的核心組件 —— mask predictor(這是一個基于 Transformer 的模型),該模型通過計算掩碼 token 上的交叉熵損失,訓練其還原被掩碼的 token。預訓練數據集規模為 2.3 萬億 token。
4.2 LLaDA 訓練階段2 —— 監督式微調
第二個訓練階段是監督式微調,如上圖中間部分所示。此階段的目的是增強 LLaDA 遵循指令的能力。
頂部是包含提示詞和響應的樣本。我們希望訓練模型根據提示詞生成響應。與預訓練類似,我們隨機掩碼樣本中的部分 token,但此次僅掩碼響應部分的 token,保留提示詞完整。隨后,我們將提示詞和部分被掩碼的響應輸入 mask predictor,以恢復響應中被掩碼的 token。此過程與預訓練階段非常相似,區別在于此過程僅掩碼樣本的響應部分。
訓練過程的掩碼比例(決定多少 token 被掩碼)對每個樣本都是隨機的。這意味著在訓練過程中,模型會接觸到幾乎未掩碼的樣本和高度掩碼的樣本。
在這一階段,研究人員使用了 450 萬樣本訓練 LLaDA。由于樣本長度不一致,因此研究人員使用特殊的序列結束 tokens 填充樣本。通過這種方式,模型就能在人類設置的固定長度的(artificial fixed-length)輸入上進行訓練,并能預測序列結束 tokens,從而終止生成過程。
4.3 推理階段:LLaDA 如何生成文本
了解完 LLaDA 的訓練方式后,接下來讓我們回顧一下上圖右側所示的推理過程。
給定提示詞后,會創建包含完整提示詞和被完全掩碼的響應的樣本。然后通過稱為逆向擴散過程(reverse diffusion process)的迭代流程,逐步解除響應部分的掩碼。每次迭代開始時,我們會得到一個包含完整提示詞和被部分掩碼的響應的序列。將其輸入 mask predictor 后,它會預測出所有被掩碼的 token。然而,部分預測出的 token 會被重新掩碼,因此響應仍保持部分掩碼狀態,直到最后一次迭代,我們才會獲得完整響應。
4.4 推理期間的重新掩碼策略
迭代次數是模型的超參數,需要在計算成本與生成質量間權衡(更多迭代次數可提升生成質量)。在每次迭代中,重新掩碼的 token 數量基于總迭代次數。但如何決定哪些 token 需要重新掩碼?研究者未采用隨機方法,而是使用了兩種更有效的策略:
- 低置信度重新掩碼(Low-confidence remasking)—— 此方法中,預測置信度最低的 token 會被重新掩碼。對于每個 token,mask predictor 都會從詞表中選擇概率最高的 token 作為預測結果。此處的最高概率代表 token 預測的置信度,反映模型對此 token 相較于其他選項的正確性確定程度。
- 半自回歸重新掩碼(Semi-autoregressive remasking)—— 響應長度可能因提示詞而異。對于需要簡短回答的提示詞,大部分響應內容可能是序列結束標記。為避免生成過多高置信度的序列結束標記,會將待生成的響應劃分為多個區塊,并按從左到右順序依次處理。在每個區塊內部應用逆向擴散過程進行采樣。
05 LLaDA Results
5.1 Benchmark Results
LLaDA 與 LLaMA 模型對比(Source[1])
在上圖中,我們對比了 8B 參數的 LLaDA 基礎模型與規模相近的 LLaMA 3 和 LLaMA 2 在多項任務上的表現。使用紅色標注的 LLaDA 明顯優于使用藍色標注的 LLaMA 2,并與使用紫色標注的 LLaMA 3 表現相當,甚至在部分任務上優于 LLaMA 3。
圖中結果為各模型基礎版本的測試結果。未在此圖表展示的經過指令調優的模型性能對比中,LLaMA 3 更具優勢。但需注意,指令調優版 LLaMA 3 在預訓練階段后既進行了監督式微調也進行了強化學習訓練,而指令調優版 LLaDA 僅在預訓練階段后進行了監督式微調。
5.2 LLaDA 在不同規模下的性能擴展規律(LLaDA Scaling Trends)
LLaDA 在語言任務上的性能擴展規律(Source[1])
論文中另一張有趣的圖表展示了 LLaDA 在語言任務上的擴展能力。研究人員以不同訓練計算資源(x 軸顯示)訓練了規模相近的 LLaDA 和自回歸基線模型(autoregressive baselines)。每張子圖代表不同任務,y 軸顯示模型性能。LLaDA 展現出強大的擴展能力,與自回歸基線模型競爭力相當。 在數學數據集 GSM8K 上,LLaDA 的擴展優勢尤為顯著;而在推理數據集 PIQA 上,LLaDA 稍落后于自回歸模型,但隨著浮點運算量(FLOPs)的增加,差距逐漸縮小。
5.3 打破「逆向詛咒」
詩歌補全任務上的模型性能對比(Source[1])
上表展示了詩歌補全任務上的模型性能對比。該任務要求模型根據給定詩句生成下一句(正向任務)或前一句(逆向任務)。觀察 GPT-4o 的表現,其在正向任務中的性能顯著優于逆向任務,這是自回歸訓練固有的局限性。LLaDA 則在此取得突破,在正向和逆向任務中表現更均衡,并在逆向任務中超越 GPT-4o 和 Qwen 2.5。大型語言擴散模型在更大規模的模型訓練中表現如何,讓我們拭目以待!
06 結語:語言模型迎來新時代?
LLaDA 通過將擴散模型應用于文本生成任務,掀起了語言建模的范式轉變。其雙向推理能力與強大的擴展性,向傳統的自回歸模型發起了挑戰。雖然該模型尚處探索初期,但這場技術躍遷或將定義 AI 發展的下一程,未來可期。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
AI Papers Academy
At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.
END
本期互動內容 ??
?有人認為擴散模型對文本生成是‘殺雞用牛刀’,你同意嗎?為什么?
??文中鏈接??
[1]??https://arxiv.org/abs/2502.09992??
[2]??https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/??
原文鏈接:
??https://aipapersacademy.com/large-language-diffusion-models/??
