成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

沖擊自回歸,擴散模型正在改寫下一代通用模型范式

人工智能 新聞
AI 的發(fā)展從來不是一條直線。范式的演進,是一次次對既有認(rèn)知的突破。在擴散的光譜中,或許我們尚未抵達最終形態(tài),但每一次掩碼與解碼之間的跳躍,都是通往通用智能世界的回聲。

上個月 21 號,Google I/O 2025 開發(fā)者大會可說是吸睛無數(shù),各種 AI 模型、技術(shù)、工具、服務(wù)、應(yīng)用讓人目不暇接。在這其中,Gemini Diffusion 絕對算是最讓人興奮的進步之一。從名字看得出來,這是一個采用了擴散模型的 AI 模型,而這個模型卻并非我們通常看到的擴散式視覺生成模型,而是一個地地道道的語言模型!

Google DeepMind 表示,他們正在使用「擴散」技術(shù)來探索新的語言模型方向,從而為用戶提供更強大的控制力、創(chuàng)造力和文本生成速度。

從演示效果看,Gemini Diffusion 也確實快 ——「生成速度是我們迄今為止最快模型的五倍,同時還具有相當(dāng)?shù)木幊绦阅堋!?/span>

那么,擴散模型為什么會這么快呢?這與其工作原理有關(guān)。簡單來說,不像自回歸語言模型那樣直接預(yù)測下個文本 token,擴散語言模型(dLLM)是通過逐步細化噪聲的方式來學(xué)習(xí)生成輸出。這意味著它們不僅可以快速迭代,還能在生成過程中進行糾錯。這些特性有助于它們更好地應(yīng)對編輯等任務(wù),包括在數(shù)學(xué)和代碼環(huán)境中。

圖片

用戶輸入「Explain what artificial intelligence is」時,擴散語言模型 LLaDA 生成響應(yīng)的過程,可以看到其生成方式與從左到右的自回歸模型有明顯差別。

但遺憾的是,截至目前,Gemini Diffusion 都還沒有真正問世,感興趣的用戶也還只得在 waitlist 中繼續(xù)等待。但是,其實早在 Gemini Diffusion 問世之前幾年,就已經(jīng)有一些研究團隊在探索擴散式 LLM 的可行性了,并研發(fā)出了擴散語言模型。

比如斯坦福大學(xué) 2022 年提出的 Diffusion-LM 在細粒度的復(fù)雜生成控制方面取得了重要進步;同年,上海 AI 實驗室提出了首個專為序列到序列(Seq2Seq)任務(wù)設(shè)計的擴散模型 DiffuSeq,而復(fù)旦大學(xué)則將擴散過程與 BERT 模型相結(jié)合創(chuàng)造了 DiffusionBERT。之后還有人大高瓴人工智能學(xué)院李崇軒團隊對掩碼式擴散模型在文本建模上的 Scaling Law 的研究。

一直到今年二月份,螞蟻集團和中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團隊推出了首個 8B 參數(shù)量的擴散大語言模型 LLaDA。憑借比肩同規(guī)模 LLaMA 3 的性能,LLaDA 備受關(guān)注。不僅如此,該模型也是國內(nèi)率先做到真正可用的擴散語言模型,并在相關(guān)研究領(lǐng)域產(chǎn)生了巨大影響,甚至成為了許多相關(guān)研究所使用的基礎(chǔ)模型 —— 后續(xù)的 d1、LaViDa 和 LLaDOU 都采用了 LLaDA 作為基礎(chǔ)或主干模型。

圖片

有意思的是,就在 LLaDA 誕生之后幾天,硅谷的一家初創(chuàng)公司 Inception Labs 正式從隱身模式中浮出水面,研發(fā)的「首個商業(yè)級擴散大型語言模型」Mercury 問世了。AI 社區(qū)對擴散式 LLM 的關(guān)注也隨之迎來了一波小高潮。

在這期間,相關(guān)研究層出不窮,包括將自回歸與擴散模型融合的 Block Diffusion 和 CtrlDiff、通過 KV Cache 和并行解碼實現(xiàn) dLLM 無訓(xùn)練加速的 Fast-dLLM、基于傅里葉變換的狀態(tài)擴散語言模型 SFDLM、香港大學(xué)和華為發(fā)布的 Dream 7B、使用橫向思維擴散鏈(DCoLT)增強擴散語言模型推理能力的 LLaDOU 以及我們曾報道過的來自 UCLA 和 Meta 的 d1 模型 —— 其通過監(jiān)督微調(diào)和強化學(xué)習(xí)(diffu-GRPO 算法),擴展了 dLLM 的推理能力,尤其是在數(shù)學(xué)和邏輯推理任務(wù)上的表現(xiàn)。

圖片

 以 LLaDA 為基礎(chǔ)模型開發(fā)的 d1-LLaDA 在多個數(shù)學(xué)和邏輯推理任務(wù)上都獲得了明顯提升,來自論文 arXiv:2504.12216

當(dāng)然,谷歌 5 月份發(fā)布的 Gemini Diffusion 絕對算得上是 dLLM 領(lǐng)域的一大盛事,而其給人最直觀的第一印象就一個字:「快」。其排除額外開銷后的采樣速度可以達到驚人的每秒 1479 token。而 Gemini Diffusion 還不只是快,其在多個基準(zhǔn)上的表現(xiàn)可媲美大得多的自回歸模型 Gemini 2.0 Flash-Lite,彰顯了 dLLM 的巨大潛力。

圖片

而在 dLLM 研究發(fā)展的基礎(chǔ)上,我們也看到了 dMLLM(擴散式多模態(tài) LLM)研究正在爆發(fā),其中最典型的代表莫過于螞蟻集團與人大基于 LLaDA 模型開發(fā)的多模態(tài)擴散大語言模型 LLaDA-V 和字節(jié)跳動開發(fā)的多模態(tài)擴散大語言模型 MMaDA。

其它一些研究同樣非常值得關(guān)注,包括來自新加坡國立大學(xué)的首個離散 dMLLM Dimple、來自 UCLA 等的 LaViDa。

可以說,MMaDA 與 LLaDA 系列模型一起,表明在擴散語言模型這個賽道上,國內(nèi)的研究團隊已經(jīng)躋身第一梯度。我們也非常期待螞蟻集團和字節(jié)跳動接下來在這個方向上的進一步探索。

下面,我們首先將以 LLaDA 為例,展現(xiàn)當(dāng)前擴散式 LLM 的工作原理;之后我們會深入多模態(tài)的領(lǐng)域,帶你一窺當(dāng)前擴散式多模態(tài) LLM(dMLLM)研究成果所昭示的光明未來。在這個未來里,你說不定還能看見 AGI 的影子。

擴散式 LLM 的工作原理 —— 以 LLaDA 為例

不管是擴散式 LLM 還是自回歸 LLM,其實都是生成式模型。而本質(zhì)上講,生成模型是對高維概率分布 P_θ 進行建模,旨在優(yōu)化 P_θ 與 P_data 間的某種距離。這個過程通常包含三大要素,即網(wǎng)絡(luò)結(jié)構(gòu)(MLP、CNN、RNN、Transformer)、規(guī)模擴展(模型、數(shù)據(jù)、計算)、概率建模方法(VAE、GAN、Flow、自回歸、擴散模型)。

更具體而言,自回歸模型是使用鏈?zhǔn)桨l(fā)展來拆分概率分布 P_θ,而擴散模型則是借助隨機微分方程,通過前向加噪和反向去噪過程建模聯(lián)合概率 P_θ。

LLaDA 團隊觀察到:當(dāng)前主流大語言模型普遍采用極大似然估計訓(xùn)練網(wǎng)絡(luò),而極大似然估計等價于最小化真實數(shù)據(jù)分布與模型分布的 KL 散度。他們認(rèn)為:「大模型的諸多優(yōu)良性質(zhì)源于極大似然估計本身,而非自回歸建模方式。」

基于這一見解,該團隊探索了「擴散模型」這一已經(jīng)在視覺生成領(lǐng)域取得顯著成功的范式,看其能否在語言任務(wù)上得同樣的成功。他們進一步觀察到,對于自回歸語言模型成功的要素,擴散模型同樣也具備,包括卓越的可擴展性、指令遵從和上下文學(xué)習(xí)能力、「壓縮即智能」的理論基礎(chǔ)。

基于這些觀察,人大和螞蟻集團提出了 LLaDA,即 Large Language Diffusion with mAsking,下圖展示了其一些概念。

圖片

LLaDA 架構(gòu)的概念性說明,其中 (a) 是預(yù)訓(xùn)練,(b) 為 SFT,(c) 則是采樣過程,來自論文 arXiv:2502.09992

其中,在預(yù)訓(xùn)練過程中,LLaDA 會基于文本進行訓(xùn)練,并且這些文本都帶有隨機掩碼 —— 以相同的比例獨立應(yīng)用于所有 token。在接下來的 SFT 階段,則被遮掩的只有 response,該階段的目標(biāo)是提升模型的指令遵從能力。而在采樣階段,LLaDA 模擬從 t = 1(全掩碼)到 t = 0(無掩碼)的擴散過程,并在每一步,模型預(yù)測所有被掩碼 token 后,會按一定比例對部分預(yù)測結(jié)果進行再掩碼(remask),以保證反向過程與前向過程一致。

對這些過程更詳細的數(shù)學(xué)描述可參閱我們之前的報道《語言模型新范式:首個 8B 擴散大語言模型 LLaDA 發(fā)布,性能比肩 LLaMA 3》或原論文。

圖片

預(yù)訓(xùn)練后的 LLaDA 8B 的實驗表現(xiàn)足以比肩同等規(guī)模下的 LLaMA3,來自論文 arXiv:2502.09992

圖片

經(jīng)過后訓(xùn)練的 LLaDA 8B 也有同樣表現(xiàn),來自論文 arXiv:2502.09992

LLaDA 首次表明:通過前向掩碼加噪與反向去噪機制,同樣可以實現(xiàn)大語言模型的核心能力。

此后,LLaDA 逐漸發(fā)展成了 dLLM 研究的常用基礎(chǔ)模型之一,比如前文提到的 d1、LaViDa 和 LLaDOU 以及近期 Meta 剛發(fā)布的新研究 EB-Sampler,一種通過 Entropy Bounded Unmasking 加速掩碼式擴散模型的采樣過程的技術(shù)。

事實上,掩碼式擴散語言模型的有效性已經(jīng)得到了一些理論證明,比如論文《A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective》從信息論的角度對擴散語言模型的收斂性進行了理論分析,為擴散語言模型的實際有效性提供了新的理論見解。而北京大學(xué)和螞蟻集團的論文《Theoretical Benefit and Limitation of Diffusion Language Model》更是從理論上剖析了 dLLM 的優(yōu)勢和局限。

同時,LLaDA 本身也在不斷演進。5 月下旬,LLaDA 1.5 問世,其有效整合了新提出的 Variance-Reduced Preference Optimization(VRPO)方法 ,在多個數(shù)學(xué)和對齊基準(zhǔn)上都取得了顯著進步。簡單來說,VRPO 旨在降低偏好得分估計器的方差,從而減輕整體偏好優(yōu)化中的偏差和方差。

圖片

LLaDA 1.5 相比 LLaDA 進步明顯,來自論文  arXiv:2505.19223

另一方面,dLLM 也在不斷地擴展自己的能力邊界,尤其是在多模態(tài)能力方面 —— 本就已經(jīng)在視覺生成任務(wù)上表現(xiàn)優(yōu)異的擴散模型也開始通過視覺理解這個世界。

擴散式多模態(tài) LLM

機器理解絢麗世界的另一種方式

目前,擴散式多模態(tài) LLM(dMLLM)還主要集中在文本模態(tài)的基礎(chǔ)上增加視覺模態(tài)。其中,來自人大和螞蟻集團的 LLaDA-V 可說是最典型的代表(實際上 LLaDA-V 中的 V 便是指視覺 /vision)。

LLaDA-V 是一種集成了視覺指令微調(diào)的純擴散多模態(tài)大語言模型,其核心在于將視覺指令微調(diào)框架與 LLaDA 的掩碼擴散機制相結(jié)合。下圖展示了 LLaDA-V 的訓(xùn)練和推理過程。

圖片

b 和 c 分別展示了 LLaDA-V 的訓(xùn)練和推理過程,而 a 則是自回歸訓(xùn)練

架構(gòu)上,LLaDA-V 采用了經(jīng)典的「視覺編碼器 + MLP 投影器 + 語言模型」架構(gòu)。視覺編碼器(SigLIP 2)的作用是提取圖像特征,MLP 投影器再將其映射到 LLaDA 的嵌入空間,LLaDA 語言模型則負(fù)責(zé)處理融合后的多模態(tài)輸入并生成回復(fù)。尤其需要注意,LLaDA-V 采用了雙向注意力機制。這允許模型在預(yù)測時全面理解對話上下文,這在消融實驗中被證明略優(yōu)于對話因果注意力機制。

為了支持多輪多模態(tài)對話,LLaDA-V 的訓(xùn)練目標(biāo)在 LLaDA 的訓(xùn)練目標(biāo)的基礎(chǔ)上進行了擴展,以支持多輪多模態(tài)對話。其核心思想是在訓(xùn)練時保持圖像特征和用戶提示,僅對模型的 response 進行隨機掩碼,訓(xùn)練目標(biāo)僅對被掩碼部分計算交叉熵?fù)p失。

在執(zhí)行推理時,LLaDA-V 由于是擴散模型,因此其生成過程并非自回歸式的逐詞預(yù)測,而是通過擴散模型的反向去噪過程。從一個完全被掩碼的回復(fù)開始,模型在多個步驟中迭代地預(yù)測被掩碼的 token,逐步恢復(fù)出完整的回復(fù)。研究采用了 LLaDA 的低置信度重掩碼策略,優(yōu)先保留高置信度的預(yù)測,以提升生成質(zhì)量。

整體而言,LLaDA-V 成功地將視覺指令微調(diào)與掩碼擴散模型相結(jié)合,證明了擴散模型不僅能在語言任務(wù)上與自回歸模型一較高下,在多模態(tài)理解領(lǐng)域同樣展現(xiàn)出強大的競爭力和獨特的優(yōu)勢,尤其是在數(shù)據(jù)可擴展性方面。

圖片

LLaDA-V 的基準(zhǔn)測試結(jié)果,來自論文 arXiv: 2505.16933

對 LLaDA-V 模型的更多介紹可以參看我們之前的報道《舍棄自回歸!國內(nèi)團隊打造純擴散多模態(tài)大模型 LLaDA-V,理解任務(wù)新 SOTA》。

當(dāng)然,除了 LLaDA-V,近期也誕生了其它一些非常值得關(guān)注的 dMLLM。

這里來重點看看字節(jié)跳動開發(fā)的 MMaDA,其兼具文本推理、多模態(tài)理解和文生圖三種能力。該方法具有三大關(guān)鍵創(chuàng)新:采用了統(tǒng)一的擴散架構(gòu)、實現(xiàn)了一種混合長思維鏈(CoT)微調(diào)策略、提出了一種基于策略梯度的統(tǒng)一強化學(xué)習(xí)算法 UniGRPO。

圖片

MMaDA 的訓(xùn)練和推理流程概況,來自論文 arXiv: 2505.15809

這些創(chuàng)新造就了 MMaDA 在多種任務(wù)上的強勢表現(xiàn),這也使其成為了當(dāng)前 dMLLM 領(lǐng)域最具代表性的研究成果之一。

圖片

MMaDA 執(zhí)行文本推理任務(wù)示例,來自論文 arXiv: 2505.15809

當(dāng)然,除了視覺模態(tài),dLLM 也正在向其它更多模態(tài)推進,其中尤其值得一提的是擴散蛋白質(zhì)語言模型(DPLM)。該研究也來自字節(jié)跳動,可以無條件地生成結(jié)構(gòu)合理、新穎且多樣化的蛋白質(zhì)序列。另外,DPLM 還可根據(jù)各種需求進行定制,并展現(xiàn)出了強大的條件生成能力。

作為當(dāng)前生成式 AI 的前沿方向,dMLLM 相關(guān)研究正迅速積累。LLaDA-V 和 MMaDA 作為杰出代表,也代表了國內(nèi)在這一研究方向上的前沿探索水平。期待這一范式早日邁入真實應(yīng)用場景。

智能的范式不會固定

AI 也將繼續(xù)擴散

從視覺生成到語言理解,再到多模態(tài)交互,擴散模型正逐步走出「圖像領(lǐng)域的舒適區(qū)」,成為通用智能的新基底。在自回歸模型主導(dǎo) AI 敘事數(shù)年的當(dāng)下,這種技術(shù)范式的更迭并非輕易之舉,它意味著思路的反轉(zhuǎn)、范式的顛覆,也意味著更大的挑戰(zhàn)與更遠的可能。

LLaDA 系列模型、MMaDA 和即將問世的 Gemini Diffusion 是這一技術(shù)路徑從可能性走向現(xiàn)實性的關(guān)鍵一躍。它們不僅驗證了掩碼式擴散機制在語言和多模態(tài)任務(wù)上的有效性,也為整個 AI 社區(qū)提供了更加多元和可擴展的研究方向。我們看到,越來越多的團隊開始圍繞 dLLM 與 dMLLM 展開嘗試,構(gòu)建起一個不斷擴展的模型生態(tài)。事實上,甚至已經(jīng)有研究團隊嘗試將量子計算與擴散語言模型進行整合并開發(fā)出了所謂的 Quantum-Diffusion LLM(qdLLM)。這種擴散模型的擴散,似乎本身就預(yù)示著某種更具生命力的未來。

我們始終相信,AI 的發(fā)展從來不是一條直線。范式的演進,是一次次對既有認(rèn)知的突破。在擴散的光譜中,或許我們尚未抵達最終形態(tài),但每一次掩碼與解碼之間的跳躍,都是通往通用智能世界的回聲。

未來已在擴散中生成,下一代智能的曙光,也許正藏在每一個逐步去噪的片段里。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2013-07-27 21:28:44

2023-07-11 13:05:43

LAM語言模型

2023-06-25 07:53:33

AI生成式模型

2013-07-26 09:23:41

2024-06-07 14:17:53

2013-06-27 11:21:17

2013-04-10 18:34:11

2024-08-06 10:25:20

2024-08-05 14:00:00

AI場景

2020-09-27 17:27:58

邊緣計算云計算技術(shù)

2020-09-16 10:28:54

邊緣計算云計算數(shù)據(jù)中心

2025-01-03 09:24:10

模型架構(gòu)論文

2024-04-26 12:51:48

2011-09-06 22:01:09

2023-06-27 13:37:17

谷歌AI

2023-02-22 15:06:44

AI智能

2013-09-09 16:28:36

2016-01-26 11:58:12

2018-09-25 07:00:50

2018-09-27 18:47:45

AIOpsDevOps
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩视频在线 | 9191在线观看 | 国产成人精品一区二区三区在线 | 亚洲高清中文字幕 | 国产精品不卡视频 | 国产日产精品一区二区三区四区 | 精品视频亚洲 | 亚洲天堂二区 | 免费观看一级特黄欧美大片 | 不卡一区二区在线观看 | 在线观看中文字幕 | 国产亚洲www | 亚洲欧美国产视频 | 在线 丝袜 欧美 日韩 制服 | 日韩在线小视频 | 色视频在线观看 | 成人av网站在线观看 | 成人三区 | 国产农村妇女毛片精品久久麻豆 | 日韩中文字幕 | 日本精品999| 51ⅴ精品国产91久久久久久 | 羞羞视频在线网站观看 | 精品久久香蕉国产线看观看亚洲 | 亚洲福利视频一区二区 | 久久久久国产一区二区三区 | 一级黄a视频 | 日韩欧美国产精品一区 | 久久亚洲一区二区三区四区 | 欧美成人精品在线 | 免费一区二区三区 | 亚洲成av人片在线观看无码 | 久久亚洲国产 | 国产激情在线 | 爱爱无遮挡 | 久久久久国产一区二区三区四区 | av网站免费 | 成人精品一区二区户外勾搭野战 | 精品久久久久久久久久久 | 91.com在线观看| 中文字幕欧美一区二区 |