成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華&英偉達(dá)揭露ICML最佳論文隱藏?cái)?shù)值問(wèn)題,簡(jiǎn)單掩碼模型是等價(jià)更好選擇 | ICLR25

人工智能 新聞
作為離散擴(kuò)散模型中性能最強(qiáng)的類別,掩碼擴(kuò)散模型可能有點(diǎn)“被包裝過(guò)度”了。為啥呢?

掩碼離散擴(kuò)散模型,可能并沒有看上去那么厲害。

這是清華及英偉達(dá)研究人員最新提出的觀點(diǎn)。

他們發(fā)現(xiàn),作為離散擴(kuò)散模型中性能最強(qiáng)的類別,掩碼擴(kuò)散模型可能有點(diǎn)“被包裝過(guò)度”了。為啥呢?

第一,這類模型所宣稱的超高性能,其實(shí)是由于一個(gè)技術(shù)上的小瑕疵,用32位計(jì)算時(shí),模型會(huì)產(chǎn)生一種“降溫”效果,使模型看起來(lái)表現(xiàn)很好,但實(shí)際上只是多樣性被降低了。用更精確的64位計(jì)算,就會(huì)發(fā)現(xiàn)它們的表現(xiàn)并不如宣稱的那么好。

第二,這些模型引入了“時(shí)間”的概念,看起來(lái)很高級(jí),但研究發(fā)現(xiàn)這完全沒必要。

第三,這些模型其實(shí)與已有的簡(jiǎn)單掩碼模型完全等價(jià),只要正確設(shè)置簡(jiǎn)單模型的參數(shù),就能達(dá)到相同效果。

目前,這篇研究已入選ICLR 2025。

圖片

具體說(shuō)了啥?一起來(lái)看。

背景

隨著SEDD獲得ICML 2024最佳論文獎(jiǎng),起源于D3PM的離散擴(kuò)散模型迎來(lái)了復(fù)興并成為自回歸范式的有力競(jìng)爭(zhēng)者,在文本、蛋白質(zhì)等離散序列生成任務(wù)上掀起了研究熱潮。

作為離散擴(kuò)散模型中性能最強(qiáng)的類別,掩碼式離散擴(kuò)散模型(簡(jiǎn)稱掩碼擴(kuò)散模型)在后續(xù)工作中被進(jìn)一步簡(jiǎn)化,從而在理論形式上與連續(xù)空間擴(kuò)散模型對(duì)齊。

掩碼擴(kuò)散模型通過(guò)引入一個(gè)連續(xù)的“時(shí)間”或“噪聲水平”的概念,定義了一個(gè)從原始數(shù)據(jù)逐漸“加噪”(掩碼)到完全掩碼狀態(tài)的前向過(guò)程,以及一個(gè)學(xué)習(xí)從掩碼狀態(tài)逐步“去噪”(預(yù)測(cè)被掩碼部分)恢復(fù)數(shù)據(jù)的反向(生成)過(guò)程。

在使用生成式困惑度(Gen PPL)作為衡量文本生成質(zhì)量的指標(biāo)時(shí),掩碼擴(kuò)散模型在先前工作中均顯示出了隨采樣步數(shù)增加的性能提升,并在足夠多步數(shù)下超越自回歸模型

這種對(duì)比是否公平?同時(shí),作為離散空間中的“擴(kuò)散”模型,是否意味著其可以借鑒標(biāo)準(zhǔn)擴(kuò)散模型相關(guān)算法來(lái)增強(qiáng)性能?

論文從訓(xùn)練和采樣兩個(gè)方面對(duì)掩碼擴(kuò)散模型進(jìn)行解構(gòu)

掩碼擴(kuò)散模型與掩碼模型的差異

圖片

盡管掩碼擴(kuò)散模型借鑒了擴(kuò)散模型的框架,但其核心操作與經(jīng)典的掩碼語(yǔ)言模型(如 BERT,Mask-Predict) 或掩碼圖像生成模型(如 MaskGIT)有著相似之處:都是對(duì)部分內(nèi)容進(jìn)行掩碼(masking),然后預(yù)測(cè)被掩碼的內(nèi)容。

BERT在訓(xùn)練時(shí)只會(huì)掩碼一小部分token,適用任務(wù)為表征學(xué)習(xí)、文本理解而非生成,而Mask-Predict與MaskGIT擴(kuò)大了掩碼比例的范圍并可用于文本、圖像生成

相比于掩碼模型,掩碼擴(kuò)散模型引入了一個(gè)關(guān)鍵的復(fù)雜性:時(shí)間步(time step)。其訓(xùn)練和采樣都嚴(yán)格依賴于一個(gè)預(yù)先定義的、隨時(shí)間變化的掩碼(噪聲)調(diào)度。

模型需要根據(jù)當(dāng)前的時(shí)間步 t 來(lái)預(yù)測(cè)原始數(shù)據(jù)。

具體而言,它和掩碼模型的差異體現(xiàn)在:

訓(xùn)練中,掩碼模型被掩碼的token數(shù)量及不同掩碼比例對(duì)應(yīng)的損失權(quán)重可以隨意設(shè)定;掩碼擴(kuò)散模型同一時(shí)間對(duì)應(yīng)被掩碼token的數(shù)量是不確定的,不同時(shí)間的分布及權(quán)重需要特殊設(shè)置使得損失構(gòu)成模型似然(likelihood)的證據(jù)下界(ELBO)

圖片

采樣中,掩碼模型按照token為粒度,逐token解碼;掩碼擴(kuò)散模型以時(shí)間為粒度進(jìn)行離散化,從時(shí)間t轉(zhuǎn)移到更小的時(shí)間s時(shí),每個(gè)token被解碼與否通過(guò)概率采樣決定,被解碼token的數(shù)量是不確定的。

圖片

掩碼擴(kuò)散模型的采樣存在隱性數(shù)值問(wèn)題

先前評(píng)估掩碼擴(kuò)散模型性能的關(guān)鍵指標(biāo)之一是Gen PPL,其通過(guò)計(jì)算參考模型(如GPT-2)對(duì)模型生成內(nèi)容的“驚訝程度”來(lái)衡量生成質(zhì)量。

然而,Gen PPL 指標(biāo)對(duì)采樣過(guò)程中的超參數(shù)(如采樣溫度)極為敏感,并且可以通過(guò)調(diào)整這些參數(shù)輕易地“刷低”數(shù)值,但這并不代表模型本身的生成能力有實(shí)質(zhì)提升

本研究首次揭露,掩碼擴(kuò)散模型特有的采樣過(guò)程存在隱藏的數(shù)值問(wèn)題,即使在常用的32位浮點(diǎn)數(shù)精度下也會(huì)帶來(lái)類似于降低溫度的效果

圖片

為了顯示這一點(diǎn),論文額外測(cè)試了生成句子的熵(entropy)來(lái)衡量生成多樣性

隨著采樣步數(shù)的增加,Gen PPL不斷下降并超過(guò)自回歸模型(左圖),然而熵也在持續(xù)降低(右圖)。

圖片

當(dāng)采樣過(guò)程以64位精度進(jìn)行時(shí),熵穩(wěn)定在與自回歸模型類似的水平,而Gen PPL則顯著升高并遠(yuǎn)遠(yuǎn)落后于自回歸模型。

論文通過(guò)進(jìn)一步的數(shù)學(xué)推導(dǎo),從理論上解釋了這一溫度降低效果的根源。

具體而言,在[0,1)區(qū)間上均勻采樣的浮點(diǎn)數(shù)實(shí)際范圍為[0,1-ε],其中ε是一個(gè)接近0的小數(shù),這會(huì)導(dǎo)致基于Gumbel-max技巧的類別采樣(categorical sampling)存在截?cái)鄦?wèn)題

圖片

圖片

最終的分布不服從原先的類別概率π,而會(huì)偏移到圖片,其中

圖片

這一偏移會(huì)加強(qiáng)原先概率已經(jīng)比較大的類別,從而達(dá)到類似降低溫度的效果。

通過(guò)對(duì)類別采樣部分的代碼做對(duì)照試驗(yàn),文章驗(yàn)證了64位采樣+手動(dòng)截?cái)啻_實(shí)可以復(fù)現(xiàn)32位采樣的效果。

圖片

圖片

同時(shí),上述數(shù)值問(wèn)題對(duì)于單個(gè)token并不顯著,逐token解碼的模型(如自回歸模型、掩碼模型)在32位下基本不受影響

然而,此問(wèn)題會(huì)在掩碼擴(kuò)散模型中額外影響所有token之間的交互,導(dǎo)致某些token被優(yōu)先解碼,進(jìn)一步降低生成多樣性。

可以說(shuō),這是掩碼擴(kuò)散模型采樣過(guò)程獨(dú)有的數(shù)值問(wèn)題

掩碼模型與掩碼擴(kuò)散模型的等價(jià)性

先前工作從最優(yōu)網(wǎng)絡(luò)的角度證明了掩碼擴(kuò)散模型中的時(shí)間并不必要,本論文進(jìn)一步在訓(xùn)練和采樣兩方面證明掩碼擴(kuò)散模型和掩碼模型的等價(jià)性

具體而言:

在訓(xùn)練損失函數(shù)上,掩碼擴(kuò)散模型與時(shí)間有關(guān)的似然下界等價(jià)于掩碼模型的以token為粒度的損失函數(shù),只要滿足:(1)被掩碼token的個(gè)數(shù)n在1和L之間均勻采樣,其中L是序列的總長(zhǎng)度(2)預(yù)測(cè)損失對(duì)n取均值,即施加“似然權(quán)重”1/n來(lái)實(shí)現(xiàn)最大似然訓(xùn)練

圖片

需要注意的是,對(duì)不同時(shí)間/掩碼比例施加的權(quán)重并不影響網(wǎng)絡(luò)在無(wú)限容量下的最優(yōu)值,而決定了網(wǎng)絡(luò)訓(xùn)練過(guò)程中的重點(diǎn)優(yōu)化區(qū)域。

文本生成的自回歸范式采取了最大似然訓(xùn)練,而在圖像上,最大似然訓(xùn)練往往會(huì)帶來(lái)生成質(zhì)量的下降。

采樣過(guò)程上,掩碼擴(kuò)散模型逆時(shí)間的采樣過(guò)程可以通過(guò)論文提出的首達(dá)采樣器(first-hitting sampler),轉(zhuǎn)化為與掩碼模型相同的逐token采樣,最多需要L步便可達(dá)到?jīng)]有離散化誤差的精確采樣,而掩碼擴(kuò)散模型原有采樣過(guò)程需要對(duì)時(shí)間無(wú)限細(xì)分才能完全精確。同時(shí),采用逐token解碼可以避免上文所述的隱藏?cái)?shù)值問(wèn)題。

圖片

結(jié)語(yǔ)

掩碼擴(kuò)散模型引入的“時(shí)間”概念可能不僅無(wú)益,反而有害(導(dǎo)致數(shù)值問(wèn)題和不必要的復(fù)雜性)

同時(shí),其雖然帶有“擴(kuò)散”兩字,但與連續(xù)空間上的擴(kuò)散模型及其相關(guān)算法關(guān)系不大,如在論文中,作者仿照擴(kuò)散模型為掩碼擴(kuò)散模型開發(fā)了高階采樣算法,其并不如連續(xù)空間中的加速效果顯著。

在實(shí)踐中,使用掩碼擴(kuò)散模型、引入連續(xù)時(shí)間相關(guān)的訓(xùn)練/采樣過(guò)程或許并不必要,簡(jiǎn)單的掩碼模型(如 MaskGIT 及其變種)在概念上更簡(jiǎn)潔,實(shí)現(xiàn)上更穩(wěn)定,并且在理論上具有同等的潛力

掩碼模型作為自回歸模型使用隨機(jī)token順序和雙向注意力機(jī)制的變種,同樣是基于似然的模型,可以作為建模離散數(shù)據(jù)生成的另一種選擇。

由于雙向注意力和KV cache機(jī)制不兼容,掩碼模型在長(zhǎng)上下文的推理速度上相較自回歸模型存在瓶頸。

近期工作通過(guò)在雙向注意力和因果注意力機(jī)制之間插值使用隨機(jī)順序的自回歸模型等方法使模型保持雙向感知能力的同時(shí),推理速度向自回歸模型靠近。

也有工作探究非掩碼類型的離散擴(kuò)散模型與連續(xù)空間擴(kuò)散模型的理論聯(lián)系,其擴(kuò)散機(jī)制更加屬實(shí),而非如掩碼擴(kuò)散模型一樣是可有可無(wú)的噱頭。

論文第一作者鄭凱文為清華大學(xué)計(jì)算機(jī)系三年級(jí)博士生,在ICML、NeurIPS、ICLR發(fā)表擴(kuò)散模型相關(guān)一作5篇。文章通訊作者為朱軍教授,合作者張欽圣、陳永昕、毛含子為英偉達(dá)研究員,劉洺堉為英偉達(dá)副總裁與Deep Imagination研究組主管。

論文標(biāo)題:Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling

論文鏈接:https://arxiv.org/abs/2409.02908

論文博客:https://zhengkw18.github.io/blog/2024/mdm/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-07 09:45:00

2017-06-02 23:00:00

深度學(xué)習(xí)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2023-03-23 18:46:19

論文

2024-12-04 12:10:40

2023-08-28 07:03:38

2024-01-17 12:05:12

AI模型

2023-10-31 19:20:29

語(yǔ)言模型英偉達(dá)芯片

2024-08-22 18:58:27

英偉達(dá)微軟小語(yǔ)言模型

2016-01-05 17:59:32

VR英偉達(dá)

2024-08-06 14:30:00

AI模型

2024-06-19 11:47:10

2023-04-04 08:00:00

LazyPredic機(jī)器學(xué)習(xí)ML模型

2022-07-12 10:37:08

阿里巴巴達(dá)摩院機(jī)器學(xué)習(xí)

2024-06-17 08:55:00

2023-11-01 13:47:44

2025-02-27 09:09:45

2023-05-29 18:36:31

英偉達(dá)元宇宙AI

2024-06-24 09:51:24

2021-10-21 09:15:09

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2024-05-16 12:48:12

數(shù)據(jù)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲va欧美va天堂v国产综合 | 久国产精品 | 欧美大片在线观看 | 日韩二三区| 亚洲精品99999 | 午夜日韩视频 | 亚洲视频手机在线 | 综合国产 | 操操日 | 亚洲综合首页 | 欧美成人一区二区 | 狠狠操天天操 | 一区二区三区免费 | 伊人久久国产 | 欧美日韩视频在线播放 | 黄色免费在线网址 | 精品国产一区二区三区日日嗨 | 国产黄色麻豆视频 | 成人性生交大片 | 亚洲视频免费在线看 | 午夜欧美| 久久r久久 | 日日拍夜夜 | 色综合天天天天做夜夜夜夜做 | 国产精品一区二区三区四区 | 成人精品国产免费网站 | 亚洲精品电影在线观看 | 日本视频在线播放 | 精品三区 | 91在线精品视频 | 日韩视频福利 | 国产精品夜间视频香蕉 | 欧美女优在线观看 | 蜜桃特黄a∨片免费观看 | 精品国产乱码久久久久久闺蜜 | 国产视频第一页 | 一区二区三区在线观看视频 | 亚洲视频免费在线播放 | 亚洲品质自拍视频 | 日日干干 | 青青久草|