CVPR 2025 | 數據荒漠終結者!DoraCycle跨模態自循環算法:讓生成不再依賴配對數據
論文鏈接:https://arxiv.org/pdf/2503.03651
Git鏈接:https://github.com/showlab/DoraCycle
亮點直擊
- 無配對數據的領域適應:DoraCycle通過循環一致性學習,首次實現了僅使用無配對數據進行生成模型的領域適應,顯著降低了數據獲取成本。
- 跨模態對齊的自監督學習:通過雙向映射和同一模態內的損失計算,實現了視覺和語言之間的跨模態對齊,無需成對數據監督。
- 訓練穩定性增強:引入EMA模型和梯度裁剪技術,解決了多步推理中的梯度爆炸問題,提升了訓練過程的穩定性和偽數據生成的質量。
- 靈活的任務適應性:DoraCycle既能處理無需成對知識的任務(如風格化),也能有效結合少量配對數據完成需要新知識的任務(如身份生成),具有廣泛的應用潛力。
總結速覽
解決的問題
- 復雜領域適應性問題:生成模型在適應復雜領域時,通常需要大量成對的文本-圖像數據,但這類數據難以獲取且成本高昂。
- 無配對數據的利用:現有的生成模型難以有效利用單模態(如視覺或語言)的無配對數據進行領域適應。
- 跨模態對齊的挑戰:在無配對數據的情況下,如何實現視覺和語言之間的跨模態對齊,以支持生成模型的領域適應。
提出的方案
- DoraCycle框架:提出了一種基于無配對數據的循環一致性學習框架,通過雙向映射(文本-圖像-文本和圖像-文本-圖像)實現跨模態對齊。
- 自監督學習:通過計算同一模態內的交叉熵損失,避免了成對數據的需求,實現了模型的自進化。
- 訓練穩定性增強:引入EMA(指數移動平均)模型和梯度裁剪技術,提升訓練穩定性,避免梯度爆炸和優化方向沖突。
應用的技術
- 多模態生成模型:利用預訓練的統一生成模型(如視覺-語言對齊模型)進行跨模態映射。
- 循環一致性學習:通過文本-圖像-文本(T cycle)和圖像-文本-圖像(I cycle)兩個循環路徑,實現無配對數據的領域適應。
- 梯度優化技術:采用梯度裁剪和EMA模型,確保訓練過程的穩定性和偽數據生成的質量。
####- 達到的效果
- 無配對數據的領域適應:對于風格化等不需要成對知識的任務,DoraCycle僅使用無配對數據即可有效適應目標領域。
- 小規模配對數據的有效利用:對于需要新配對知識的任務(如特定身份生成),DoraCycle結合少量配對數據和大規模無配對數據,實現了高效的領域適應。
- 減少對配對數據的依賴:相比現有方法,DoraCycle顯著減少了對成對數據的需求,同時達到了可比甚至更優的性能。
方法
本文所提出的 DoraCycle 框架,如下圖2所示,建立在為涉及視覺和語言的多模態任務設計的統一生成模型之上。統一模型使用單個transformer來學習視覺和語言之間的雙向映射,提供了一個強大的骨干網絡,能夠處理和生成不同的模態。對于描述生成,模型接收圖像 token 并預測相應的文本 token,而對于圖像生成,它接收文本 token 并預測圖像 token。這種多功能性使得統一模型非常適合作為我們提出的框架的基礎。
多模態循環
為了使用無配對數據適應統一模型以進行面向領域的適應,本文設計了兩個多模態循環:圖像-文本-圖像循環(I 循環)和文本-圖像-文本循環(T 循環)。每個循環利用單一模態的數據,使模型能夠在不依賴配對數據的情況下進行適應。
通過利用這兩個循環,本文框架迫使模型優化其對圖像和文本表示的生成理解,確保輸入和輸出之間的一致性,同時有效利用無配對數據將統一模型適應到目標域。
高效訓練:在兩個循環的中間步驟中,生成中間表示(即字幕或圖像)需要多次前向傳遞。這是因為生成過程涉及多次預測下一個 token 或被掩碼的 token。通過所有這些步驟反向傳播梯度的計算成本極高。因此,我們首先使用推理模式下的模型生成中間結果作為偽配對數據,然后在教師強制方案(teacher-forcing scheme)中將其用作前半部分循環的真實值。通過這種方式,我們將前向傳遞的次數減少到兩次,即一次用于生成中間結果,一次用于生成最終輸出,從而使整個訓練過程更加內存高效。
Token 可微性:由于每個循環中的中間輸出是離散的 token,無法直接傳播梯度,因此我們采用 Gumbel-Softmax 使這些 token 表示可微。
優化穩定性
每個循環在前向傳遞中兩次使用相同的統一模型,這會導致優化不穩定。為了穩定訓練過程,我們采用了指數移動平均(Exponential Moving Average, EMA)訓練技術。維護一個模型的影子版本,稱為 EMA 模型,該模型使用主模型參數的指數衰減平均值進行更新。
在每次訓練步驟中,EMA 版本的模型用于生成中間表示 token(例如偽圖像或文本 token),這些 token 在訓練期間充當偽真實值。通過使用來自更新較慢的 EMA 模型的穩定目標,我們可以減輕優化不穩定的風險。因此,主模型能夠從更一致和可靠的中間目標中學習,而不是受到訓練早期階段波動的影響。
平衡兩個循環
T 循環往往比 I 循環收斂得更快,主要是因為文本數據本質上是單維的,并且比圖像更容易學習。這種優化不平衡會導致模型的一種崩潰,即模型傾向于為圖像生成無關但自一致的描述,最終降低圖像-文本對齊能力。
實驗
實現細節
Show-o 是目前唯一完全開源的統一生成模型,具有完整的預訓練權重和訓練代碼,包括其理解和生成能力。因此,將 DoraCycle 基于Show-o 并進行了相應的實驗?;A模型是一個統一的 transformer 模型,通過預測離散的文本和視覺 token 來執行理解和圖像生成任務。我們在注意力層的第 7 到 24 層的 Q 投影和 V 投影中插入了可訓練的低秩適應(LoRA)模塊。LoRA 的秩設置為 32。 設置為 0.1,以平衡兩個循環的優化。
面向領域的適應
無配對訓練:對于不需要強相關配對知識的任務,DoraCycle 可以完全使用無配對數據學習目標領域。例如,為了學習賽博朋克風格,收集了 300 張賽博朋克風格的圖像作為 I 循環的輸入,并使用基礎模型預訓練數據集中的文本數據作為 T 循環的輸入,同時自動將關鍵詞“賽博朋克風格”注入文本中,提示模型我們希望的目標風格。
實驗結果如下圖 3 所示。給定相同的文本提示以生成賽博朋克風格的圖像,圖3 (a) 顯示了未經額外訓練的基礎模型生成的圖像??梢杂^察到,基礎模型添加了一些賽博朋克元素,例如霓虹燈,但整體氛圍與目標風格不太一致。圖 3 (d) 顯示了使用 DoraCycle 訓練的適應模型生成的圖像,其與目標風格很好地契合。傳統的文本到圖像定制或適應方法,例如 DreamBooth,依賴于配對數據進行訓練。因此,我們通過為收集的圖像添加字幕來模擬用戶創建的配對數據,并將其分為兩組。一組僅包含 10 個配對示例,這對用戶來說是可接受的工作量,而另一組包含所有 300 張圖像的字幕,這對用戶來說是勞動密集型且不切實際的。圖 3 (b) 顯示了在 10 個配對示例上訓練的模型生成的圖像。該模型難以生成良好的風格化圖像,可能是因為室內書架與賽博朋克風格的結合對模型來說過于新穎,無法從有限的配對數據中很好地泛化。圖 3 (c) 顯示了在 300 個配對示例上訓練的模型生成的圖像,其輸出效果更好。相比之下,使用 DoraCycle 訓練的模型不需要手動添加字幕,顯著減少了用戶的工作量。
圖 3 (e) 展示了通過 DoraCycle 訓練的適應模型通過圖像-文本-圖像轉換保持了語義一致性。輸入圖像被轉換為文本描述,然后重建為圖像。結果表明,適應模型在整個多模態循環中成功捕捉并保留了原始圖像中的關鍵視覺組件。值得注意的是,角色的身份和環境的細節都得到了保留,表明在目標領域中具有有效的雙向理解和生成能力。此外,新生成的圖像結合了從目標領域學習到的風格,展示了所學知識對野外圖像的泛化能力。
學習配對知識對于需要學習某些配對知識的任務,例如將身份名稱與其視覺外觀關聯起來,DoraCycle 可以結合少量配對數據來學習這種關聯,同時利用大量無配對數據全面學習目標領域的一般特征。具體來說,在每批數據中,對于具有配對真實值的數據,我們計算 token 預測損失,并將其包含在循環中,使用真實值作為偽中間生成結果,并計算循環損失。對于無配對數據,我們計算無配對循環損失。
例如,當將模型適應到領域 1:《黑神話:悟空》和領域 2:《哆啦A夢》時,我們為每個獨特身份標注 1-3 張圖像,并在字幕中指定身份名稱。對于每個領域,收集了 2k 張圖像(主要從在線視頻中采樣),并獨立收集了文本描述,這些描述通過 ChatGPT 進一步擴展到 1k。最終使用 DoraCycle 訓練的適應模型在文本到圖像生成和圖像到文本生成方面表現出色,如圖 4 所示。
在文本到圖像結果方面,使用 DoraCycle 訓練的模型有效地生成了與目標領域高度一致的圖像。在領域1(《黑神話:悟空》)中,生成的圖像準確地描繪了領域特定的視覺元素,例如角色外觀的復雜細節和整體奇幻氛圍。這表明模型成功學會了從文本提示中泛化視覺特征,生成目標領域內的逼真圖像。同樣,在領域2(《哆啦A夢》)中,生成的圖像保留了標志性的卡通美學,并捕捉到了角色和場景的關鍵視覺細節,展示了有效的領域適應能力。
在圖像到文本任務中,模型在生成上下文準確的描述方面表現良好。在領域1中,生成的描述提供了對角色、其屬性和背景的豐富描述,有效地反映了輸入圖像中的視覺元素。在領域2中,描述簡潔地描述了角色、其行為及其環境,保持了與視覺風格的一致性。模型生成準確描述的能力突顯了其對領域視覺組件的強大理解。
此外,可以觀察到模型在處理未標注配對數據的視覺元素時的一個有趣現象。例如,在下圖4(w) 中,模型將銅鑼燒(一種甜豆沙餡的煎餅)描述為“甜甜圈”。這可能是由于銅鑼燒的動漫風格表現形式較為新穎,基礎模型和無配對訓練均未提供關于它的特定文本-視覺配對知識。另一方面,在圖4(x) 所示的示例中,我們使用特殊 token 將白貓標注為具有配對文本和視覺數據的角色,其名稱為“<soc> 白貓 <eoc>”。有趣的是,盡管沒有為黑貓提供配對標注,模型在生成描述時仍為其預測了特殊 token “<soc> 黑貓 <eoc>”。這表明模型在學習目標領域時自主將黑貓歸類為角色,表明其可能嘗試將學到的知識從一種實體泛化到類似實體。
使用特殊 token 增強學習如下圖5所示,通過實驗發現模型經?;煜繕祟I域中的多個新概念。圖5(a) 顯示了未經訓練的基礎模型生成的圖像,輸入為角色名稱。圖5(b) 顯示了訓練后模型生成的角色。在訓練過程中,角色名稱直接包含在文本中而未進行特殊處理,導致角色之間的屬性混淆。角色名稱的 token 化長度不一也增加了學習難度。為了解決這個問題,引入了一個簡單而高效的解決方案:在角色名稱周圍添加特殊 token。引入了角色開始(<soc>)和角色結束(<eoc>)token 來包圍角色名稱,這顯著增強了對新概念的學習。如圖 5 (c) 所示,引入特殊 token 改善了角色與其名稱之間的對齊。
對比實驗
使用 Storyboard20K數據集進行定量對比實驗。來自同一數據源的故事板被分組形成一個領域,包含圖像和描述性文本。數據在三種不同設置下使用,即完全無配對、僅配對以及配對加無配對數據,如下表 1 所示。
對比方法包括 DreamBooth 和 ITIT。將 DreamBooth 實現為配對訓練的基線方法,通過在統一模型上應用 LoRA 微調。ITIT 的原始設計不同,其圖像和文本解碼器是分離的模型,且其代碼尚未公開。對其進行了調整并重新實現,以適用于我們的統一模型架構。
使用自動評估和人工評估來比較不同方法的性能。對于自動評估,使用 FID 來衡量生成圖像與目標領域圖像之間的分布差異,并使用 CIDEr 計算生成文本與真實值之間的誤差。對于人工評估,我們為模型的生成結果創建了 100 個問題,每個問題由三位不同的人工評分者評分。評分者被要求評估圖像與文本之間的對齊程度,評分范圍為 1 到 5,其中 1 表示完全不相關,5 表示完全對齊。
前面表 1 中的實驗結果表明,所提出的DoraCycle在多種數據設置下表現優異。具體來說,當結合使用配對和無配對數據時,DoraCycle 優于 ITIT。與嚴重依賴配對數據的 DreamBooth 相比,DoraCycle 在使用相同比例的配對數據(即 10% 配對數據)時表現更好,這表明 90% 無配對數據帶來的優勢。雖然使用 100% 配對數據的 DreamBooth 獲得了最佳評估分數,但使用 10% 配對數據和 90% 無配對數據的 DoraCycle 的分數與之相當。
表1還顯示了 DoraCycle 在不同循環設置下的性能差異。結果表明,在沒有 T 循環且僅使用 I 循環的情況下,適應模型的字幕生成能力顯著下降。相反,如果僅使用 T 循環而不使用 I 循環,FID 分數顯著增加,表明生成的圖像分布與目標分布不匹配。
消融實驗
下表 2 顯示,從 DoraCycle 中移除關鍵組件會顯著影響性能。在沒有 EMA 的情況下,FID 分數從 25.37 增加到 27.19,表明由于訓練穩定性降低,圖像質量下降。移除梯度手術(Gradient Surgery, GS)會降低 CIDEr 分數并增加 FID,表明性能變差。這證明了減輕兩個循環優化方向之間干擾的重要性。完整的 DoraCycle 框架,包含 EMA 和 GS,在所有指標上表現最佳,證明了這些組件在實現更好優化中的重要性。
數據集樣例
結論
DoraCycle,通過多模態循環將統一生成模型適應到目標領域。通過利用圖像-文本-圖像和文本-圖像-文本循環,DoraCycle 將學習目標轉換為同一模態,從而能夠使用無配對數據進行有效優化。實驗表明,DoraCycle 可以僅使用無配對數據將統一模型適應到目標域,或在必要時結合少量配對數據以學習特定概念。結果表明,DoraCycle 在各種設置下實現了先進或可比的性能。利用無配對數據拓寬了DoraCycle的應用潛力,使其非常適合配對數據稀缺或難以收集的領域適應任務。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/7cVncFNGJQmkdIDO7cUN2g??
