何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成
何愷明再次開宗立派!開辟了生成模型的全新范式——
分形生成模型 Fractal Generative Models,首次使逐像素生成高分辨率圖像成為可能,論文名字依舊延續以往的大道至簡風格。
團隊將生成模型本身抽象為可復用的“原子模塊” 。
通過遞歸地在生成模型中調用這些原子生成模塊,可以構建出一種自相似的分形架構。
其靈感源于數學中的分形思想。它相當于一個粗糙或零碎的幾何形狀分成數個部分,每一部分都(至少近似地)是整體縮小后的形狀。即具有自相似的性質。
嗯,就是像俄羅斯套娃(Matryoshka)那樣子。
By the way,「俄羅斯套娃」這個詞已經被其他論文用過了,sad。
團隊提出用參數化的神經網絡作為分形生成器,從數據中學習這種遞歸法則,實現對高維非序列數據的建模,也可用于材料、蛋白質等。
結果在「逐像素圖像生成」這一任務中表現出色。
看到這張圖,不免讓人想到此前??何愷明的代表作之一掩碼自編碼器MAE。??
??
通過對輸入圖像的隨機區塊進行掩蔽,然后重建缺失的像素。
此次團隊也結合MAE的成果探索了一些可能性。目前該成果代碼已開源。
逐像素生成高分辨率圖像
如何使用自回歸模型作為分形生成器?
首先考慮到目標是對一大組隨機變量的聯合分布進行建模 ,直接使用單個自回歸模型的計算量令人望而卻步。
團隊采取的關鍵策略是“分而治之”,將自回歸模型抽象成一個模塊化單元。
由于每個級別的生成器都可以從單個輸入生成多個輸出,因此分形框架可以在只需要線性數量的遞歸級別的情況下實現生成輸出的指數級增長。
最終,在每個分形級別中,自回歸模型接收來自前一個生成器的輸出,將其與相應的圖像塊連接,并使用多個transformer模塊為下一個生成器生成一組輸出,逐步從圖像塊到像素細化生成過程。
之所以選擇像素級圖像生成這個任務,是由于原始圖像數據具有高維度和復雜性,像素之間存在豐富的結構模式和相互依賴關系。
這類高維生成問題任務在逐個元素生成數據,但又與長序列建模不同,通常涉及非順序數據,像分子結構、蛋白質、生物神經網絡等數據也符合這個特點。
團隊認為分型生成模型不僅是一個計算機視覺方法,還能展示分形方法在處理這類高維非順序數據建模問題上的潛力,為其他數據領域的應用提供參考。
不過還是來看看它在像素級圖像上的表現:
首先是直觀的視覺效果,在ImageNet 256x256數據集上,逐像素生成一張圖需要1.29秒。
測試指標方面,分形模型在ImageNet 64×64無條件生成上實現了3.14bits/dim的負對數似然,超越此前最佳的自回歸模型。
在圖像質量上,FractalMAR-H 模型達到6.15的FID和348.9的Inception Score。
更值得關注的是,分形架構將計算效率提高到傳統方法的4000倍,逐個像素生成高分辨率圖像首次成為可能。
團隊還探索了將掩碼重建與分形生成模型結合起來,實驗發現也可以準確預測被掩蔽的像素。
此外,它可以有效地從類標簽中捕獲高級語義,并將其反映在預測的像素中,比如最后一列,把貓的臉替換成狗的臉,這些結果證明了該方法在已知條件下預測未知數據的有效性。
最后附上更多生成結果樣本。
何愷明MIT天團,一作黎天鴻
此次成果是由MIT何愷明團隊和谷歌DeepMind全華人班底完成,并由谷歌提供TPU、GPU資源支持。
一作何愷明的學生黎天鴻。
黎天鴻本科畢業于清華叉院姚班,在MIT獲得了碩博學位之后,目前在何愷明組內從事博士后研究。
他的主要研究方向是表征學習、生成模型以及兩者之間的協同作用。目標是構建能夠理解人類感知之外的世界的智能視覺系統。
此前曾作為一作和何愷明開發了自條件圖像生成框架RCG,團隊最新的多項研究中他也都有參與。
Qinyi Sun,目前MIT三年級本科生。
范麗杰,清華計算機系校友,去年博士畢業于MIT CSAIL,目前在谷歌DeepMind擔任研究科學家,致力于生成模型和合成數據。
此前曾與黎天鴻共同參與過FLUID的研究——
一個可擴展的自回歸文本轉圖像模型,無需VQ。10B參數模型實現SOTA性能。
論文地址:
??https://arxiv.org/abs/2502.17437v1??
本文轉自 量子位 ,作者:量子位
