成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成

發布于 2025-2-26 11:59
瀏覽
0收藏

何愷明再次開宗立派!開辟了生成模型的全新范式——

分形生成模型 Fractal Generative Models,首次使逐像素生成高分辨率圖像成為可能,論文名字依舊延續以往的大道至簡風格。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

團隊將生成模型本身抽象為可復用的“原子模塊” 。


通過遞歸地在生成模型中調用這些原子生成模塊,可以構建出一種自相似的分形架構。

其靈感源于數學中的分形思想。它相當于一個粗糙或零碎的幾何形狀分成數個部分,每一部分都(至少近似地)是整體縮小后的形狀。即具有自相似的性質。


嗯,就是像俄羅斯套娃(Matryoshka)那樣子。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

By the way,「俄羅斯套娃」這個詞已經被其他論文用過了,sad。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

團隊提出用參數化的神經網絡作為分形生成器,從數據中學習這種遞歸法則,實現對高維非序列數據的建模,也可用于材料、蛋白質等。


結果在「逐像素圖像生成」這一任務中表現出色。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

看到這張圖,不免讓人想到此前??何愷明的代表作之一掩碼自編碼器MAE。??

??

通過對輸入圖像的隨機區塊進行掩蔽,然后重建缺失的像素。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

此次團隊也結合MAE的成果探索了一些可能性。目前該成果代碼已開源。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

逐像素生成高分辨率圖像

如何使用自回歸模型作為分形生成器?


首先考慮到目標是對一大組隨機變量的聯合分布進行建模 ,直接使用單個自回歸模型的計算量令人望而卻步。


團隊采取的關鍵策略是“分而治之”,將自回歸模型抽象成一個模塊化單元。


由于每個級別的生成器都可以從單個輸入生成多個輸出,因此分形框架可以在只需要線性數量的遞歸級別的情況下實現生成輸出的指數級增長。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

最終,在每個分形級別中,自回歸模型接收來自前一個生成器的輸出,將其與相應的圖像塊連接,并使用多個transformer模塊為下一個生成器生成一組輸出,逐步從圖像塊到像素細化生成過程。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

之所以選擇像素級圖像生成這個任務,是由于原始圖像數據具有高維度和復雜性,像素之間存在豐富的結構模式和相互依賴關系。


這類高維生成問題任務在逐個元素生成數據,但又與長序列建模不同,通常涉及非順序數據,像分子結構、蛋白質、生物神經網絡等數據也符合這個特點。


團隊認為分型生成模型不僅是一個計算機視覺方法,還能展示分形方法在處理這類高維非順序數據建模問題上的潛力,為其他數據領域的應用提供參考。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

不過還是來看看它在像素級圖像上的表現:

首先是直觀的視覺效果,在ImageNet 256x256數據集上,逐像素生成一張圖需要1.29秒。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

測試指標方面,分形模型在ImageNet 64×64無條件生成上實現了3.14bits/dim的負對數似然,超越此前最佳的自回歸模型。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

在圖像質量上,FractalMAR-H 模型達到6.15的FID和348.9的Inception Score。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

更值得關注的是,分形架構將計算效率提高到傳統方法的4000倍,逐個像素生成高分辨率圖像首次成為可能。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

團隊還探索了將掩碼重建與分形生成模型結合起來,實驗發現也可以準確預測被掩蔽的像素。


此外,它可以有效地從類標簽中捕獲高級語義,并將其反映在預測的像素中,比如最后一列,把貓的臉替換成狗的臉,這些結果證明了該方法在已知條件下預測未知數據的有效性。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

最后附上更多生成結果樣本。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

何愷明MIT天團,一作黎天鴻

此次成果是由MIT何愷明團隊和谷歌DeepMind全華人班底完成,并由谷歌提供TPU、GPU資源支持。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

一作何愷明的學生黎天鴻

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

黎天鴻本科畢業于清華叉院姚班,在MIT獲得了碩博學位之后,目前在何愷明組內從事博士后研究。


他的主要研究方向是表征學習、生成模型以及兩者之間的協同作用。目標是構建能夠理解人類感知之外的世界的智能視覺系統。


此前曾作為一作和何愷明開發了自條件圖像生成框架RCG,團隊最新的多項研究中他也都有參與。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

Qinyi Sun,目前MIT三年級本科生。


范麗杰,清華計算機系校友,去年博士畢業于MIT CSAIL,目前在谷歌DeepMind擔任研究科學家,致力于生成模型和合成數據。


此前曾與黎天鴻共同參與過FLUID的研究——

一個可擴展的自回歸文本轉圖像模型,無需VQ。10B參數模型實現SOTA性能。

何愷明開辟分形圖像生成新范式!計算效率提高4000倍,首次實現高分辨率逐像素生成-AI.x社區

論文地址:

??https://arxiv.org/abs/2502.17437v1??


本文轉自 量子位  ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/SK89sa0N7Hj-yr8lI1PD_w??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 天天草天天干 | 日韩视频在线观看一区二区 | 黄网站免费在线观看 | 日韩精品av一区二区三区 | 成人免费观看男女羞羞视频 | 在线观看国产91 | 91看片免费 | 国产精品久久久久久久免费大片 | 一区二区影院 | 精品视频一区二区 | 日日干天天操 | 久久精品伊人 | 91久久精品国产91久久性色tv | 精品亚洲一区二区三区 | 波多野结衣一区二区 | 欧美国产日韩一区二区三区 | 欧美一级黄色片免费观看 | 国产欧美精品一区二区色综合朱莉 | 亚洲一区二区三区免费在线 | 国产一区久久精品 | 精品久久久久久久久久久 | 91精品国产91久久久 | 亚洲精品乱码久久久久久蜜桃91 | 欧美一级片 | 成人福利网站 | 91麻豆产精品久久久久久 | 三级在线视频 | 欧美一级特黄aaa大片在线观看 | 精品欧美一区免费观看α√ | 99爱在线免费观看 | 久久成人精品一区二区三区 | 亚洲欧美视频 | 欧美成人综合 | 欧美a∨| 99re视频在线观看 | 欧美不卡在线 | 91超碰在线 | 国产精品久久久久久吹潮 | 狠狠av | 精品综合| 91极品尤物在线播放国产 |