你大腦中的畫面,現(xiàn)在可以高清還原了
近幾年,圖像生成領域取得了巨大的進步,尤其是文本到圖像生成方面取得了重大突破:只要我們用文本描述自己的想法,AI 就能生成新奇又逼真的圖像。
但其實我們可以更進一步 —— 將頭腦中的想法轉(zhuǎn)化為文本這一步可以省去,直接通過腦活動(如 EEG(腦電圖)記錄)來控制圖像的生成創(chuàng)作。
這種「思維到圖像」的生成方式有著廣闊的應用前景。例如,它能極大提高藝術創(chuàng)作的效率,并幫助人們捕捉稍縱即逝的靈感;它也有可能將人們夜晚的夢境進行可視化;它甚至可能用于心理治療,幫助自閉癥兒童和語言障礙患者。
最近,來自清華大學深圳國際研究生院、騰訊 AI Lab 和鵬城實驗室的研究者們聯(lián)合發(fā)表了一篇「思維到圖像」的研究論文,利用預訓練的文本到圖像模型(比如 Stable Diffusion)強大的生成能力,直接從腦電圖信號生成了高質(zhì)量的圖像。
圖片
論文地址:https://arxiv.org/pdf/2306.16934.pdf
項目地址:https://github.com/bbaaii/DreamDiffusion
方法概述
近期一些相關研究(例如 MinD-Vis)嘗試基于 fMRI(功能性磁共振成像信號)來重建視覺信息。他們已經(jīng)證明了利用腦活動重建高質(zhì)量結(jié)果的可行性。然而,這些方法與理想中使用腦信號進行快捷、高效的創(chuàng)作還差得太遠,這主要有兩點原因:
首先,fMRI 設備不便攜,并且需要專業(yè)人員操作,因此捕捉 fMRI 信號很困難;
其次,fMRI 數(shù)據(jù)采集的成本較高,這在實際的藝術創(chuàng)作中會很大程度地阻礙該方法的使用。
相比之下,EEG 是一種無創(chuàng)、低成本的腦電活動記錄方法,并且現(xiàn)在市面上已經(jīng)有獲得 EEG 信號的便攜商用產(chǎn)品。
但實現(xiàn)「思維到圖像」的生成還面臨兩個主要挑戰(zhàn):
1)EEG 信號通過非侵入式的方法來捕捉,因此它本質(zhì)上是有噪聲的。此外,EEG 數(shù)據(jù)有限,個體差異不容忽視。那么,如何從如此多的約束條件下的腦電信號中獲得有效且穩(wěn)健的語義表征呢?
2)由于使用了 CLIP 并在大量文本 - 圖像對上進行訓練,Stable Diffusion 中的文本和圖像空間對齊良好。然而,EEG 信號具有其自身的特點,其空間與文本和圖像大不相同。如何在有限且?guī)в性肼暤?EEG - 圖像對上對齊 EEG、文本和圖像空間?
為了解決第一個挑戰(zhàn),該研究提出,使用大量的 EEG 數(shù)據(jù)來訓練 EEG 表征,而不是僅用罕見的 EEG 圖像對。該研究采用掩碼信號建模的方法,根據(jù)上下文線索預測缺失的 token。
不同于將輸入視為二維圖像并屏蔽空間信息的 MAE 和 MinD-Vis,該研究考慮了 EEG 信號的時間特性,并深入挖掘人類大腦時序變化背后的語義。該研究隨機屏蔽了一部分 token,然后在時間域內(nèi)重建這些被屏蔽的 token。通過這種方式,預訓練的編碼器能夠?qū)Σ煌瑐€體和不同腦活動的 EEG 數(shù)據(jù)進行深入理解。
對于第二個挑戰(zhàn),先前的解決方法通常直接對 Stable Diffusion 模型進行微調(diào),使用少量噪聲數(shù)據(jù)對進行訓練。然而,僅通過最終的圖像重構(gòu)損失對 SD 進行端到端微調(diào),很難學習到腦信號(例如 EEG 和 fMRI)與文本空間之間的準確對齊。因此,研究團隊提出采用額外的 CLIP 監(jiān)督,幫助實現(xiàn) EEG、文本和圖像空間的對齊。
具體而言,SD 本身使用 CLIP 的文本編碼器來生成文本嵌入,這與之前階段的掩碼預訓練 EEG 嵌入非常不同。利用 CLIP 的圖像編碼器提取豐富的圖像嵌入,這些嵌入與 CLIP 的文本嵌入很好地對齊。然后,這些 CLIP 圖像嵌入被用于進一步優(yōu)化 EEG 嵌入表征。因此,經(jīng)過改進的 EEG 特征嵌入可以與 CLIP 的圖像和文本嵌入很好地對齊,并更適合于 SD 圖像生成,從而提高生成圖像的質(zhì)量。
基于以上兩個精心設計的方案,該研究提出了新方法 DreamDiffusion。DreamDiffusion 能夠從腦電圖(EEG)信號中生成高質(zhì)量且逼真的圖像。
圖片
具體來說,DreamDiffusion 主要由三個部分組成:
1)掩碼信號預訓練,以實現(xiàn)有效和穩(wěn)健的 EEG 編碼器;
2)使用預訓練的 Stable Diffusion 和有限的 EEG 圖像對進行微調(diào);
3)使用 CLIP 編碼器,對齊 EEG、文本和圖像空間。
首先,研究人員利用帶有大量噪聲的 EEG 數(shù)據(jù),采用掩碼信號建模,訓練 EEG 編碼器,提取上下文知識。然后,得到的 EEG 編碼器通過交叉注意力機制被用來為 Stable Diffusion 提供條件特征。
圖片
為了增強 EEG 特征與 Stable Diffusion 的兼容性,研究人員進一步通過在微調(diào)過程中減少 EEG 嵌入與 CLIP 圖像嵌入之間的距離,進一步對齊了 EEG、文本和圖像的嵌入空間。
實驗與分析
與 Brain2Image 對比
研究人員將本文方法與 Brain2Image 進行比較。Brain2Image 采用傳統(tǒng)的生成模型,即變分自編碼器(VAE)和生成對抗網(wǎng)絡(GAN),用于實現(xiàn)從 EEG 到圖像的轉(zhuǎn)換。然而,Brain2Image 僅提供了少數(shù)類別的結(jié)果,并沒有提供參考實現(xiàn)。
鑒于此,該研究對 Brain2Image 論文中展示的幾個類別(即飛機、南瓜燈和熊貓)進行了定性比較。為確保比較公平,研究人員采用了與 Brain2Image 論文中所述相同的評估策略,并在下圖 5 中展示了不同方法生成的結(jié)果。
下圖第一行展示了 Brain2Image 生成的結(jié)果,最后一行是研究人員提出的方法 DreamDiffusion 生成的??梢钥吹?DreamDiffusion 生成的圖像質(zhì)量明顯高于 Brain2Image 生成的圖像,這也驗證了本文方法的有效性。
圖片
消融實驗
預訓練的作用:為了證明大規(guī)模 EEG 數(shù)據(jù)預訓練的有效性,該研究使用未經(jīng)訓練的編碼器來訓練多個模型進行驗證。其中一個模型與完整模型相同,而另一個模型只有兩層的 EEG 編碼層,以避免數(shù)據(jù)過擬合。在訓練過程中,這兩個模型分別進行了有 / 無 CLIP 監(jiān)督的訓練,結(jié)果如表 1 中 Model 列的 1 到 4 所示。可以看到,沒有經(jīng)過預訓練的模型準確性有所降低。
mask ratio:本文還研究了用 EEG 數(shù)據(jù)確定 MSM 預訓練的最佳掩碼比。如表 1 中的 Model 列的 5 到 7 所示,過高或過低的掩碼比會對模型性能都會產(chǎn)生不利影響。當掩碼比為 0.75 達到最高的整體準確率。這一發(fā)現(xiàn)至關重要,因為這表明,與通常使用低掩碼比的自然語言處理不同,在對 EEG 進行 MSM 時,高掩碼比是一個較好的選擇。
CLIP 對齊:該方法的關鍵之一是通過 CLIP 編碼器將 EEG 表征與圖像對齊。該研究進行實驗驗證了這種方法的有效性,結(jié)果如表 1 所示??梢杂^察到,當沒有使用 CLIP 監(jiān)督時,模型的性能明顯下降。實際上,如圖 6 右下角所示,即使在沒有預訓練的情況下,使用 CLIP 對齊 EEG 特征仍然可以得到合理的結(jié)果,這凸顯了 CLIP 監(jiān)督在該方法中的重要性。
圖片