ICML 2025 丨慕尼黑工業大學等基于 SD3 開發衛星圖像生成方法,構建當前最大規模遙感數據集 原創
衛星圖像是通過衛星遙感技術獲取的地球表面影像,它通過建立「太空視角」將地球信息數字化,實現了大范圍檢測、動態追蹤和數據支撐。在人們的日常生活中,無論是宏觀的環境治理還是微觀的城市生活都已離不開它,比如在林業監測中,通過衛星圖像可以快速圈定森林分布范圍,計算不同林種覆蓋比例,檢測因砍伐、種植、病蟲災害等導致的森林覆蓋變化等。
然而,衛星監測容易受到多重因素的影響,致使其性能和應用效果在一定程度上大打折扣,云層覆蓋的干擾影響尤甚。如在云層多發地區,受此影響衛星監測可能會中斷數天甚至數周,這不僅妨礙了衛星的實時動態監測,同時也提出了將衛星圖像與氣候數據相結合以提升預測準確性的新要求。人工智能技術和機器學習算法突飛猛進的發展為解決這一要求提供了契機,但目前大多數方法是根據特定任務或具體區域而設計,缺乏推廣到全球應用的普遍性。
為解決上述問題,來自德國慕尼黑工業大學和瑞士蘇黎世大學的團隊提出以地理氣候提示為條件,并使用 Stable Diffusion 3(SD3)生成衛星圖像的新方法,同時創建了一個迄今為止最大、最全面的遙感數據集 EcoMapper 。該數據集從 Sentinel-2 收集了來自全球 104,424 個地點的超 290 萬張 RGB 衛星圖像數據,涵蓋 15 種土地覆蓋類型和相應氣候記錄,為采用微調的 SD3 模型進行兩種衛星圖像生成方法奠定了基礎。通過將合成圖像生成和氣候與土地覆蓋數據相結合,所提方法推動了遙感領域生成式建模技術的發展,填補了受持續云層覆蓋影響地區的觀測空白,為全球氣候適應和地理空間分析提供了新工具。
研究成果以「EcoMapper: Generative Modeling for Climate-Aware Satellite Imagery」為題,入選 ICML 2025 。
研究亮點:
* 構建了包含超 290 萬張衛星圖像的迄今為止最大、最全面的遙感數據集 EcoMapper
* 開發了一個文本-圖像的生成模型,基于微調的 Stable Diffusion 3 ,利用包含氣候和土地覆蓋細節的文本提示,生成特定區域的逼真合成圖像
* 開發了一個利用 ControlNet 的多條件(文本+圖像)模型框架,實現氣候數據映射或生成時間序列,模擬景觀演變過程
?
論文地址:
數據集下載地址:
更多 AI 前沿論文:
數據集:迄今為止最大、最全面遙感數據集
EcoMapper 為迄今為止最大、最全面的遙感數據集,由 2,904,000 張帶有氣候元數據的衛星圖像組成,數據集從全球 104,424 個地理點位采樣,涵蓋 15 種不同的土地覆蓋類型。如下圖所示:
數據集示例
各批次年度觀測數據量及總圖像量(注意:由于土地覆蓋分布的擬合,一些位置丟失)
其中,訓練集包含 98,930 個地理點位,每個點位觀測期為 24 個月。研究人員根據云量最少的日子,在兩年時間中針對每個點位每月選擇一次觀測,最終每個點位得到 24 張圖像的序列。兩年的觀測期隨機分布于 2017 年至 2022 年之間。
測試集包含 5,494 個地理點位,每個地點觀測期為 96 個月(8 年),時間跨度從 2017 年至 2024 年,同樣為每月監測一次。
從空間上來看,每次觀測的空間覆蓋面積約為 26.21 平方公里,整體數據集覆蓋約 2,704,000 平方公里,占到地球陸地總面積的約 2.05% 。這些數據確保了評估中足夠的空間和時間獨立性,能夠對模型在不同地區和看不見的氣候條件下的泛化進行穩健的評估。
除此之外,每個采樣位置都豐富了元數據,包括地理位置(經緯度)、觀測日期(年月份)、土地覆蓋類型和云覆蓋率,以及來自 NASA Power 的月平均溫度、太陽輻射和總降水量。這些數據顯示了對農業、林業、土地覆蓋及生物多樣性的益處。
模型架構:文本-圖像生成模型和多條件生成模型
本次研究的目標是合成以地理和氣候元數據為條件的衛星圖像,從而實現對環境條件的真實預測。為此,研究人員必須解決兩個關鍵任務:文本到圖像的生成和多條件圖像生成。
研究人員評估了兩種生成模型將氣候元數據整合到衛星圖像合成中的能力:
第一個為 Stable Diffusion 3,這是一種多模態潛在擴散模型,整合了 CLIP 和 T5 文本編碼器,能夠實現靈活的提示條件設定。研究人員使用采集到的數據集對 Stable Diffusion 3 進行了微調,使其能依據地理、氣候和時間元數據的逼真衛星圖像。
?
第二個為 DiffusionSat,這是一種專門用于衛星圖像的基礎模型,基于 Stable Diffusion 2 進行了擴展,增加了專門的元數據嵌入層用于數值條件設定。與一般的擴散模型相比,該模型專為遙感任務設計,能夠對關鍵的空間和時間屬性進行編碼,具備超分辨率、圖像修復和時間預測等功能。
針對文本到圖像生成任務,研究人員對 Stable Diffusion 3 和 DiffusionSat 進行了多種配置的對比測試,包括微調和未微調后的模型,并在不同分辨率下進行實驗:
* 基線模型:在 512 x 512 分辨率下對兩種模型進行未微調評估。
* 微調模型(-FT):在 512 x 512 分辨率下,使用氣候元數據對兩種模型進行微調后評估。
* 高分辨率 SD3 模型:在 1024 x 1024 分辨率下,使用氣候元數據對 SD3 進行微調并測試,標記為 SD3-FT-HR 。
針對多條件圖像生成任務,研究人員選用經過 LoRA(低秩適應)技術增強的微調 Stable Diffusion 3 模型執行多條件圖像生成任務。該模型在 512 x 512 分辨率下訓練,作為生成高質量且與上下文相關圖像的基礎。研究運用 ControlNet 技術構建了雙條件機制:
* 所謂 ControlNet 即通過將明確的空間控制集成到生成過程中,增強了擴散模型。這種設計確保了控制塊對主塊的初始影響最小,其功能類似于跳過鏈接。
* 衛星圖像作為控制信號:以前幾個月的衛星圖像作為控制信號,維持生成圖像的空間結構,確保地貌、城市布局和其他地理特征保持不變。如此一來,模型能融入隨時間的變化,借此反映現實世界的環境變化。
* 氣候提示:借助文本條件機制,明確生成衛星圖像的氣候和大氣條件。
研究通過將這兩個調節因素相結合,使模型能夠生成融合氣候變化的真實衛星圖像,同時保持空間一致性。這種方法還支持時間序列生成,能夠模擬氣候條件不斷變化下的景觀演變。如下圖所示:
融合 Stable Diffusion 3 和 ControlNet 的框架,實現了多條件衛星圖像生成
在提示結構方面,為有效進行衛星圖像生成,研究人員設計了兩種提示類型引導衛星圖像生成,即空間提示(Spatial Prompt)和氣候提示(Climate Prompt),前者為用于編碼基本元數據,涵蓋土地覆蓋類型、位置、日期和云量等信息,確保生成的圖像與地理和時間背景保持一致;后者在空間提示的基礎上,融入月氣候變量(溫度、降水量和太陽輻射),為圖像生成提供更豐富的環境條件信息。這兩種提示都利用 Stable Diffusion 3 的文本編碼器,空間信息由 CLIP 處理,氣候數據由 T5 編碼器處理。
實驗結果:超越基線模型的生成性能,但仍有提升空間
研究人員設計了多維實驗體系,通過橫向和縱向多重對比和實驗,驗證了所設計的生成模型在生成氣候感知衛星圖像時的性能。
首先,研究人員明確了 5 個已建立的指標,包括 FID(Fréchet Inception Distance)、 LPIPS(Learned Perceptual Image Patch Similarity)、 SSIM(Structural Similarity Index)、 PSNR(Peak Signal-to-Noise Ratio)和 CLIP Score 。其中,FID 和 LPIPS 評估圖像分布相似度和感知差異,SSIM 和 PSNR 測量結構一致性和重建質量, CLIP Score 評估文本-圖像對齊。
在文本到圖像生成方面,研究人員通過比較 Stable Diffusion 3 和 DiffusionSat 及其微調版本(SD3-FT 和 DiffusionSat-FT)和 SD3-FT-HR 在 5500 個地理點位上的表現,驗證了所設計模型的有效性。
如下圖所示。 SD3 和 DiffusionSat 的基線模型評估分數最低,但后者表現明顯優于前者,這顯示出遙感預訓練的優勢;而所有微調模型的指標均顯著提升,SD3-FT 在 CLIP 、 SSIM 、 PSNR 上的表現更優,DiffusionSat-FT 在 FID 和 LPIPS 上更出色。 SD3-FT-HR 的 FID 最低(FID 值越低表示真實性越高),為 49.48,表明了其生成圖像具有更精細的細節。
文本到圖像生成模型的定量比較
定性結果分析表明了所設計的模型能捕捉農田、草原的規則紋理和山地地形特征,尤其是 SD3-FT-HR 在植被密度變化和高分辨率細節上表現更優異。
在氣候敏感性分析中,如下圖所示,模型生成的植被密度與氣候變化顯著相關。研究對表現出極端天氣條件的樣本進行了 SD3-FT 模型的定量壓力測試,結果顯示高溫、高輻射條件下,模型生成的圖像 FID 較低(如高輻射 FID 為 107.34),植被相應更明顯;低溫、低輻射時則反之,模擬效果稍差。
SD3-FT 在極端氣候條件下為不同地區生成的衛星圖像
SD3-FT 在極端天氣條件下的性能
在多條件圖像生成任務中,結合 ControlNet 的多條件生成在所有指標上均優于文本到圖像模型,如 SD3 ControlNet 的 FID 為 48.20 。另外,生成圖像和實況圖像還表現出了很強的空間對齊,保持了關鍵的地理特征,同時結合了特定氣候的變化。如下圖所示:
SD3 ControlNet 模型的指標
不同季節變化下多條件圖像生成中,實況圖像、生成圖像和條件圖像的比較
?
在魯棒性測試中,土地覆蓋類型對模型生成穩定性有較高的影響,常見類型如草原、稀樹草原生成穩定性高,FID 較低;復雜或稀有類型如濕地、城市的 FID 則較高,如城市 FID 為 284.65,這是因為訓練數據不足所致。另外,模型在 2017 年至 2024 年的測試集上的表現穩定,在 2023 年至 2024 年數據集上也未見性能退化, 這證明對于未見的時空場景,所設計的模型依然具有高強度的適應性。
總而言之,EcoMapper 引入了一個生成框架,用于根據氣候變量模擬衛星圖像,目的是對環境景觀如何響應天氣和長期氣候變化進行建模。這為氣候變化影響可視化、情景探索以及增強整合衛星和氣候數據的下游模型提供了新機會,比如作物產量預測、土地利用監測或多云地區的圖像填補。
機器學習算法加持,打開衛星圖像生成的新范式
生成式模型在衛星圖像生成中的應用正通過深度學習技術實現突破,其結合了神經網絡的深度學習能力和海量的衛星數據,從而生成逼真的高分辨率、多模態遙感影像。除了上述內容外,學研界在此領域的研究早已形成了「接力賽」,通過不斷創新方式方法,為衛星圖像領域的研究鋪就一條堅實的路。
比如文中提到的 DiffusionSat,這是首個專門為衛星圖像設計的大規模擴散模型,支持多光譜輸入、時間序列生成和超分辨率。其創新地將地理位置等元數據作為條件信息,解決衛星圖像缺乏文本標注的問題。相關研究由斯坦福大學團隊發表,題為「DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE IMAGERY」,收錄于 ICLR 2024 。
論文地址:
??https://arxiv.org/pdf/2312.03606??
除此之外,來自北京航空航天大學的團隊發表的題為「MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation」的研究。他們提出了一種名為 MetaEarth 的全球尺度生成模型,通過分辨率引導的自級聯框架,使模型能夠在分階段從低分辨率生成高分辨率的地理圖像,并采用滑動窗口與噪聲共享策略實現了無邊界拼接。
論文地址:
??https://arxiv.org/pdf/2405.13570??
另外,來自麻省理工學院、哥倫比亞大學、牛津大學等團隊的研究人員還展示了生成視覺模型在合成衛星圖像用于氣候變化相關可視化方面的研究進展。他們提出了一種稱為 Earth Intelligence Engine(EIE)的方法,結合基于物理的洪水模型投影和衛星圖像作為深度生成視覺模型輸入,通過評估生成圖像與洪水輸入的交集來實現。結果表明,該方法在物理一致性和視覺質量上表現出色,優于無物理條件的基線模型,且對不同遙感數據和氣候事件由泛化能力。論文題目為「Generating Physically-Consistent Satellite Imageryfor Climate Visualizations」。
?
論文地址:
??https://arxiv.org/html/2104.04785v5??
毫無疑問,生成式模型正在重塑衛星圖像的生成與應用范圍,從洪水預警到全球尺度生成面模型,從多光譜數據融合再到時空動態模擬,其不僅展示先進的技術突破,同時也展示了巨大的應用潛力。相信不久的未來,隨著擴散模型、自級聯框架等技術的進一步優化,生成模型有望為衛星圖像的發展注入更加強勁的動力。
?
參考資料:
1.??https://arxiv.org/pdf/2312.03606???
2.??https://arxiv.org/html/2104.04785v5???
3.??https://arxiv.org/pdf/2405.13570??
