MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能原創精華

發布于 2025-5-22 09:34

瀏覽

0收藏

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區圖片

圖 1. 我們提出了 MonetGPT，這是一種感知圖像操作的多模態大語言模型（MLLM），可自動為圖像修圖提供建議。給定一張照片（左圖），MonetGPT 會對其進行分析，識別出一系列問題和可能的修復調整。然后，解決方案步驟會根據給定的操作庫，轉化為一組程序操作以及相應的參數設置，這一過程分為三個階段。（我們訓練 MLLM 所使用的視覺謎題此處未展示。）

摘要

修圖是原始照片后期處理中的一項基本任務。由文本或筆觸引導的生成式編輯為用戶提供了一種新工具，但它可能會以不可接受和不可預測的方式輕易改變原始對象的特征。相比之下，盡管照片編輯工具（如 Gimp、Lightroom）通常支持的傳統程序編輯較為保守，但仍為專業人士所青睞。不幸的是，專業級的修圖涉及許多單獨的程序編輯操作，這對大多數新手來說很難規劃。在本文中，我們探討是否可以訓練多模態大語言模型（MLLM）來評判原始照片，提出合適的修復方案，并最終使用給定的一組預先編寫的程序圖像操作來實現這些方案。我們證明，通過訓練 MLLM 解決專門設計的視覺謎題，首先可以使其了解底層的圖像處理操作。隨后，這種感知操作的 MLLM 既可以規劃又可以提出編輯序列。為了便于訓練，給定一組專家編輯的照片，我們通過對專家編輯進行程序操作來合成推理數據集，然后將預訓練的 LLM 基于視覺調整進行 grounding，以合成用于微調的推理。所提出的修圖操作按設計易于用戶理解，可保留對象細節和分辨率，并且可以選擇覆蓋。我們在各種測試示例上對我們的設置進行了評估，結果表明，在可解釋性和特征保留方面，我們的方法優于現有的生成式和其他程序替代方案。代碼、數據、模型和補充結果可通過我們的項目網站??https://monetgpt.github.io??獲取。

1、引言

我們經常對拍攝的圖像進行修圖以改善其呈現效果。例如，用戶會調整對比度和亮度，操縱曝光，或校正顏色配置文件。這類調整通常由一系列程序操作組成，受到專業用戶的青睞，因為這些操作是非破壞性的，可以在不同分辨率下應用。此外，這些編輯具有可解釋性，得到許多成熟圖像處理工具的支持，并且與生成式編輯不同，能更好地保留源內容的特征。

不幸的是，有效使用程序編輯非常困難，大多數新手無法掌握。主要有兩個挑戰。首先，用戶需要學習如何使用工具應用各個操作 —— 這被稱為命令知識。其次，他們必須根據源圖像規劃使用哪些操作集，并為所選操作提出合適的參數值 —— 這被稱為戰略知識。雖然前者可以通過在給定工具集（如 Gimp）上的練習來降低難度，但后者往往難以克服，因為使用操作庫進行規劃是開放式的，本質上更加困難。

在一項突破性工作中，Exposure 框架 [Hu et al. 2018] 證明，使用強化學習設置直接從藝術家修圖示例中學習程序編輯序列是可能的。然而，這種方法的有效性受到可用于訓練的專家編輯數量不足的限制。在本文中，我們探討是否可以從在大量多樣化數據集上訓練的前沿模型中獲取知識，并利用專家藝術家的有限數據將其適配到我們的專業修圖任務中。

我們提出了用于程序圖像修圖的 MonetGPT。MonetGPT 引入了一種有效的微調策略，即使在有限的修圖數據集上 [Bychkovsky et al. 2011; Liang et al. 2021]，也能適配多模態大語言模型（MLLM）。一旦完成微調，MLLM 可以識別源圖像中的問題，規劃一系列修復方案以改善圖像，并最終使用給定的程序編輯庫將修復方案轉化為實際操作。例如，如圖 1 所示，MonetGPT 會為輸入的原始照片提出編輯序列。除了提出一系列帶有相關參數的編輯操作外，我們的方法還以解釋的形式說明每個建議調整試圖解決的問題。此外，用戶可以忽略或覆蓋任何建議的更改，并運行其余的程序（例如，專家有時會違反攝影指導以突出圖像的某個方面 / 主題）。

我們發現，當前的 MLLM 雖然用途廣泛，但在對原始照片提出有意義的修圖建議方面能力不足（見圖 2）。直接在藝術家的編輯序列上對這種 MLLM 進行微調只能部分改善結果（見第 5 節）。我們認為這是由于 MLLM 缺乏對每個圖像編輯操作含義的理解。作為人類，我們基于經驗建立這些操作的心理模型（例如，增加亮度滑塊對圖像有什么影響？）。我們為 MLLM 模擬了同樣的技能學習 [L?vdén et al. 2020]—— 為此，我們設計了涉及給定成像操作的特定視覺謎題，并訓練 MLLM 解決這些謎題。結果，MLLM 變得具有操作感知能力，然后能夠規劃高質量的圖像修圖序列。我們展示了如何在使用藝術家有限數據的非配對訓練設置中做到這一點。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖2. 生成式工具（如instructPix2Pix [Brooks等，2023]或MGIE [Fu等，2024]）能生成令人驚艷的圖像增強效果，但可能導致身份特征丟失（如面部、手部、物體），且用戶更難進行覆蓋調整。過程式方法通過將操作限制在用戶預設的操作庫中，具有更強的可控性，支持部分應用或覆蓋修改。當前多模態大語言模型（左下：例如基于操作庫文檔字符串實現的GPT-4）缺乏對圖像操作的內在理解，其表現遜色于我們提出的操作感知變體（右下）。具體評估見第5節。

我們在各種輸入圖像上對 MonetGPT 進行了評估，將其修圖結果與生成式編輯方法（基于 LLM 的編輯、InstructPix2Pix [Brooks et al. 2023] 和 MGIE [Fu et al. 2024]）、先前工作中的程序編輯技術（Exposure [Hu et al. 2018]）、與程序管道集成的 MLLM 定制變體（帶有思維鏈的 Gemini 2.0、微調變體）以及商業軟件（Google Photo AutoEnhance）進行了比較。我們通過專家評審和新手用戶的定性分析對生成的編輯進行了廣泛評估。更多評估請參考補充材料。總之，我們：

（i）提出了第一個由 MLLM 引導的可解釋程序圖像修圖框架，支持對高分辨率 16 位圖像進行非破壞性編輯；

（ii）在戰略設計的視覺謎題上訓練 MLLM，使其具備操作和美學感知能力，并用于規劃我們的編輯序列及相關參數估計；

（iii）通過廣泛的評估和比較，證明了感知操作的 MLLM 引導程序編輯工作流程相對于思維鏈推理 MLLM 和生成式替代方案的可行性和優勢。

有關代碼和補充結果，請訪問我們的網頁 monetgpt.github.io。

2、相關工作

2.1 圖像修圖

圖像修圖是原始圖像后處理中一項必不可少且常用的工作流程。許多商業圖像編輯軟件和基于網絡的工具提供了大量可用于圖像增強的濾鏡。鑒于選擇在何種設置下應用哪些濾鏡的困難性，已有大量研究致力于自動化這一工作流程的部分環節。一個流行的研究方向集中于使用輸入和編輯圖像對來預測各個濾鏡的參數，例如全局色調調整或顏色調整。早期工作 [Bychkovsky et al. 2011; Yan et al. 2014] 使用高斯過程回歸或支持向量機等機器學習方法來解決這一任務。后來，此類方法被深度神經網絡所取代，作為各種圖像處理操作的代理函數 [Chen et al. 2017; Liu et al. 2022; Yan et al. 2016]。最近，已經開發出了旨在通過預測殘差圖像層 [Kim et al. 2020b] 或每像素顏色和通道強度變換 [Kim et al. 2020a] 來直接進行圖像增強的方法。Li et al. [2023] 通過使用一組分段線性曲線來修飾輸入圖像的不同空間區域，在全局和每像素編輯之間取得了平衡。然而，在這些方法中，無法進一步編輯或控制結果，因為編輯與特定的圖像處理操作沒有關聯。

更接近我們的問題設置的是，一些工作研究了如何最好地選擇預定義操作集的類型和參數以提高圖像質量和美學效果。值得注意的是，Exposure [Hu et al. 2018] 提出了一個基于 RL 的框架，其中圖像修圖被視為一個規劃問題：使用一個將圖像分類為已修圖或未修圖的判別器為 RL 代理提供獎勵函數。在類似的設置中，Shi et al. [2021] 提出通過生成一系列圖像編輯操作和相應參數，根據文本提示編輯圖像。這些操作是從預定義的可微分濾鏡堆棧中選擇的，并且使用序列建模器（即 LSTM 解碼器）來指導規劃。Fischer et al. [2020] 還提出了一個框架，使用神經圖像評估器評估圖像質量，以優化一組可微分神經圖像濾鏡的參數。我們沒有從頭開始訓練規劃算法，而是探索預訓練多模態大語言模型的能力，以幫助從有限的專家編輯集中學習。

2.2 生成式編輯

在過去幾年中，條件和無條件圖像生成取得了變革性突破，首先是使用 GANs [Goodfellow et al. 2014]，最近是基于擴散的圖像生成器 [Rombach et al. 2021]。特別是隨著文本到圖像生成器的成功，許多工作探索了通過文本提示 [Brooks et al. 2022; Cao et al. 2023; Hertz et al. 2022]、空間引導 [Zhang et al. 2023] 和其他用戶交互 [Mou et al. 2023] 進行編輯的方法。隨著大語言模型的發展，利用模型語言推理能力的編輯范式 [Pan et al. 2023; Peng et al. 2023; Santos et al. 2024; Xiao et al. 2024] 應運而生。盡管這些方法非常強大，但它們會重新生成編輯圖像中的每個像素，因此常常難以保留特征（見圖 2）。

2.3 重新利用 LLMs 進行圖形任務

我們正在見證（多模態）大語言模型領域的一場革命，出現了許多成功的例子 [Achiam et al. 2023; Jiang et al. 2023; Touvron et al. 2023]。這些模型擅長各種任務，如布局規劃 [Aguina-Kang et al. 2024; Feng et al. 2024; Littlefair et al. 2025; Yang et al. 2023]、3D 編輯 [Huang et al. 2024] 和具身交互 [Qi et al. 2024]。在圖像編輯方面，ClickDiffusion [Helbling et al. 2024] 首先根據文本提示生成新布局，然后在此基礎上進行條件圖像生成。在推理時使用思維鏈（CoT）[Wei et al. 2024] 來更好地利用 LLM 的先驗知識，在推理時創建新布局。Fu et al. [2024] 不僅利用 MLLM 獲得富有表現力的指令，還利用額外的視覺引導來調節基于擴散的生成器，并對其進行微調（見圖 2）。我們的方法與這些方法的不同之處在于，我們不將圖像編輯視為單個黑箱生成過程，而是將其表示為應用一組預定義的圖像濾鏡，并利用 MLLM 預測這些濾鏡的序列和參數。

最近，一些工作 [Hang et al. 2024; Zhenyu et al. 2024] 探索了一種框架，其中 MLLM 被用作代理，根據源圖像和目標描述規劃一系列要應用的編輯操作。規劃在迭代工作流程中由反饋機制引導。相比之下，我們對 MLLM 進行微調，然后在測試時直接查詢它以生成編輯操作。在一項并行工作中，ComfyGen [Gal et al. 2024] 對 LLM 進行微調，從給定的流程集中選擇 ComfyUI 工作流程，以完成所需的生成式圖像編輯任務。據我們所知，我們的方法是第一個對 MLLM 進行微調，使其能夠推理一組程序圖像編輯操作及其參數的方法。

3、設計考慮

我們的目標是使用從預定義程序濾鏡庫 L 中選取的操作組合，對任何給定圖像I_{S}進行美學修圖。我們編寫了一個庫（詳細信息見補充材料），包含三種類型 / 階段的操作：（i）照明調整（例如，黑色、對比度、曝光、高光、白色、陰影）；（ii）顏色和溫度調整（例如，飽和度、溫度、色調）；（iii）八種不同顏色的特定顏色調整（例如，色調、亮度、飽和度）。我們按上述階段執行調整。跨八個不同且精確范圍微調顏色的能力使我們能夠進行有意義的局部調整，為某些編輯挑戰提供了使用蒙版的實用替代方案。我們假設庫中的每個函數都可以通過指定源圖像和函數參數來執行（例如，可以用 C++、Python 甚至神經塊編碼）。

設計視覺謎題

盡管 MLLM 具有豐富的全局先驗知識，但當直接查詢其生成程序圖像修圖操作時，表現不佳（見圖 2 和第 5 節）。同樣，由于訓練數據稀缺，對其進行微調以直接生成給定源圖像的一組操作參數會導致嚴重的過擬合（見第 5 節）。相反，MonetGPT 建議通過設計具有不同目標的特定視覺謎題并使用合適的數據集對其進行訓練，使 MLLM 更具（圖像）操作感知能力。具體來說，解決這些謎題有助于 MLLM 發展以下知識：

（a）每個圖像操作的作用，即源圖像、單個（圖像）操作和生成圖像之間的關系；

（b）每個圖像操作的應用程度，即在任何源 / 中間圖像上如何審美地應用操作；

（c）我們離 “最佳” 圖像有多遠，即建立理想修圖圖像的內部模型；最后，

（d）如何規劃一系列操作以達到 “最佳” 圖像，即學習如何創建編輯計劃。

基于此動機，我們設計了三個謎題（在第 4 節中描述）：謎題 A 幫助發展技能（a）；謎題 B 幫助發展技能（b,c）；謎題 C 幫助發展技能（d）。

我們的視覺謎題在微調 MLLM 時充當各種圖像調整操作的代理損失函數。

生成推理數據集

設計好視覺謎題后，我們使用預訓練的 MLLM（我們使用 Gemini 2.0 flash）為每個謎題額外生成一個推理解決方案。這一步驟使我們能夠利用預訓練的 MLLM 對每個編輯操作進行推理，通過解釋為什么使用特定操作以及它解決了什么問題，將推理基于實際調整并以視覺變化為依據，以防止幻覺。（見第 5 節中與使用我們的庫 L 的 Gemini2.0 基線的比較）當未提供實際調整時，我們將使用此數據集來微調 MLLM 以獲取此推理能力。接下來，我們描述我們的方法。

4、方法

MonetGPT 是一種新穎的框架，利用 MLLM 的高級推理能力來促進程序圖像修圖。預訓練的 MLLM 缺乏理解底層圖像修圖操作及其相關調整值所需的領域知識。為了彌補這一不足，我們設計了一組專門針對彌補這些知識缺口的謎題。我們發現，通過解決這些謎題，MLLM 可以成為具有專家級領域知識的代理，能夠有效地對圖像進行修圖。在下文中，我們首先介紹為微調 MLLM 而設計的視覺謎題，然后討論我們如何在推理時利用微調后的模型。最后，我們提供了我們使用的程序圖像濾鏡的詳細信息以及實際執行方式。

4.1 謎題 A：理解單個操作

第一步，MLLM 必須從視覺上理解每個單個操作對圖像的影響，以及這種影響如何隨不同調整級別而變化。為此，我們從預定義的圖像修圖操作庫中隨機采樣一個操作O \in L和一個相關調整值 V。然后將此操作應用于源圖像I_{S}以生成編輯圖像I_{E}。將I_{S}和I_{E}圖像拼接在一起，并呈現給 MLLM 以識別操作和調整值，即給定圖像對，MLLM 應預測操作及其相應的變化量。

我們發現，直接查詢預訓練的 MLLM 以識別操作和調整值會產生較差的結果（在第 5 節中列為 “Gemini 2.0+CoT+library” 選項）。然而，當提供實際操作和調整值并基于*觀察到的視覺變化進行 grounding 時，MLLM 會生成詳細且令人信服的推理 R，該推理通過豐富的文本描述準確解釋了 (O, V) 對 I_S 的影響如何導致 I_E 的產生。因此，給定圖像對 (I_S, I_E)，我們同時獲得相關推理 R 和單次編輯 (O, V)，見圖 3。將 MLLM 與真實調整值進行 grounding，可確保其推理與特定操作 O 一致，避免無關或假設性的解釋。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖 3. Puzzle A. 此謎題旨在教導任意單個操作 O \in L 及其值 V 對源圖像 I_S 的作用，以生成編輯圖像 I_E。視覺謎題是，給定有序對 (I_S, I_E)，需預測 (O, V)。我們還使用 (I_S, I_E) 生成相應的推理 R。

在訓練階段，我們利用提取的推理以監督方式教導 MLLM 識別 O 并回歸 V。（請注意，由于我們可以訪問庫 L 中的圖像處理濾鏡，因此可以合成生成此訓練數據。）MLLM 無需直接推斷操作和調整值，而是需要通過引出操作引起的圖像視覺差異及其調整程度來解釋推理過程。通過闡述編輯圖像中的視覺變化，MLLM 將這些視覺細節編碼到其文本表示中，使其能夠有效學習庫 L 中各種操作的效果。我們對參數值進行了量化（歸一化）處理（另見 [Wang et al. 2024b]），因為它們更易于標記化并與 MLLMs 配合使用。

4.2 謎題 B：理解圖像美學

理解圖像美學對于定義圖像增強后的理想效果至關重要。MLLM 必須具備視覺識別能力，能夠判斷當操作調整到理想參數值時圖像的最佳外觀。為此，我們設計了第二個謎題，涉及對專家編輯圖像 I_X 應用采樣操作 O 的四個隨機調整變體 (I_V)。需要注意的是，我們假設對 I_X 進行任何足夠大的調整都會降低圖像質量，導致次優編輯效果。

我們通過將 I_X 與四個調整后的圖像以隨機順序拼接來構建謎題。MLLM 首先需要將這五張圖像按調整值從低到高進行排序。操作的調整范圍定義在感知線性尺度上，范圍為 [-100, +100]。排序完成后，MLLM 必須識別出具有最佳 O 調整水平的圖像（即識別 I_X）并說明推理依據。此外，它還必須確定將隨機選擇的 I_V 圖像轉換為最佳圖像 I_X 所需的調整水平。見圖 4。請注意，此過程隱含假設操作是可逆的。

與 4.1 節類似，我們不要求 MLLM 對謎題提供直接的單句答案，而是向預訓練模型查詢正確答案，并要求其基于觀察到的視覺變化生成推理。通過訓練 MLLM 解決此謎題并詳細闡述推理過程，它將獲得識別最佳調整圖像的視覺特征的內在能力，并能夠估計將任何源圖像轉換為最佳圖像所需的調整值。這種美學理解在規劃涉及多個操作和調整的編輯時至關重要。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖 4. Puzzle B. 此謎題旨在教導單個操作 O \in L 下的圖像美學。視覺謎題是，給定由專家編輯的最終圖像 I_X 通過應用帶有擾動值 \{V_i\} 的操作 O 生成的一組隨機排序圖像 (I_E, I_{V1}, I_{V2}, I_{V3}, I_{V4})，需根據值從低到高對圖像進行排序，并識別最佳圖像 I_X 以及從每個擾動圖像恢復到 I_X 所需的調整值。我們還使用圖像集和操作生成相應的推理 R。

4.3 謎題 C：生成圖像修圖計劃

MLLM 在通過將復雜任務分解為可管理的步驟來解決問題（如數學證明）方面已展示出顯著能力 [Wei et al. 2024]。然而，圖像編輯的抽象性和主觀性導致狀態空間龐大，使得 MLLM 難以直接預測多個操作及其相應調整值。盡管現有 MLLM 可以提出基本調整建議（如修改曝光或飽和度），但它們難以生成包含精確調整的全面編輯計劃。

為彌補這一差距，我們設計了第三個謎題，旨在使 MLLM 能夠生成專家級修圖計劃，包括合適的操作和調整值，以將源圖像 I_S 增強為專家編輯的對應圖像 I_X。為此，我們對專家編輯圖像進行修改，創建質量較差的變體，作為需要增強的 I_S 圖像。需要注意的是，我們僅使用專家編輯圖像 I_X，同時通過對其進行程序擾動來生成合成編輯計劃。然而，與之前專注于單獨學習操作的謎題不同，我們在特定類別中修改多個參數：（i）照明調整，（ii）顏色和溫度調整，（iii）特定顏色調整。

在規劃階段，我們的設計選擇基于以下考慮：（i）可逆性可行性：通過在一個類別中修改有限的參數集，操作保持可逆性，使重建圖像能夠緊密匹配 I_X；（ii）降低復雜性：同時生成涉及眾多操作的全面計劃本質上具有挑戰性。將過程分為連續階段 —— 首先進行照明調整，然后是顏色 - 溫度調整，最后是特定顏色的微調 —— 可簡化任務并與專家工作流程保持一致；（iii）推理清晰性：最后，與前兩個謎題類似，我們希望通過查詢預訓練 MLLM 分析與特定調整對應的視覺變化來生成編輯背后的推理。當同時應用許多操作時，難以區分每個操作對給定視覺變化的貢獻。因此，我們將任務分為多個階段。

我們從專家編輯圖像 I_X 合成生成 I_S 圖像數據集。對于每個 I_S-I_X 對，我們要求 MLLM 為每次調整生成推理。這包括確定要應用的調整、變化程度，并將其與相應的視覺問題和解決方案相關聯。具體而言，我們將推理結構化為每個操作的三元組 <調整、問題、解決方案>，如下所述（見圖 5）。

?調整：操作及其調整程度。

?問題：通過引用圖像中的特定元素，說明調整所解決的視覺問題。

?解決方案：通過調整實現的視覺改進。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖 5. Puzzle C. 此謎題旨在教導如何生成修圖計劃。視覺謎題是，給定有序對 (I_S, I_E)，需提出修圖計劃 \{(O_i, V_i)\}，列出庫 L 中的操作及其相關參數值。我們還使用圖像修圖序列和操作生成相應的推理 R，其形式為每個操作的 <調整、問題、解決方案>。

我們將詳細的三元組重新格式化為指令風格以生成計劃 P。請注意，在訓練期間，MLLM 僅能訪問 I_S，并且必須生成將導致 I_X 的計劃 P。在對此數據集進行微調后，MLLM 能夠在推理期間生成全面的計劃，而不會產生幻覺。此外，MLLM 使用思維鏈（CoT）推理，通過引用將調整映射到數值范圍的預定義圖例，從高級推理回歸到精確的參數值。這種結構化方法確保 MLLM 生成與專家編輯一致的有意義見解和解決方案，而非獨立猜測調整計劃。

此謎題的一個重要方面涉及教導 MLLM 識別特定階段何時無需進一步調整。這可防止不必要的編輯可能降低已調整良好的圖像質量。為訓練此技能，我們引入了一項額外挑戰：當查詢 MLLM 為給定階段生成編輯計劃時，它必須說明為何無需進一步編輯。與早期謎題類似，通過假設對專家編輯圖像 I_X 進行特定類別操作的任何進一步修改都會導致質量下降，生成合成推理以訓練 MLLM。

4.4 推理：作為回歸路徑的推理

一旦 MLLM 在三個謎題上完成訓練，我們就利用推理來生成編輯計劃。推理在調整值與每個編輯操作背后的意圖之間架起了橋梁。這有效地為微調后的 MLLM M 提供了一條從高級推理回歸到精確調整值的路徑。給定 I_S，我們的目標是預測一組調整操作和相應的值 A。我們使 MLLM M 以 I_S 為條件，首先生成編輯計劃 P，如下所示：

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

然后，我們基于 P 生成最終調整值 A：

\mathcal{M}(\cdot | \mathcal{P}, I_S) := A. \tag{2}

如 4.3 節所述，我們將計劃生成分為三個獨立階段。因此，我們在源圖像上應用程序管道以獲得編輯后的圖像，然后根據推斷的計劃將其反饋以推斷下一階段的操作。示例見圖 1。

4.5 編寫參數空間簡化的庫

現有的帶有 Python 綁定的圖像增強軟件（如 GIMP）編碼過于復雜。例如，GIMP 的程序數據庫（PDB）通常需要多個函數調用和指定眾多參數值才能執行單個調整操作，不必要地擴大了參數空間。其他基于 Python 的圖像增強庫（如 OpenCV 和 Pillow）提供了更簡單的接口，但提供的操作范圍非常有限。

為解決這些限制并利用開源選項，我們開發了一個 Python 圖像調整操作庫，簡化了定義和執行調整的過程。該庫使用模塊化函數，其中每個調整操作由單個主參數控制。子參數要么是固定的，要么是從主參數動態派生的，從而顯著降低了參數空間的復雜性。該庫提供了與 Google Photos 和 Lightroom 等平臺大致可比的工具子集。

更重要的是，經過微調的 MLLM 對庫中的操作具有深刻的視覺理解，使其能夠生成詳細的計劃，其中的調整值準確反映每個修改對圖像的影響。利用這種理解，經過微調的 MLLM 充當代理，通過生成結構化 JSON 格式的操作和相應調整值作為輸出，消除了編寫代碼的需要，而只需專注于捕捉每個調整的視覺影響。我們的庫直接處理此 JSON 文件以無縫應用調整。此外，我們將參數值設計為遵循大致感知線性尺度，范圍為 [-100, +100]，以確保對調整的一致控制。與其他生成式解決方案相比，我們的操作本質上是非破壞性的，并且可以對高分辨率 16 位圖像進行操作。

5、評估

5.1 實現細節

我們使用 DoRA 適配器 [Liu et al. 2024] 對 Qwen-VL-7B-Instruct [Wang et al. 2024a]（一個 70 億參數的 MLLM，簡稱M）進行微調。我們使用 llamafactory [Zheng et al. 2024] 框架進行微調。將 DoRA 配置為 dropout 率 0.2、適配器秩 256、alpha 秩 512。采用 1e?4 的學習率和余弦調度，模型在 H100 GPU 上微調單個 epoch 約需 8 小時；直接回歸基線需 2.5 小時。訓練數據集包括使用 Gemini 2.0 Flash Experimental [Team 2024] 生成的合成謎題及其相應推理。我們從 PPR10K [Liang et al. 2021] 中采樣專家編輯圖像來創建謎題。如第 4 節所述，我們對每個圖像應用隨機調整，生成合成謎題數據集，其中謎題 A 約 7k 樣本，謎題 B 約 5k 樣本，謎題 C 約 13k 樣本。我們的庫包括 33 個操作，在 Python 中從頭實現或通過擴展現有庫（如 OpenCV 和 Pillow）實現（見補充材料）。為確保庫的準確性，我們驗證了將 PPR10K 數據集中的專家調整值應用于源圖像時，生成的結果與目標圖像高度匹配。

5.2 推理時間

在推理時，我們使用 RTX 4090。對于每次修圖，我們的完整階段管道執行需要 25 秒，而直接回歸需要 10 秒，Exposure 約需 2 秒。

5.3 數據集

我們在從 PPR10K [Liang et al. 2021] 和 Adobe5k [Bychkovsky et al. 2011] 數據集精心挑選的各種圖像上評估我們的方法，這些數據集提供了源圖像和專家編輯圖像。請注意，我們的數據生成未使用配對信息。為了測試，我們選擇在訓練期間未見過其專家版本的圖像。

5.4 基線

我們與以下方法進行了廣泛比較：

（i）Exposure [Hu et al. 2018]，這是一個基于 RL 的框架，用于建議增強圖像的操作序列及其參數；

（ii）Unpaired Image Enhancement [Kosugi and Yamasaki 2020]，與 Exposure 類似，帶有編輯界面；

（iii）RSFNet [Ouyang et al. 2023]，它使用區域特定濾鏡生成像素級注意力圖，但需要成對的修圖圖像進行訓練，這可能難以獲取；

（iv）MGIE [Fu et al. 2024]，它利用 MLLM 推導出富有表現力的指令和額外指導，以實現指令引導的圖像編輯。在我們的實驗中，我們使用固定指令 “像專業圖像編輯專家使用 Lightroom 一樣增強圖像”；

（v）Gemini+library，我們在推理時使用帶有思維鏈（CoT）推理的 Gemini 2.0 以及我們的庫 L，但未進行額外的訓練或微調。具體來說，我們分三個階段與 Gemini 交互。給定源圖像，我們首先提示它編寫詳細的調整計劃，不提供任何操作名稱或參數。這有效地迫使 MLLM 首先推理圖像需要增強的方面。然后，我們提供三類操作，即照明調整、顏色和溫度調整以及特定顏色操作，與我們的類似。我們提示 MLLM 選擇需要應用的操作并說明推理依據。最后，我們要求 MLLM 提供所選操作的參數，然后我們將其轉換并使用我們的庫執行。有關此提示每個步驟的更多詳細信息，請參考補充材料；

（vi）InstructP2P [Brooks et al. 2023]；

（vii）Google Photo，我們還將 Google Photos 中可用的自動增強功能作為黑箱商業替代方案。

最后，為了對我們的方法進行消融實驗，我們還展示了 Regression，指的是一種 MLLM 引導的變體，我們直接對 MLLM（與我們的設置相同）進行微調，以直接回歸一組圖像編輯操作的參數。我們使用 PPR10K 數據集進行此微調，在該數據集中我們可以訪問源圖像和編輯圖像對以及相應的調整操作和值。遵循 Exposure [Hu et al. 2018] 等先前工作，我們訓練它模仿單個專家的調整以減少歧義。

5.5 定量比較

我們在 PPR10k [Liang et al. 2021] 中的單個專家（專家 A）數據上訓練 MonetGPT 和基線，并在從 Adobe5k [Bychkovsky et al. 2011] 隨機采樣的 400 張圖像上進行評估以測試泛化能力。由于 MGIE 需要非常大的數據（1M+），我們沒有重新訓練它，Google Photos 是閉源和專有的，我們也沒有對其進行訓練。我們還注意到，僅在 PPR10k 上訓練由于其有限的圖像多樣性（主要是肖像）而使泛化更具挑戰性。為了評估，我們計算了幾個標準指標：PSNR 衡量像素級保真度，而 SSIM 和 LPIPS [Zhang et al. 2018] 作為感知質量指標。我們還根據 Hu et al. [2018] 計算直方圖交集，以評估預測的圖像分布與專家編輯在對比度、亮度和色彩飽和度方面的匹配程度（表 1 中顯示了三個直方圖的平均值）。Adobe5k 數據集提供了五位不同專家的編輯。對于每個樣本和指標，我們取針對這五位專家中的任何一位獲得的最高分數（直方圖交集除外，它考慮所有專家）。鑒于圖像修圖的主觀性，匹配任何專家編輯都可以視為編輯樣本的理想結果。表 1 中的結果表明，我們的方法在四個指標中的三個上優于所有開源基線，并實現了與閉源 Google Photos 相當的性能。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

5.6 定性比較

傳統的圖像比較指標往往無法捕捉圖像修圖的主觀增強質量。因此，我們進行了用戶研究和專家判斷來評估我們的結果。具體來說，我們首先進行了一項用戶研究，選擇了 15 張源圖像，并使用 Exposure、Gemini-CoT 和我們的方法生成增強版本。我們向每位參與者展示源圖像以及一對增強結果，并要求他們選擇美學質量和視覺增強效果更好的選項。如果他們認為源圖像在美學上更合理，還可以選擇 “都不選”。每對結果由我們的結果和一個基線結果隨機組成，總共產生 200 個問題。我們收集了 15 名具有不同修圖技能的新手用戶和 10 名攝影專家的答案。

結果討論。我們在圖 6 中提供了一組示例結果，更多示例（包括對我們編輯的詳細解釋）請參考補充材料。IP2P 和 MGIE 作為生成式方法，在生成圖像的分辨率方面受到限制，并且常常難以保留源圖像的內容。Exposure 和 Gemini CoT+library 基線經常導致過曝、高對比度、過亮或過暗的圖像（例如，第 2 行和第 8 行）。Google Photos 的自動增強選項是一個強大的基線，它也建議各種圖像編輯操作的參數，很可能基于機器學習方法。我們的 MLLM 回歸基線未能從調整設置的配對數據中學習到任何有意義的信號（注意：我們的方法是未配對的），這進一步證實了使用推理作為路徑的必要性。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖6. 每行展示輸入圖像及各基線方法生成的潤飾效果。生成式基線方法（MGIE）難以保持原始特征（末行），而Exposure或Gemini有時會產生過亮或過暗的結果（第三行）。基于多模態大語言模型的直接回歸方法無法實現充分增強。我們的方法能夠提供均衡且符合美學要求的增強效果。

5.7 感知用戶研究

我們的視覺觀察得到了針對 Adobe5k 和 Reddit 上 50 張圖像的用戶研究的證實。如圖 8 所示，我們的方法在 15 名新手用戶和 10 名專家中均優于所有基線。除了完成用戶研究外，我們還收集了專家關于編輯中哪些方面效果良好以及潛在改進領域的口頭反饋。總體而言，專家們強烈偏好我們的方法，同時提出了一些細微改進的建設性建議，例如 “使膚色稍微更飽和” 和 “曲線調整以更好地突出焦點”。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖8：用戶偏好研究對比我們的方法與基線Exposure[Hu et al. 2018]（白盒系統）和MGIE[Fu et al. 2024]（指令引導的MLLM增強器）。. 我們向參與者展示源圖像以及一對編輯圖像，其中我們的結果與基線之一隨機配對。收集了有修圖經驗的用戶（專家用戶）和不同熟悉程度的用戶（新手用戶）的反饋。參與者也可以在兩者都未能改善原始圖像時選擇 “都不選”。如圖所示，專家和新手群體均更偏好我們的結果。

5.8 圖像操作感知的影響

為了突出解決謎題對圖像操作感知的影響，我們在光照條件不同（主要是光照）的同一場景上測試了 MonetGPT，如圖 7 左側所示。與我們的 MLLM 回歸基線不同，MonetGPT 生成了明顯不同的修圖計劃，針對每個圖像的光照條件進行了定制。在此示例中，MonetGPT 調整了輸出，為光照平衡、過亮或曝光不足的輸入生成了不同的調整。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖7，（左）MonetGPT能夠響應輸入圖像的細微變化，生成不同的編輯方案。相比之下，我們的回歸基線方法基本忽略了輸入中的細微差異，提出的潤飾方案幾乎完全相同。（右）MonetGPT可以根據風格標簽（此處展示復古、均衡和活力三種風格）生成不同的編輯方案，從而產生不同的潤飾效果。

5.9 個性化修圖

圖像修圖具有主觀性，沒有單一的 “最佳” 解決方案，因為風格偏好差異很大。我們的框架主要訓練用于模仿特定專家的風格，這在將編輯視為最佳時可能會引入單個專家的主觀性。然而，我們的框架通過將 MLLM 與程序設計相結合的固有靈活性，能夠有效泛化以適應用戶指定的各種風格請求。用戶可以通過自然語言指導修圖過程（例如，要求增加活力或更柔和的色調），使模型能夠適應個人偏好。如圖 7 右側所示：我們展示了三種不同的風格，通過向 MonetGPT 提供以下附加標簽作為提示實現：“懷舊復古氛圍”、“平衡” 和 “鮮艷濃郁的色彩”，并應用于同一輸入。我們查詢 LLM 以表征特定風格標簽的特征，然后將其添加到我們的模板提示中。MLLM 的自回歸特性還允許用戶在任何階段編輯計劃，并生成后續階段的參數值和計劃，與用戶所做的更改協同工作，如圖 9 所示。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖9. 自回歸式編輯。多模態大語言模型（MLLMs）的自回歸特性，結合我們的分階段編輯流程，允許用戶在任意階段修改編輯方案（P）。優化后的方案將用于確定后續參數值。此外，修改后的方案P′能使MLLM生成與編輯調整相一致的后續階段方案。底部圖像（P′′?）展示了在第一階段方案被修改為P′′后，進一步調整第二、第三階段方案所得到的結果。

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能-AI.x社區

圖10：對于我們庫中的每個操作，我們展示了MonetGPT和基線在PPR10k數據集的100張圖像上直接回歸值的小提琴圖。基線出現過擬合并預測相同值，而MonetGPT利用了整個值范圍。

6、結論

我們證明，MLLM 可以通過在專門設計的視覺謎題上訓練來學習程序圖像修圖操作。訓練完成后，MLLM 可以評判照片，提出修復方案，并建議帶有相應參數的修圖操作序列。這些建議隨后可以使用函數庫轉換為可執行的調用。我們在基準數據集上評估了我們的方法 MonetGPT，展示了其相對于各種替代方案的優勢。值得注意的是，我們的方法不需要推理時優化（例如，迭代反饋），與現有 MLLM 兼容，并且通過設計具有可解釋性（帶有詳細推理）。

局限性和未來工作

（i）目前，MonetGPT 支持的全局操作有限，不包括裁剪或區域編輯。支持特定對象的操作可能涉及使用語義分割網絡對圖像進行預分割。然而，獲得足夠多的與區域蒙版關聯的藝術家編輯圖像仍然是一個挑戰。

（ii）我們在 8k 張專家編輯圖像的數據集上訓練了 MonetGPT。因此，我們的模型可能反映了藝術家特定的美學先驗或偏見。在更大、更多樣化的數據集上訓練可以減輕偏見，支持學習編輯參數的先驗，并有可能促進開發美學評分模型。

（iii）圖像修圖具有主觀性，缺乏單一的最佳解決方案。我們的模型可能會出錯，有時會導致飽和區域等偽影。我們預計，改進的訓練數據和更好地建模合成增強中的擾動分布可以部分解決這一問題。引入人工介入系統可以進一步提高用戶滿意度。

（iv）我們的工作側重于程序操作，未包括生成式濾鏡。未來的工作可以探索將特定的生成式編輯作為神經符號模塊，允許 MonetGPT 整合它們。然而，這可能會損害我們當前系統的關鍵優勢 —— 程序可解釋性。

本文轉載自???AIRoobt?? ，作者：AIRoobt

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

MonetGPT

多模態

大語言模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

MonetGPT：通過解決謎題提升多模態大語言模型的圖像修圖技能原創精華

摘要