修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具 精華
項(xiàng)目主頁(yè): https://jarvisart.vercel.app/
國(guó)內(nèi)主頁(yè):https://www.jarvisart.site/
論文全文: https://arxiv.org/pdf/2506.17612
GitHub: https://github.com/LYL1015/JarvisArt
Huggingface Daily Paper :??https://huggingface.co/papers/2506.17612??
一、研究背景與動(dòng)機(jī)
行業(yè)痛點(diǎn)與突破
在數(shù)字?jǐn)z影時(shí)代,照片潤(rùn)飾已成為創(chuàng)作流程中不可或缺的一環(huán)。然而,專(zhuān)業(yè)級(jí)工具(如Adobe Lightroom)的復(fù)雜操作門(mén)檻與普通用戶(hù)的高效需求之間存在顯著矛盾。傳統(tǒng)自動(dòng)化工具(雖能響應(yīng)自然語(yǔ)言指令,卻在內(nèi)容保真度、局部細(xì)節(jié)控制和高分辨率支持上表現(xiàn)不足。為此,我們提出 JarvisArt —— 首個(gè)基于多模態(tài)大語(yǔ)言模型(MLLM)的智能潤(rùn)飾代理,深度融合Lightroom生態(tài),通過(guò)藝術(shù)推理與工具編排,實(shí)現(xiàn)媲美專(zhuān)業(yè)級(jí)的人機(jī)協(xié)作潤(rùn)飾體驗(yàn)。
攝影后期的"專(zhuān)業(yè)鴻溝"
- 專(zhuān)業(yè)工具門(mén)檻高:Lightroom等工具需多年經(jīng)驗(yàn)才能精通
- AI方案不完善:生成式模型破壞原圖細(xì)節(jié)/無(wú)法精細(xì)控制/分辨率受限
- 創(chuàng)意表達(dá)受限:普通用戶(hù)難以實(shí)現(xiàn)專(zhuān)業(yè)級(jí)藝術(shù)效果
JarvisArt的革新性方案
"首個(gè)基于MLLM的藝術(shù)家代理,用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具" ——將專(zhuān)業(yè)修圖師的思維過(guò)程轉(zhuǎn)化為AI可執(zhí)行的推理鏈
二、技術(shù)核心亮點(diǎn)
1. MLLM驅(qū)動(dòng)的藝術(shù)創(chuàng)作中樞
- 跨模態(tài)意圖解析:聯(lián)合文本指令、源圖像及興趣區(qū)域(如人物),精準(zhǔn)解碼用戶(hù)創(chuàng)作意圖。
- 戰(zhàn)略級(jí)推理能力:模擬專(zhuān)業(yè)藝術(shù)家的決策流程,構(gòu)建從全局風(fēng)格到局部細(xì)節(jié)的分層修圖計(jì)劃。
- Lightroom工具矩陣集成:無(wú)縫對(duì)接200+種原生操作(如曝光調(diào)整、色彩分級(jí)、局部蒙版),支持非破壞性編輯。
2. MMArt數(shù)據(jù)集:藝術(shù)潤(rùn)飾的里程碑
- 55,000+高質(zhì)量樣本:包含5,000組標(biāo)準(zhǔn)指令樣本與50,000組鏈?zhǔn)剿季S(Chain-of-Thought)增強(qiáng)樣本。
- 多粒度標(biāo)注體系:每條樣本包含三元組?
?(用戶(hù)指令, 源圖像, 修圖操作配置)?
?,覆蓋肖像、風(fēng)景、靜物等多樣場(chǎng)景。 - 真實(shí)用戶(hù)意圖生成:通過(guò)逆向工程真實(shí)Lightroom編輯日志,生成多樣化創(chuàng)意指令(如“增強(qiáng)黃昏氛圍”、“復(fù)古膠片風(fēng)格”)。
3. GRPO-R算法:面向潤(rùn)飾的強(qiáng)化學(xué)習(xí)革新
- 多維獎(jiǎng)勵(lì)信號(hào)設(shè)計(jì):
a.格式獎(jiǎng)勵(lì)(Rf):強(qiáng)制輸出符合??<think>?
?? 與??<answer>?
? 標(biāo)簽的結(jié)構(gòu)化格式,確保可解析性。
b.潤(rùn)飾操作準(zhǔn)確性獎(jiǎng)勵(lì)(Rroa):評(píng)估工具選擇與參數(shù)配置的精確性。
c.感知質(zhì)量獎(jiǎng)勵(lì)(Rpq):基于感知損失函數(shù)量化修圖結(jié)果的視覺(jué)保真度。
4. Agent-to-Lightroom協(xié)議(A2L)
- 標(biāo)準(zhǔn)化通信接口:定義客戶(hù)端-服務(wù)端交互協(xié)議,支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
- 沙盒化執(zhí)行環(huán)境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
- 異步處理機(jī)制:支持批量任務(wù)提交與后臺(tái)渲染,提升高分辨率圖像處理效率。
三、方法詳解
1. JarvisArt系統(tǒng)架構(gòu)
JarvisArt遵循“理解→推理→執(zhí)行”三階段流程:
- 意圖解析:MLLM解析用戶(hù)指令(如“提亮膚色并添加懷舊色調(diào)”)與源圖像,識(shí)別目標(biāo)區(qū)域(如人臉蒙版)。
- 戰(zhàn)略規(guī)劃:生成分步潤(rùn)飾計(jì)劃(例如:先調(diào)整白平衡→局部提亮面部→應(yīng)用漸變?yōu)V鏡)。
- 工具編排:將操作序列轉(zhuǎn)換為L(zhǎng)ightroom可執(zhí)行的ROC文件(Retouching Operations Configuration),自動(dòng)調(diào)用對(duì)應(yīng)工具與參數(shù)。
JarvisArt端到端修圖流程示意圖
2. MMArt數(shù)據(jù)集構(gòu)建
數(shù)據(jù)生成流水線包含三大階段:
- 源-編輯-配置樣本的生成:通過(guò)收集原始圖像并結(jié)合全局與局部藝術(shù)預(yù)設(shè),在 Lightroom 中進(jìn)行專(zhuān)家級(jí)編輯,生成高質(zhì)量的圖像對(duì)(源圖像與編輯圖像)及詳細(xì)的修圖操作記錄,形成三元組數(shù)據(jù)。
- 用戶(hù)指令生成:利用多模態(tài)大模型模擬不同用戶(hù)角色(普通用戶(hù)與專(zhuān)業(yè)編輯),根據(jù)圖像內(nèi)容和編輯意圖生成多樣化、自然語(yǔ)言形式的指令,覆蓋全局風(fēng)格調(diào)整與局部區(qū)域修改。
- 鏈?zhǔn)剿季S數(shù)據(jù)生成:基于圖像、指令和修圖操作配置文件,使用視覺(jué)推理模型生成初步的 Chain-of-Thought(CoT)注釋?zhuān)⑼ㄟ^(guò)迭代優(yōu)化去除冗余、提升邏輯一致性,最終生成簡(jiǎn)潔且上下文相關(guān)的推理過(guò)程。
數(shù)據(jù)生成的pipeline
數(shù)據(jù)樣例
3. GRPO-R算法設(shè)計(jì)
(1) 監(jiān)督微調(diào)(SFT)階段
- 目標(biāo):在50,000個(gè) Chain-of-Thought(CoT)標(biāo)注樣本上進(jìn)行監(jiān)督訓(xùn)練,使模型掌握基礎(chǔ)的推理能力、用戶(hù)意圖理解與Lightroom工具調(diào)用流程。
- 訓(xùn)練方式:采用自回歸語(yǔ)言建模策略,逐token生成結(jié)構(gòu)化響應(yīng),包括推理過(guò)程?
?<think>?
?? 和最終操作指令??<answer>?
?。
該階段通過(guò)大量高質(zhì)量 CoT 樣本訓(xùn)練 JarvisArt 建立“理解→推理→決策”的基本流程,并確保輸出格式統(tǒng)一、可解析。
(2) 強(qiáng)化學(xué)習(xí)階段(GRPO-R)
在 SFT 階段奠定基礎(chǔ)后,引入 GRPO-R(Group Relative Policy Optimization for Retouching)算法,進(jìn)一步提升模型的推理深度、工具調(diào)用準(zhǔn)確性和視覺(jué)修圖質(zhì)量。GRPO-R 是一種基于多維獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)框架,專(zhuān)為圖像潤(rùn)飾任務(wù)定制。
- 獎(jiǎng)勵(lì)函數(shù)組合:
各獎(jiǎng)勵(lì)項(xiàng)說(shuō)明如下:
- 格式獎(jiǎng)勵(lì)(Rf):確保模型輸出符合規(guī)定的結(jié)構(gòu)格式,例如正確使用<think> 和<answer> 標(biāo)簽,提升系統(tǒng)解析的穩(wěn)定性。
- 操作準(zhǔn)確性獎(jiǎng)勵(lì)(Rroa):衡量模型調(diào)用圖像潤(rùn)飾工具的準(zhǔn)確程度,包括工具名稱(chēng)匹配、參數(shù)類(lèi)型一致性和數(shù)值誤差,幫助模型掌握專(zhuān)業(yè)級(jí) Lightroom 操作。
- 感知質(zhì)量獎(jiǎng)勵(lì)(Rpq):評(píng)估潤(rùn)飾后圖像的視覺(jué)效果,結(jié)合顏色分布一致性與像素級(jí)相似度,確保輸出圖像質(zhì)量。
訓(xùn)練框架圖
4. 革命性A2L協(xié)議
- 首創(chuàng)雙向通信協(xié)議實(shí)現(xiàn)無(wú)縫集成。
- 用戶(hù)可隨時(shí)介入調(diào)整工作流。
- 標(biāo)準(zhǔn)化通信接口:定義客戶(hù)端-服務(wù)端交互協(xié)議,支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
- 沙盒化執(zhí)行環(huán)境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
- 異步處理機(jī)制:支持批量任務(wù)提交與后臺(tái)渲染,提升高分辨率圖像處理效率。
四、實(shí)驗(yàn)結(jié)果
1. MMArt-Bench評(píng)測(cè)霸主
2. 視覺(jué)效果
3. 用戶(hù)偏好
實(shí)驗(yàn)分析總結(jié):
- 定量?jī)?yōu)勢(shì):JarvisArt 在內(nèi)容保真度(L1×102)和指令遵循能力(O)上均達(dá)到行業(yè)領(lǐng)先水平,特別是在封閉源模型對(duì)比中表現(xiàn)突出。
- 視覺(jué)表現(xiàn):通過(guò) Lightroom 集成工作流,JarvisArt 成功解決了競(jìng)爭(zhēng)對(duì)手常見(jiàn)的“恐怖谷”問(wèn)題,確保潤(rùn)飾結(jié)果既符合用戶(hù)意圖又保持高質(zhì)量。
- 用戶(hù)偏好:JarvisArt在易用性、編輯效率和整體滿(mǎn)意度方面表現(xiàn)優(yōu)異,絕大多數(shù)用戶(hù)認(rèn)為其無(wú)需技術(shù)支援即可獨(dú)立使用、操作流暢,并愿意長(zhǎng)期使用。
五、實(shí)際Gradio應(yīng)用案例
六、結(jié)語(yǔ)與展望
JarvisArt重新定義了智能潤(rùn)飾的可能性:
- 技術(shù)范式革新:將MLLM從“指令跟隨者”升級(jí)為“藝術(shù)協(xié)作者”,推動(dòng)人機(jī)共創(chuàng)邊界。
- 產(chǎn)業(yè)應(yīng)用潛力:賦能攝影師、設(shè)計(jì)師提升工作效率,降低專(zhuān)業(yè)工具使用門(mén)檻。
- 未來(lái)方向:探索視頻潤(rùn)飾擴(kuò)展、跨軟件生態(tài)集成(如Photoshop、Capture One)。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
