成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具 精華

發(fā)布于 2025-7-4 08:19
瀏覽
0收藏

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

項(xiàng)目主頁(yè): https://jarvisart.vercel.app/

國(guó)內(nèi)主頁(yè):https://www.jarvisart.site/

論文全文: https://arxiv.org/pdf/2506.17612

GitHub: https://github.com/LYL1015/JarvisArt

Huggingface Daily Paper :??https://huggingface.co/papers/2506.17612??

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

一、研究背景與動(dòng)機(jī)

行業(yè)痛點(diǎn)與突破

在數(shù)字?jǐn)z影時(shí)代,照片潤(rùn)飾已成為創(chuàng)作流程中不可或缺的一環(huán)。然而,專(zhuān)業(yè)級(jí)工具(如Adobe Lightroom)的復(fù)雜操作門(mén)檻與普通用戶(hù)的高效需求之間存在顯著矛盾。傳統(tǒng)自動(dòng)化工具(雖能響應(yīng)自然語(yǔ)言指令,卻在內(nèi)容保真度、局部細(xì)節(jié)控制高分辨率支持上表現(xiàn)不足。為此,我們提出 JarvisArt —— 首個(gè)基于多模態(tài)大語(yǔ)言模型(MLLM)的智能潤(rùn)飾代理,深度融合Lightroom生態(tài),通過(guò)藝術(shù)推理工具編排,實(shí)現(xiàn)媲美專(zhuān)業(yè)級(jí)的人機(jī)協(xié)作潤(rùn)飾體驗(yàn)。

攝影后期的"專(zhuān)業(yè)鴻溝"

  • 專(zhuān)業(yè)工具門(mén)檻高:Lightroom等工具需多年經(jīng)驗(yàn)才能精通
  • AI方案不完善:生成式模型破壞原圖細(xì)節(jié)/無(wú)法精細(xì)控制/分辨率受限
  • 創(chuàng)意表達(dá)受限:普通用戶(hù)難以實(shí)現(xiàn)專(zhuān)業(yè)級(jí)藝術(shù)效果

JarvisArt的革新性方案

"首個(gè)基于MLLM的藝術(shù)家代理,用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具" ——將專(zhuān)業(yè)修圖師的思維過(guò)程轉(zhuǎn)化為AI可執(zhí)行的推理鏈

二、技術(shù)核心亮點(diǎn)

1. MLLM驅(qū)動(dòng)的藝術(shù)創(chuàng)作中樞

  • 跨模態(tài)意圖解析:聯(lián)合文本指令、源圖像及興趣區(qū)域(如人物),精準(zhǔn)解碼用戶(hù)創(chuàng)作意圖。
  • 戰(zhàn)略級(jí)推理能力:模擬專(zhuān)業(yè)藝術(shù)家的決策流程,構(gòu)建從全局風(fēng)格到局部細(xì)節(jié)的分層修圖計(jì)劃。
  • Lightroom工具矩陣集成:無(wú)縫對(duì)接200+種原生操作(如曝光調(diào)整、色彩分級(jí)、局部蒙版),支持非破壞性編輯。

2. MMArt數(shù)據(jù)集:藝術(shù)潤(rùn)飾的里程碑

  • 55,000+高質(zhì)量樣本:包含5,000組標(biāo)準(zhǔn)指令樣本與50,000組鏈?zhǔn)剿季S(Chain-of-Thought)增強(qiáng)樣本。
  • 多粒度標(biāo)注體系:每條樣本包含三元組??(用戶(hù)指令, 源圖像, 修圖操作配置)??,覆蓋肖像、風(fēng)景、靜物等多樣場(chǎng)景。
  • 真實(shí)用戶(hù)意圖生成:通過(guò)逆向工程真實(shí)Lightroom編輯日志,生成多樣化創(chuàng)意指令(如“增強(qiáng)黃昏氛圍”、“復(fù)古膠片風(fēng)格”)。

3. GRPO-R算法:面向潤(rùn)飾的強(qiáng)化學(xué)習(xí)革新

  • 多維獎(jiǎng)勵(lì)信號(hào)設(shè)計(jì)

a.格式獎(jiǎng)勵(lì)(Rf):強(qiáng)制輸出符合??<think>??? 與??<answer>?? 標(biāo)簽的結(jié)構(gòu)化格式,確保可解析性。

b.潤(rùn)飾操作準(zhǔn)確性獎(jiǎng)勵(lì)(Rroa):評(píng)估工具選擇與參數(shù)配置的精確性。

c.感知質(zhì)量獎(jiǎng)勵(lì)(Rpq):基于感知損失函數(shù)量化修圖結(jié)果的視覺(jué)保真度。

4. Agent-to-Lightroom協(xié)議(A2L)

  • 標(biāo)準(zhǔn)化通信接口:定義客戶(hù)端-服務(wù)端交互協(xié)議,支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
  • 沙盒化執(zhí)行環(huán)境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
  • 異步處理機(jī)制:支持批量任務(wù)提交與后臺(tái)渲染,提升高分辨率圖像處理效率。

三、方法詳解

1. JarvisArt系統(tǒng)架構(gòu)

JarvisArt遵循“理解→推理→執(zhí)行”三階段流程:

  • 意圖解析:MLLM解析用戶(hù)指令(如“提亮膚色并添加懷舊色調(diào)”)與源圖像,識(shí)別目標(biāo)區(qū)域(如人臉蒙版)。
  • 戰(zhàn)略規(guī)劃:生成分步潤(rùn)飾計(jì)劃(例如:先調(diào)整白平衡→局部提亮面部→應(yīng)用漸變?yōu)V鏡)。
  • 工具編排:將操作序列轉(zhuǎn)換為L(zhǎng)ightroom可執(zhí)行的ROC文件(Retouching Operations Configuration),自動(dòng)調(diào)用對(duì)應(yīng)工具與參數(shù)。

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

JarvisArt端到端修圖流程示意圖

2. MMArt數(shù)據(jù)集構(gòu)建

數(shù)據(jù)生成流水線包含三大階段:

  • 源-編輯-配置樣本的生成:通過(guò)收集原始圖像并結(jié)合全局與局部藝術(shù)預(yù)設(shè),在 Lightroom 中進(jìn)行專(zhuān)家級(jí)編輯,生成高質(zhì)量的圖像對(duì)(源圖像與編輯圖像)及詳細(xì)的修圖操作記錄,形成三元組數(shù)據(jù)。
  • 用戶(hù)指令生成:利用多模態(tài)大模型模擬不同用戶(hù)角色(普通用戶(hù)與專(zhuān)業(yè)編輯),根據(jù)圖像內(nèi)容和編輯意圖生成多樣化、自然語(yǔ)言形式的指令,覆蓋全局風(fēng)格調(diào)整與局部區(qū)域修改。
  • 鏈?zhǔn)剿季S數(shù)據(jù)生成:基于圖像、指令和修圖操作配置文件,使用視覺(jué)推理模型生成初步的 Chain-of-Thought(CoT)注釋?zhuān)⑼ㄟ^(guò)迭代優(yōu)化去除冗余、提升邏輯一致性,最終生成簡(jiǎn)潔且上下文相關(guān)的推理過(guò)程。

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

數(shù)據(jù)生成的pipeline

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

數(shù)據(jù)樣例

3. GRPO-R算法設(shè)計(jì)

(1) 監(jiān)督微調(diào)(SFT)階段

  • 目標(biāo):在50,000個(gè) Chain-of-Thought(CoT)標(biāo)注樣本上進(jìn)行監(jiān)督訓(xùn)練,使模型掌握基礎(chǔ)的推理能力、用戶(hù)意圖理解與Lightroom工具調(diào)用流程。
  • 訓(xùn)練方式:采用自回歸語(yǔ)言建模策略,逐token生成結(jié)構(gòu)化響應(yīng),包括推理過(guò)程??<think>??? 和最終操作指令??<answer>??。

該階段通過(guò)大量高質(zhì)量 CoT 樣本訓(xùn)練 JarvisArt 建立“理解→推理→決策”的基本流程,并確保輸出格式統(tǒng)一、可解析。

(2) 強(qiáng)化學(xué)習(xí)階段(GRPO-R)

在 SFT 階段奠定基礎(chǔ)后,引入 GRPO-R(Group Relative Policy Optimization for Retouching)算法,進(jìn)一步提升模型的推理深度、工具調(diào)用準(zhǔn)確性和視覺(jué)修圖質(zhì)量。GRPO-R 是一種基于多維獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)框架,專(zhuān)為圖像潤(rùn)飾任務(wù)定制。

  • 獎(jiǎng)勵(lì)函數(shù)組合

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

各獎(jiǎng)勵(lì)項(xiàng)說(shuō)明如下:

  • 格式獎(jiǎng)勵(lì)(Rf):確保模型輸出符合規(guī)定的結(jié)構(gòu)格式,例如正確使用<think> 和<answer> 標(biāo)簽,提升系統(tǒng)解析的穩(wěn)定性。
  • 操作準(zhǔn)確性獎(jiǎng)勵(lì)(Rroa):衡量模型調(diào)用圖像潤(rùn)飾工具的準(zhǔn)確程度,包括工具名稱(chēng)匹配、參數(shù)類(lèi)型一致性和數(shù)值誤差,幫助模型掌握專(zhuān)業(yè)級(jí) Lightroom 操作。
  • 感知質(zhì)量獎(jiǎng)勵(lì)(Rpq):評(píng)估潤(rùn)飾后圖像的視覺(jué)效果,結(jié)合顏色分布一致性與像素級(jí)相似度,確保輸出圖像質(zhì)量。

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

訓(xùn)練框架圖

4. 革命性A2L協(xié)議

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

  • 首創(chuàng)雙向通信協(xié)議實(shí)現(xiàn)無(wú)縫集成。
  • 用戶(hù)可隨時(shí)介入調(diào)整工作流。
  • 標(biāo)準(zhǔn)化通信接口:定義客戶(hù)端-服務(wù)端交互協(xié)議,支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
  • 沙盒化執(zhí)行環(huán)境:隔離模型推理與Lightroom操作,確保編輯流程安全可控。
  • 異步處理機(jī)制:支持批量任務(wù)提交與后臺(tái)渲染,提升高分辨率圖像處理效率。

四、實(shí)驗(yàn)結(jié)果

1. MMArt-Bench評(píng)測(cè)霸主

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

2. 視覺(jué)效果

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

3. 用戶(hù)偏好

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

實(shí)驗(yàn)分析總結(jié):

  • 定量?jī)?yōu)勢(shì):JarvisArt 在內(nèi)容保真度(L1×102)和指令遵循能力(O)上均達(dá)到行業(yè)領(lǐng)先水平,特別是在封閉源模型對(duì)比中表現(xiàn)突出。
  • 視覺(jué)表現(xiàn):通過(guò) Lightroom 集成工作流,JarvisArt 成功解決了競(jìng)爭(zhēng)對(duì)手常見(jiàn)的“恐怖谷”問(wèn)題,確保潤(rùn)飾結(jié)果既符合用戶(hù)意圖又保持高質(zhì)量。
  • 用戶(hù)偏好:JarvisArt在易用性、編輯效率和整體滿(mǎn)意度方面表現(xiàn)優(yōu)異,絕大多數(shù)用戶(hù)認(rèn)為其無(wú)需技術(shù)支援即可獨(dú)立使用、操作流暢,并愿意長(zhǎng)期使用。

五、實(shí)際Gradio應(yīng)用案例

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

修圖界ChatGPT誕生!JarvisArt:解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

六、結(jié)語(yǔ)與展望

JarvisArt重新定義了智能潤(rùn)飾的可能性:

  • 技術(shù)范式革新:將MLLM從“指令跟隨者”升級(jí)為“藝術(shù)協(xié)作者”,推動(dòng)人機(jī)共創(chuàng)邊界。
  • 產(chǎn)業(yè)應(yīng)用潛力:賦能攝影師、設(shè)計(jì)師提升工作效率,降低專(zhuān)業(yè)工具使用門(mén)檻。
  • 未來(lái)方向:探索視頻潤(rùn)飾擴(kuò)展、跨軟件生態(tài)集成(如Photoshop、Capture One)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/QAcF4nmjX8LK18Op9MzAsg??

標(biāo)簽
已于2025-7-4 17:46:18修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人精品一区二区户外勾搭野战 | 天天弄 | 国产情侣在线看 | 久久久无码精品亚洲日韩按摩 | 日批日韩在线观看 | 国产福利精品一区 | 午夜国产羞羞视频免费网站 | 91人人爽| 精品一级电影 | 日本欧美国产在线观看 | 一区二区在线不卡 | 欧美一区二区大片 | 久久免费精品视频 | 精品九九九 | 国产精品视频一二三区 | 免费国产一区 | 亚洲欧美中文日韩在线v日本 | 国产真实乱对白精彩久久小说 | 日日夜夜天天 | 欧美一区二区三区在线 | 亚洲国产成人av好男人在线观看 | 精品一区二区三区在线观看国产 | 成人网视频 | 最近最新中文字幕 | 精品视频在线观看 | 91精品国产综合久久福利软件 | 国产精品毛片av一区 | 视频一区二区在线 | 青青草原综合久久大伊人精品 | 国产在线一区二 | 99久久影院| 一区二区三区视频在线 | 久久99久久| 老司机67194精品线观看 | 激情的网站| 国产成人黄色 | 国产69精品久久久久777 | 99久久精品免费看国产四区 | 亚洲69p| 东方伊人免费在线观看 | 欧美成人精品 |