成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="ggwsa"><nav id="ggwsa"></nav></input>

<dl id="ggwsa"></dl>

<li id="ggwsa"><tbody id="ggwsa"></tbody></li>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具精華

發(fā)布于 2025-7-4 08:19

瀏覽

0收藏

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

項(xiàng)目主頁(yè): https://jarvisart.vercel.app/

國(guó)內(nèi)主頁(yè)：https://www.jarvisart.site/

論文全文: https://arxiv.org/pdf/2506.17612

GitHub: https://github.com/LYL1015/JarvisArt

Huggingface Daily Paper :??https://huggingface.co/papers/2506.17612??

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

一、研究背景與動(dòng)機(jī)

行業(yè)痛點(diǎn)與突破

在數(shù)字?jǐn)z影時(shí)代，照片潤(rùn)飾已成為創(chuàng)作流程中不可或缺的一環(huán)。然而，專(zhuān)業(yè)級(jí)工具（如Adobe Lightroom）的復(fù)雜操作門(mén)檻與普通用戶(hù)的高效需求之間存在顯著矛盾。傳統(tǒng)自動(dòng)化工具（雖能響應(yīng)自然語(yǔ)言指令，卻在內(nèi)容保真度、局部細(xì)節(jié)控制和高分辨率支持上表現(xiàn)不足。為此，我們提出 JarvisArt —— 首個(gè)基于多模態(tài)大語(yǔ)言模型（MLLM）的智能潤(rùn)飾代理，深度融合Lightroom生態(tài)，通過(guò)藝術(shù)推理與工具編排，實(shí)現(xiàn)媲美專(zhuān)業(yè)級(jí)的人機(jī)協(xié)作潤(rùn)飾體驗(yàn)。

攝影后期的"專(zhuān)業(yè)鴻溝"

專(zhuān)業(yè)工具門(mén)檻高：Lightroom等工具需多年經(jīng)驗(yàn)才能精通
AI方案不完善：生成式模型破壞原圖細(xì)節(jié)/無(wú)法精細(xì)控制/分辨率受限
創(chuàng)意表達(dá)受限：普通用戶(hù)難以實(shí)現(xiàn)專(zhuān)業(yè)級(jí)藝術(shù)效果

JarvisArt的革新性方案

"首個(gè)基于MLLM的藝術(shù)家代理，用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具" ——將專(zhuān)業(yè)修圖師的思維過(guò)程轉(zhuǎn)化為AI可執(zhí)行的推理鏈

二、技術(shù)核心亮點(diǎn)

1. MLLM驅(qū)動(dòng)的藝術(shù)創(chuàng)作中樞

跨模態(tài)意圖解析：聯(lián)合文本指令、源圖像及興趣區(qū)域（如人物），精準(zhǔn)解碼用戶(hù)創(chuàng)作意圖。
戰(zhàn)略級(jí)推理能力：模擬專(zhuān)業(yè)藝術(shù)家的決策流程，構(gòu)建從全局風(fēng)格到局部細(xì)節(jié)的分層修圖計(jì)劃。
Lightroom工具矩陣集成：無(wú)縫對(duì)接200+種原生操作（如曝光調(diào)整、色彩分級(jí)、局部蒙版），支持非破壞性編輯。

2. MMArt數(shù)據(jù)集：藝術(shù)潤(rùn)飾的里程碑

55,000+高質(zhì)量樣本：包含5,000組標(biāo)準(zhǔn)指令樣本與50,000組鏈?zhǔn)剿季S（Chain-of-Thought）增強(qiáng)樣本。
多粒度標(biāo)注體系：每條樣本包含三元組??(用戶(hù)指令, 源圖像, 修圖操作配置)??，覆蓋肖像、風(fēng)景、靜物等多樣場(chǎng)景。
真實(shí)用戶(hù)意圖生成：通過(guò)逆向工程真實(shí)Lightroom編輯日志，生成多樣化創(chuàng)意指令（如“增強(qiáng)黃昏氛圍”、“復(fù)古膠片風(fēng)格”）。

3. GRPO-R算法：面向潤(rùn)飾的強(qiáng)化學(xué)習(xí)革新

多維獎(jiǎng)勵(lì)信號(hào)設(shè)計(jì)：

a.格式獎(jiǎng)勵(lì)（Rf）：強(qiáng)制輸出符合??<think>??? 與??<answer>?? 標(biāo)簽的結(jié)構(gòu)化格式，確保可解析性。

b.潤(rùn)飾操作準(zhǔn)確性獎(jiǎng)勵(lì)（Rroa）：評(píng)估工具選擇與參數(shù)配置的精確性。

c.感知質(zhì)量獎(jiǎng)勵(lì)（Rpq）：基于感知損失函數(shù)量化修圖結(jié)果的視覺(jué)保真度。

4. Agent-to-Lightroom協(xié)議（A2L）

標(biāo)準(zhǔn)化通信接口：定義客戶(hù)端-服務(wù)端交互協(xié)議，支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
沙盒化執(zhí)行環(huán)境：隔離模型推理與Lightroom操作，確保編輯流程安全可控。
異步處理機(jī)制：支持批量任務(wù)提交與后臺(tái)渲染，提升高分辨率圖像處理效率。

三、方法詳解

1. JarvisArt系統(tǒng)架構(gòu)

JarvisArt遵循“理解→推理→執(zhí)行”三階段流程：

意圖解析：MLLM解析用戶(hù)指令（如“提亮膚色并添加懷舊色調(diào)”）與源圖像，識(shí)別目標(biāo)區(qū)域（如人臉蒙版）。
戰(zhàn)略規(guī)劃：生成分步潤(rùn)飾計(jì)劃（例如：先調(diào)整白平衡→局部提亮面部→應(yīng)用漸變?yōu)V鏡）。
工具編排：將操作序列轉(zhuǎn)換為L(zhǎng)ightroom可執(zhí)行的ROC文件（Retouching Operations Configuration），自動(dòng)調(diào)用對(duì)應(yīng)工具與參數(shù)。

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

JarvisArt端到端修圖流程示意圖

2. MMArt數(shù)據(jù)集構(gòu)建

數(shù)據(jù)生成流水線包含三大階段：

源-編輯-配置樣本的生成：通過(guò)收集原始圖像并結(jié)合全局與局部藝術(shù)預(yù)設(shè)，在 Lightroom 中進(jìn)行專(zhuān)家級(jí)編輯，生成高質(zhì)量的圖像對(duì)（源圖像與編輯圖像）及詳細(xì)的修圖操作記錄，形成三元組數(shù)據(jù)。
用戶(hù)指令生成：利用多模態(tài)大模型模擬不同用戶(hù)角色（普通用戶(hù)與專(zhuān)業(yè)編輯），根據(jù)圖像內(nèi)容和編輯意圖生成多樣化、自然語(yǔ)言形式的指令，覆蓋全局風(fēng)格調(diào)整與局部區(qū)域修改。
鏈?zhǔn)剿季S數(shù)據(jù)生成：基于圖像、指令和修圖操作配置文件，使用視覺(jué)推理模型生成初步的 Chain-of-Thought（CoT）注釋?zhuān)⑼ㄟ^(guò)迭代優(yōu)化去除冗余、提升邏輯一致性，最終生成簡(jiǎn)潔且上下文相關(guān)的推理過(guò)程。

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

數(shù)據(jù)生成的pipeline

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

數(shù)據(jù)樣例

3. GRPO-R算法設(shè)計(jì)

(1) 監(jiān)督微調(diào)（SFT）階段

目標(biāo)：在50,000個(gè) Chain-of-Thought（CoT）標(biāo)注樣本上進(jìn)行監(jiān)督訓(xùn)練，使模型掌握基礎(chǔ)的推理能力、用戶(hù)意圖理解與Lightroom工具調(diào)用流程。
訓(xùn)練方式：采用自回歸語(yǔ)言建模策略，逐token生成結(jié)構(gòu)化響應(yīng)，包括推理過(guò)程??<think>??? 和最終操作指令??<answer>??。

該階段通過(guò)大量高質(zhì)量 CoT 樣本訓(xùn)練 JarvisArt 建立“理解→推理→決策”的基本流程，并確保輸出格式統(tǒng)一、可解析。

(2) 強(qiáng)化學(xué)習(xí)階段（GRPO-R）

在 SFT 階段奠定基礎(chǔ)后，引入 GRPO-R（Group Relative Policy Optimization for Retouching）算法，進(jìn)一步提升模型的推理深度、工具調(diào)用準(zhǔn)確性和視覺(jué)修圖質(zhì)量。GRPO-R 是一種基于多維獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)框架，專(zhuān)為圖像潤(rùn)飾任務(wù)定制。

獎(jiǎng)勵(lì)函數(shù)組合：

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

各獎(jiǎng)勵(lì)項(xiàng)說(shuō)明如下：

格式獎(jiǎng)勵(lì)（Rf）：確保模型輸出符合規(guī)定的結(jié)構(gòu)格式，例如正確使用<think> 和<answer> 標(biāo)簽，提升系統(tǒng)解析的穩(wěn)定性。
操作準(zhǔn)確性獎(jiǎng)勵(lì)（Rroa）：衡量模型調(diào)用圖像潤(rùn)飾工具的準(zhǔn)確程度，包括工具名稱(chēng)匹配、參數(shù)類(lèi)型一致性和數(shù)值誤差，幫助模型掌握專(zhuān)業(yè)級(jí) Lightroom 操作。
感知質(zhì)量獎(jiǎng)勵(lì)（Rpq）：評(píng)估潤(rùn)飾后圖像的視覺(jué)效果，結(jié)合顏色分布一致性與像素級(jí)相似度，確保輸出圖像質(zhì)量。

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

訓(xùn)練框架圖

4. 革命性A2L協(xié)議

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

首創(chuàng)雙向通信協(xié)議實(shí)現(xiàn)無(wú)縫集成。
用戶(hù)可隨時(shí)介入調(diào)整工作流。
標(biāo)準(zhǔn)化通信接口：定義客戶(hù)端-服務(wù)端交互協(xié)議，支持Lua腳本自動(dòng)生成與執(zhí)行狀態(tài)回傳。
沙盒化執(zhí)行環(huán)境：隔離模型推理與Lightroom操作，確保編輯流程安全可控。
異步處理機(jī)制：支持批量任務(wù)提交與后臺(tái)渲染，提升高分辨率圖像處理效率。

四、實(shí)驗(yàn)結(jié)果

1. MMArt-Bench評(píng)測(cè)霸主

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

2. 視覺(jué)效果

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

3. 用戶(hù)偏好

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

實(shí)驗(yàn)分析總結(jié)：

定量?jī)?yōu)勢(shì)：JarvisArt 在內(nèi)容保真度（L1×102）和指令遵循能力（O）上均達(dá)到行業(yè)領(lǐng)先水平，特別是在封閉源模型對(duì)比中表現(xiàn)突出。
視覺(jué)表現(xiàn)：通過(guò) Lightroom 集成工作流，JarvisArt 成功解決了競(jìng)爭(zhēng)對(duì)手常見(jiàn)的“恐怖谷”問(wèn)題，確保潤(rùn)飾結(jié)果既符合用戶(hù)意圖又保持高質(zhì)量。
用戶(hù)偏好：JarvisArt在易用性、編輯效率和整體滿(mǎn)意度方面表現(xiàn)優(yōu)異，絕大多數(shù)用戶(hù)認(rèn)為其無(wú)需技術(shù)支援即可獨(dú)立使用、操作流暢，并愿意長(zhǎng)期使用。

五、實(shí)際Gradio應(yīng)用案例

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

修圖界ChatGPT誕生！JarvisArt：解放人類(lèi)藝術(shù)創(chuàng)造力——用自然語(yǔ)言指揮200+專(zhuān)業(yè)工具-AI.x社區(qū)

六、結(jié)語(yǔ)與展望

JarvisArt重新定義了智能潤(rùn)飾的可能性：

技術(shù)范式革新：將MLLM從“指令跟隨者”升級(jí)為“藝術(shù)協(xié)作者”，推動(dòng)人機(jī)共創(chuàng)邊界。
產(chǎn)業(yè)應(yīng)用潛力：賦能攝影師、設(shè)計(jì)師提升工作效率，降低專(zhuān)業(yè)工具使用門(mén)檻。
未來(lái)方向：探索視頻潤(rùn)飾擴(kuò)展、跨軟件生態(tài)集成（如Photoshop、Capture One）。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/QAcF4nmjX8LK18Op9MzAsg??

標(biāo)簽

已于2025-7-4 17:46:18修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

【深度解析】自然語(yǔ)言生成中的“幻覺(jué)”現(xiàn)象

zhcs333 ? 4499瀏覽 ? 0回復(fù)
大模型應(yīng)用與LUI（自然語(yǔ)言交互）落地的關(guān)鍵模塊——語(yǔ)義路由實(shí)現(xiàn)總結(jié)

Syrupup ? 6108瀏覽 ? 0回復(fù)
NATURAL PLAN：LLMs在自然語(yǔ)言規(guī)劃上的基準(zhǔn)

sbf_2000 ? 3112瀏覽 ? 0回復(fù)
基于Llama 3和LangChain，使用自然語(yǔ)言進(jìn)行SQL查詢(xún)

小虎哦哦 ? 5196瀏覽 ? 0回復(fù)
大語(yǔ)言模型在不同自然語(yǔ)言處理任務(wù)中的提示工程方法綜述

sbf_2000 ? 3632瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開(kāi)發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
WordLlama：一個(gè)開(kāi)源、快速、輕量級(jí)（16MB）的自然語(yǔ)言處理工具包！

Halo咯咯 ? 3779瀏覽 ? 0回復(fù)
掌握BERT：自然語(yǔ)言處理（NLP）從初級(jí)到高級(jí)的綜合指南

石映飛云 ? 2665瀏覽 ? 0回復(fù)
ChatGPT 的創(chuàng)造力大幅提升，驚艷無(wú)比！

丟翅膀的魚(yú) ? 2034瀏覽 ? 0回復(fù)
推進(jìn)可解釋性自然語(yǔ)言生成（NLG）：技術(shù)、挑戰(zhàn)和應(yīng)用

51CTO內(nèi)容精選 ? 3139瀏覽 ? 0回復(fù)
TAG：定義自然語(yǔ)言查詢(xún)的高效解決方案

51CTO內(nèi)容精選 ? 3390瀏覽 ? 0回復(fù)
面向語(yǔ)音控制前端應(yīng)用程序的自然語(yǔ)言處理（NLP）：架構(gòu)、進(jìn)展與未來(lái)方向

51CTO內(nèi)容精選 ? 2651瀏覽 ? 0回復(fù)
深入探究編碼器 - 解碼器架構(gòu)：從RNN到Transformer的自然語(yǔ)言處理模型

AI論文解讀 ? 6146瀏覽 ? 0回復(fù)
什么是自然語(yǔ)言處理——NLP，其解決了什么問(wèn)題？

AI探索時(shí)代 ? 2937瀏覽 ? 0回復(fù)
你知道自然語(yǔ)言處理(NLP)能解決哪些問(wèn)題嗎？即自然語(yǔ)言處理任務(wù)分類(lèi)有哪些？

AI探索時(shí)代 ? 2244瀏覽 ? 0回復(fù)
六大訣竅幫你釋放擴(kuò)散模型的創(chuàng)造力

51CTO內(nèi)容精選 ? 1956瀏覽 ? 0回復(fù)
LMEDR對(duì)話模型：引入自然語(yǔ)言推理數(shù)據(jù)提升對(duì)話模型的連貫性和一致性

arnoldzhw ? 2267瀏覽 ? 0回復(fù)
在自然語(yǔ)言處理(NLP)任務(wù)中，怎么處理數(shù)據(jù)——即怎么把文字輸入到模型中進(jìn)行處理？

AI探索時(shí)代 ? 2082瀏覽 ? 0回復(fù)
技術(shù)前沿：CHASE-SQL與XiYan-SQL，解鎖自然語(yǔ)言與數(shù)據(jù)庫(kù)對(duì)話的奧秘！

Halo咯咯 ? 1858瀏覽 ? 0回復(fù)
自然語(yǔ)言理解中的詞向量發(fā)展歷史

每天五分鐘玩轉(zhuǎn)人工智能 ? 804瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

好萊塢顫抖！中國(guó)團(tuán)隊(duì)造出首個(gè)“懂電影”的AI：44萬(wàn)鏡頭庫(kù)喂出導(dǎo)演級(jí)運(yùn)鏡 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：雙殺痛點(diǎn)！布局生成圖「WinWinLay」橫空出世：精準(zhǔn)定位+逼真質(zhì)感，告別模糊與失真！

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：成人精品一区二区户外勾搭野战 | 天天弄 | 国产情侣在线看 | 久久久无码精品亚洲日韩按摩 | 日批日韩在线观看 | 国产福利精品一区 | 午夜国产羞羞视频免费网站 | 91人人爽| 精品一级电影 | 日本欧美国产在线观看 | 一区二区在线不卡 | 欧美一区二区大片 | 久久免费精品视频 | 精品九九九 | 国产精品视频一二三区 | 免费国产一区 | 亚洲欧美中文日韩在线v日本 | 国产真实乱对白精彩久久小说 | 日日夜夜天天 | 欧美一区二区三区在线 | 亚洲国产成人av好男人在线观看 | 精品一区二区三区在线观看国产 | 成人网视频 | 最近最新中文字幕 | 精品视频在线观看 | 91精品国产综合久久福利软件 | 国产精品毛片av一区 | 视频一区二区在线 | 青青草原综合久久大伊人精品 | 国产在线一区二 | 99久久影院| 一区二区三区视频在线 | 久久99久久| 老司机67194精品线观看 | 激情的网站| 国产成人黄色 | 国产69精品久久久久777 | 99久久精品免费看国产四区 | 亚洲69p| 东方伊人免费在线观看 | 欧美成人精品 |

<option id="gy668"><tr id="gy668"></tr></option>

<button id="gy668"><em id="gy668"></em></button>

<table id="gy668"></table>