成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

罕見!蘋果開源圖片編輯神器MGIE,要上iPhone?

人工智能 新聞
結合蘋果在近段時間發布的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要發布的新 AI 功能了。

拍張照片,輸入文字指令,手機就開始自動修圖?

這一神奇功能,來自蘋果剛剛開源的圖片編輯神器「MGIE」。

圖片

把背景中的人移除

圖片

在桌子上添加披薩

最近一段時間,AI 在圖片編輯這一應用上取得了不小的進展。一方面,在 LLM 的基礎上,多模態大模型(MLLM)可以自然地將圖像視為輸入,并提供視覺感知響應。另一方面,基于指令的編輯技術可以不依賴于詳細描述或區域掩碼,而是允許人類下達指令,直接表達如何編輯以及編輯圖像的哪個方面。這種方法極具實用性,因為這種引導更符合人類的直覺。

基于上述技術的啟發,蘋果提出了 MGIE(MLLM-Guided Image Editing),將 MLLM 用于解決指令引導不足的問題。

圖片

  • 論文標題:Guiding Instruction-based Image Editing via Multimodal Large Language Models
  • 論文鏈接:https://openreview.net/pdf?id=S1RKWSyZ2Y
  • 項目主頁:https://mllm-ie.github.io/

如圖 2 所示,MGIE 由 MLLM 和擴散模型組成。MLLM 通過學習獲得簡明的表達指令,并提供明確的視覺相關引導。通過端到端訓練,擴散模型會同步更新,并利用預期目標的潛在想象力執行圖像編輯。這樣,MGIE 就能從固有的視覺推導中獲益,并解決模糊的人類指令,從而實現合理的編輯。

圖片

在人類指令的引導下,MGIE 可進行 Photoshop 風格的修改、全局照片優化和局部對象修改。以下圖為例,在沒有額外語境的情況下,很難捕捉到「健康」的含義,但 MGIE 可以將「蔬菜配料」與披薩精確地聯系起來,并按照人類的期望進行相關編輯。

圖片

這讓我們想起,庫克前不久在財報電話會議上表達的「雄心壯志」:「我認為蘋果在生成式 AI 方面存在著巨大的機會,但我不想談更多細節。」他透露的信息包括,蘋果正在積極開發生成式 AI 軟件功能,且這些功能在 2024 年晚些時候就能向客戶提供。

結合蘋果在近段時間發布的一系列生成式 AI 理論研究成果,看來我們期待一下蘋果接下來要發布的新 AI 功能了。

論文細節

該研究提出的 MGIE 方法能夠通過給定的指令 X 將輸入圖片 V 編輯為目標圖片 圖片。對于那些不精確的指令,MGIE 中的 MLLM 會進行學習推導,從而得到簡潔的表達指令 ε。為了在語言和視覺模態之間架起橋梁,研究者還在 ε 之后添加了特殊的 token [IMG],并采用編輯頭(edit head)圖片對它們進行轉換。轉換后的信息將作為 MLLM 中的潛在視覺想象,引導擴散模型圖片實現預期的編輯目標。然后,MGIE 能夠理解具有視覺感知的模糊命令,從而進行合理的圖像編輯(架構圖如上圖 2 所示)。

簡潔的表達指令

通過特征對齊和指令調整,MLLM 能夠跨模態感知提供與視覺相關的響應。對于圖像編輯,該研究使用提示「what will this image be like if [instruction]」作為圖像的語言輸入,并導出編輯命令的詳細解釋。然而,這些解釋往往過于冗長、甚至誤導了用戶意圖。為了獲得更簡潔的描述,該研究應用預訓練摘要器讓 MLLM 學習生成摘要輸出。這一過程可以總結為如下方式:

圖片

 通過潛在想象進行圖片編輯

該研究采用編輯頭 圖片將 [IMG] 轉化為實際的視覺引導。其中 圖片 是一個序列到序列模型,它將來自 MLLM 的連續視覺 tokens 映射到語義上有意義的潛在 U = {u_1, u_2, ..., u_L} 并作為編輯引導:

圖片

為了實現通過視覺想象 U 引導圖像編輯這一過程,該研究考慮使用擴散模型圖片,該模型在包含變分自動編碼器(VAE)的同時,還能解決潛在空間中的去噪擴散問題。

圖片

算法 1 展示了 MGIE 學習過程。MLLM 通過指令損失 L_ins 導出簡潔指令 ε。借助 [IMG] 的潛在想象,圖片轉變其模態并引導 圖片合成結果圖像。編輯損失 L_edit 用于擴散訓練。由于大多數權重可以被凍結(MLLM 內的自注意力塊),因而可以實現參數高效的端到端訓練。 

圖片

實驗評估

對于輸入圖片,在相同的指令下,不同方法之間的比較,如第一行的指令是「把白天變成黑夜」:

圖片

表 1 顯示了模型僅在數據集 IPr2Pr 上訓練的零樣本編輯結果。對于涉及 Photoshop 風格修改的 EVR 和 GIER,編輯結果更接近引導意圖(例如,LGIE 在 EVR 上獲得了更高的 82.0 CVS)。對于 MA5k 上的全局圖片優化,由于相關訓練三元組的稀缺,InsPix2Pix 很難處理。LGIE 和 MGIE 可以通過 LLM 的學習提供詳細的解釋,但 LGIE 仍然局限于其單一的模態。通過訪問圖像,MGIE 可以得出明確的指令,例如哪些區域應該變亮或哪些對象更加清晰,從而帶來顯著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距離),在 MagicBrush 上也發現了類似的結果。MGIE 還從精確的視覺想象中獲得最佳性能,并修改指定目標作為目標(例如,更高的 82.2 DINO 視覺相似度和更高的 30.4 CTS 全局字幕對齊)。

圖片

為了研究針對特定目的的基于指令的圖像編輯,表 2 對每個數據集上的模型進行了微調。對于 EVR 和 GIER,所有模型在適應 Photoshop 風格的編輯任務后都獲得了改進。MGIE 在編輯的各個方面始終優于 LGIE。這也說明了使用表達指令進行學習可以有效地增強圖像編輯,而視覺感知在獲得最大增強的明確引導方面起著至關重要的作用。

圖片

α_X 和 α_V 之間的權衡。圖像編輯有兩個目標:操作作為指令的目標和保留作為輸入圖像的剩余部分。圖 3 顯示了指令 (α_X) 和輸入一致性 (α_V) 之間的權衡曲線。該研究將 α_X 固定為 7.5,α_V 在 [1.0, 2.2] 范圍內變化。α_V 越大,編輯結果與輸入越相似,但與指令的一致性越差。X 軸計算的是 CLIP 方向相似度,即編輯結果與指令的一致程度;Y 軸是 CLIP 視覺編碼器與輸入圖像的特征相似度。通過具體的表達指令,實驗在所有設置中都超越了 InsPix2Pix。此外, MGIE 還能通過明確的視覺相關引導進行學習,從而實現全面提升。無論是要求更高的輸入相關性還是編輯相關性,這都支持穩健的改進。

圖片

消融研究

除此以外,研究者還進行了消融實驗,考慮了不同的架構 FZ、FT 以及 E2E 在表達指令上的性能 。結果表明,在 FZ、FT、E2E 中,MGIE 持續超過 LGIE。這表明具有關鍵視覺感知的表達指令在所有消融設置中始終具有優勢。

圖片

為什么 MLLM 引導有用?圖 5 顯示了輸入或 ground-truth 目標圖像與表達式指令之間的 CLIP-Score 值。輸入圖像的 CLIP-S 分數越高,說明指令與編輯源相關,而更好地與目標圖像保持一致可提供明確、相關的編輯引導。如圖所示,MGIE 與輸入 / 目標更加一致,這就解釋了為什么其表達性指令很有幫助。有了對預期結果的清晰敘述,MGIE 可以在圖像編輯方面取得最大的改進。

圖片

人工評估。除了自動指標外,研究者還進行了人工評估。圖 6 顯示了生成的表達指令的質量,圖 7 對比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相關性和整體質量方面的圖像編輯結果。

圖片

推理效率。盡管 MGIE 依靠 MLLM 來推動圖像編輯,但它只推出了簡明的表達式指令(少于 32 個 token),因此效率與 InsPix2Pix 不相上下。表 4 列出了在英偉達 A100 GPU 上的推理時間成本。對于單個輸入,MGIE 可以在 10 秒內完成編輯任務。在數據并行化程度更高的情況下,所需的時間也差不多(當批大小為 8 時,需要 37 秒)。整個過程只需一個 GPU(40GB)即可完成。

圖片

定性比較。圖 8 展示了所有使用數據集的可視化對比,圖 9 進一步對比了 LGIE 或 MGIE 的表達指令。

圖片

圖片

在項目主頁中,研究者還提供了更多 demo(https://mllm-ie.github.io/)。更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-02-05 13:34:16

模型訓練

2024-02-08 09:33:37

蘋果AI

2023-12-01 08:09:45

開源圖片編輯器

2012-05-07 17:59:02

蘋果

2018-08-30 15:27:14

蘋果Mesa數據中心

2013-09-22 15:47:23

蘋果iPhone

2021-06-11 15:22:39

蘋果 iOS系統

2019-08-29 08:55:52

iPhone蘋果改名

2015-08-04 10:22:45

網絡空間安全國家網絡安全

2020-03-04 10:54:54

開源技術 數據

2023-03-28 22:54:40

2019-08-20 09:23:15

Apple PenciiPhone蘋果

2022-06-26 18:09:43

Linux開源

2011-10-03 22:28:39

蘋果iPhone 5iOS 5

2021-07-28 15:59:09

蘋果 iOS系統

2024-05-22 09:36:42

開源NET

2019-05-06 13:39:49

蘋果iPhone蘋果客服

2023-06-25 14:55:28

編輯圖片鴻蒙

2019-09-11 09:36:10

蘋果芯片系統

2011-06-03 09:41:22

蘋果iPhoneiPad
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线观看视频一区 | 狠狠狠干| 污污的网站在线观看 | 希岛爱理在线 | 日日天天| 91www在线观看 | 97精品超碰一区二区三区 | 久久精品国产一区二区三区 | 国产福利91精品一区二区三区 | 亚洲欧美一区二区三区在线 | 国产欧美精品一区二区三区 | 国产一区二区三区在线 | 综合久久综合久久 | 在线免费观看黄色网址 | 午夜羞羞| 四虎成人精品永久免费av九九 | 亚洲精品一区二区三区蜜桃久 | 欧美色综合一区二区三区 | 日韩欧美中文字幕在线观看 | 国内自拍视频在线观看 | 欧美一级片免费看 | 欧美日韩国产精品一区 | 在线观看免费高清av | 亚洲视频一区二区三区 | 亚洲综合二区 | 国产在线一区观看 | 国产精品一二区 | 手机在线不卡av | 一二三区在线 | 97日韩精品 | 在线观看国产精品视频 | 91综合在线视频 | 欧美午夜精品 | 成人性生交a做片 | 国产一级片在线观看视频 | 国产不卡视频在线 | 欧美中文字幕一区二区三区亚洲 | 欧美成人精品一区二区男人看 | 欧美激情精品久久久久久免费 | 亚洲首页| 欧美日韩精品一区 |