成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一 精華

發布于 2025-1-2 13:45
瀏覽
0收藏

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

文章鏈接:https://arxiv.org/pdf/2412.19806
項目鏈接:https://vitron-llm.github.io/
Github鏈接:https://github.com/SkyworkAI/Vitron

亮點直擊

  • 首次提出了一種通用的視覺多模態大語言模型(MLLM)——VITRON,能夠在像素級對圖像和視頻進行理解、生成、分割和編輯。
  • 引入了一種更高效的LLM到解碼器的指令傳遞機制,結合了離散文本和連續信號嵌入。
  • 提出了針對多模態大語言模型的像素級視覺語言時空對齊學習,使其能夠達到最優的細粒度視覺能力。
    設計了一種協同模塊,最大化任務持久的細粒度視覺特征在所有不同視覺任務之間的共享能力,通過此機制,VITRON的性能超越了現有的最先進(SoTA)專業模型。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

總結速覽

解決的問題

  • 多模態大語言模型(MLLMs)在支持多任務方面缺乏統一性,特別是圖像和視頻的聯合處理能力不足。
  • 模型在細粒度像素級理解上存在局限,無法實現高精度的視覺區域定位與編輯。
  • 視覺功能單一,難以支持從視覺理解到生成、分割、編輯等全方位任務。
  • 多任務間存在協作性不足,任務間可能互相影響,難以實現統一優化。

**提出的方案 **

  • 統一架構設計:VITRON 采用基于 LLM 的框架,前端集成圖像、視頻和像素級區域視覺編碼器,后端結合最先進的圖像與視頻模塊,支持視覺理解、生成、分割和編輯等多任務。
  • 混合指令傳遞方法:結合離散文本指令與連續信號嵌入,確保 LLM 決策能夠精確傳遞到后端模塊。
  • 跨任務協作模塊:通過增強任務不變的細粒度視覺特征共享,提升不同視覺任務間的協同能力。
  • 精細化像素級時空對齊學習:設計基于像素的視覺語言對齊與時空預測調優,增強模型的細粒度視覺感知能力。
  • 對抗訓練:將任務特定特征與任務不變特征解耦,提升跨任務間的表現穩定性。

應用的技術

  • 視覺-語言對齊學習:通過前端編碼器與 LLM 的對齊優化,實現視覺與語言模態的深度協同。
  • 任務調用定向調優:訓練 LLM 以更好地生成適合后端模塊的調用指令。
  • 嵌入對齊調優:優化 LLM 與后端模塊間的信號嵌入對齊,提高信息傳遞精度。
  • 多模態協作訓練:融合像素級感知與時空預測,通過細粒度感知與對抗學習實現任務間協同優化。

達到的效果

  • 在圖像和視頻任務上實現了真正的統一支持,從靜態圖像到動態視頻均表現出色。
  • 覆蓋 12 項視覺任務,基于 22 個數據集的實驗表明,VITRON 在多任務性能上與專用的單任務模型相媲美,甚至超越了某些任務的最優模型。
  • 實現了從視覺理解到生成、分割、編輯等全流程的高效支持,展現了卓越的多模態通用能力。
  • 模型設計的各項組件通過分析驗證了其有效性,為未來多模態模型的進一步發展提供了參考。

VITRON架構

VITRON采用了現有流行多模態大語言模型(MLLMs)中最常見的“編碼器-LLM-解碼器”架構范式。整體框架如下圖2所示,包含三個關鍵模塊:

  1. 前端視覺和語言編碼器;
  2. 用于語義理解和文本生成的中心LLM;
  3. 后端解碼器模塊,用于用戶響應和視覺操作。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

前端視覺-語言編碼

對于圖像和視頻,分別使用CLIP ViT-L/14@336px作為編碼器。視頻編碼器獨立處理每一幀,并通過在時間維度上進行平均池化來生成整體的時間表示特征。隨后,采用區域像素感知視覺提取器作為草圖編碼器,用于用戶交互(如點擊、繪制框或多邊形、涂鴉)。主要參考[125],使用來自用戶輸入的mask區域的基于對象的表示,這不僅編碼了像素級視覺特征,還收集了每個區域的空間位置信息。這些區域特征與對象區域的二進制空間幾何掩膜一起進行池化,生成的嵌入特征被使用。隨后,這些多模態特征表示通過線性投影傳遞給LLM。

核心LLM

在VITRON中,LLM作為核心代理。遵循最常見的實踐 [15, 94, 128],使用Vicuna(7B,版本1.5)。LLM處理來自語言和視覺模態的輸入,以執行語義理解和推理,然后做出決策。對于視覺理解任務,LLM直接為用戶輸出文本響應。同時,LLM還需向后端模塊傳遞信號和指令,引導其執行超越文本生成的更復雜任務,例如視覺分割、生成和編輯。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

正如前文所強調的,LLM有效、精確傳遞信息的能力對復雜多模態任務的性能至關重要。本文提出了充分結合兩種常見信息傳遞方法的優點:離散文本指令和連續信號嵌入。前者有助于準確調用不同的后端模塊(得益于LLM在任務調度中的能力),而后者補充了無法通過離散文本直接描述的豐富模態保留視覺特征。如前面圖2所示,LLM輸出以下內容:

  • 用戶的文本響應;
  • 模塊調用的文本指令;
  • 特殊token的特征嵌入。

特征嵌入分為任務特定特征和任務不變的細粒度視覺-語言特征。這些文本指令和特征嵌入被傳遞給后端模塊。

后端視覺專家

為了使MLLM具備多種視覺任務能力,將一系列獨立的視覺專家集成到LLM中。

  • 對于圖像生成和編輯,集成了基于擴散模型的GLIGEN。
  • 對于圖像和視頻分割,選擇了SEEM。
  • 對于視頻生成,分別使用ZeroScope和I2VGen-XL處理文本到視頻和圖像到視頻任務。
  • 最后,對于視頻編輯功能,集成了StableVideo。

LLM的文本指令首先確定調用哪個任務模塊;同時,特征嵌入被傳遞給對應模塊的特征編碼器,以協助任務執行。特別設計了一種結構化調用模板,包括:

  • 模塊名稱;
  • 調用命令;
  • 區域(可選),用于特定任務需要的細粒度視覺特征。

特征嵌入包括任務特定特征和任務不變的細粒度特征。這一設計旨在實現特征解耦,并盡可能廣泛地在所有任務中共享任務不變的細粒度特征,以促進不同任務之間的協同作用。

像素感知的協同視覺-語言理解調優

通過VITRON框架,在訓練中設置了三個階段的目標:首先賦予模型基本的多模態能力(理解和生成);接著進行精細化的視覺定位指令調優,增強模型的像素級感知能力;最后執行跨任務協同學習,最大化所有任務之間共享的細粒度特征。

基本多模態理解與生成技能訓練

在訓練的第一階段,主要目標是為MLLM賦予基本的多模態理解和生成能力,包括前端的編碼器與LLM對齊以及后端的LLM與解碼器對齊。使用了以下三種訓練方法:

  • 總體視覺-語言對齊學習
    這一過程旨在確保輸入的視覺和語言特征被映射到統一的特征空間中。遵循先前的通用實踐,利用包含“圖像-描述”對(如CC3M)、“視頻-描述”對(如Webvid)、以及“區域-描述”對(如RefCOCO)的數據集。在輸入圖像、視頻或特定視覺區域時,調用凍結的LLM生成與參考描述一致的文本描述或標題。
  • 文本調用指令調優
    此訓練步驟的目的是讓系統具備精準執行指令的能力,使LLM能夠生成適當且正確的調用文本指令。為此,收集了總計55,000+的指令調優樣本。
  • 面向嵌入的解碼器對齊調優
    除了使用顯式的文本指令調用下游模塊外,還需要將信號特征嵌入(來自LLM)輸入到模塊中。參考[114],通過解碼側投影層對齊特征嵌入與所有視覺模塊輸入編碼器,即通過最小化特征距離來實現對齊。

精細化時空視覺定位指令調優

一個通用的視覺模型需要具備像素感知的視覺理解能力,適用于圖像和視頻。因此,為VITRON提出了精細化的時空視覺定位指令調優。核心思想是使LLM能夠定位圖像的精細空間性以及視頻的詳細時間性。提供了以下三個學習方面:

  • 圖像空間定位
    考慮到LLM本身只能輸出文本,設計了響應機制,使其生成相應的邊界框區域。關注兩類任務:定位圖像描述和參照圖像分割。
  • 視頻時空定位
    對于視頻,LLM需要識別空間區域并在視頻的時間上下文中對其進行定位,本質上是實現視頻追蹤。類似地,探索了定位視頻描述和參照視頻追蹤等任務。
  • 基于定位的視覺問答 (Grounding-aware Vision QA)上述定位任務僅觸及視覺感知的低層次方面。然而,在許多場景下,要求LLM具備更高階、深入的視覺推理能力,這需要建立在基礎的像素級定位能力之上。因此,我們進一步引入了基于定位的視覺問答(Grounding-aware Vision QA),包括圖像問答(Image-QA)和視頻問答(Video-QA)。通過這些任務,LLM能夠在已定位的結果基礎上進行語義層次的問答。

跨任務協同學習

作為通用模型,直接調用不同的專家模塊會引發一個關鍵問題:如何確保不同模塊(任務)之間協同工作?如果沒有這種協作,將它們整合到一個復合系統中將毫無意義。為了解決這個問題,提出將信號特征嵌入分解為任務特定特征任務無關的細粒度特征

直觀上,由于所有視覺任務都是細粒度的,任務無關的細粒度特征在不同任務之間共享得越廣泛,各任務之間的互惠性就越強,從而獲得更大的協同效應。因此,引入了一個跨任務協同學習模塊,如下圖3所示。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

對抗訓練用于特征解耦
采用對抗訓練來解耦任務特定特征和任務無關特征。具體而言,首先讓不同的視覺專家骨干網絡根據這兩類特征(通過拼接)進行任務預測。同時,引入一個第三方判別器(充當分類器),僅基于共享特征表征來判斷當前任務是哪一類。

理想情況下,一旦判別器無法準確識別任務類型,說明共享特征已經被最大程度純化,并且可以廣泛應用于各個任務之間,從而實現真正的跨任務協同效應。

實驗

現在嘗試量化 VITRON 在四個視覺任務組上的性能,這些任務覆蓋了 12 個任務和 22 個數據集。所有 VITRON 的訓練均在 10×A100 (80G) GPU 上進行。為了確保公平比較,所有后續實驗均采用與基線系統相同或相似的設置,并按照既定實踐進行評估。

視覺分割結果

圖像分割
下表 2 顯示了在三個數據集 RefCOCO、RefCOCO+ 和 RefCOCOg 上的圖像分割結果。與多個重要模型進行了比較,包括最新的非 MLLM 方法以及 MLLM 基線模型 NExT-Chat。顯然,盡管 VITRON 在 RefCOCO Val 和 TestA 數據集上略遜于 NExT-Chat,但在其余數據集上表現優越。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

視頻分割
對于視頻分割,我們研究了兩個任務:視頻空間定位(帶邊界框)和視頻目標分割(又稱視頻跟蹤,帶掩碼)。下表 3 展示了 VITRON 與當前最先進(SoTA)視頻 MLLM 在視頻空間定位任務上的比較。可以看出,VITRON 顯著優于 PG-Video-LLaVA。下表 4 顯示了 VITRON 與一些 SoTA 系統在視頻跟蹤任務上的比較,其中我們的系統繼續表現出卓越的性能。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

細粒度視覺理解結果

接下來,我們評估 VITRON 在細粒度視覺理解任務中的能力,主要關注圖像和視頻的區域級任務。

區域級圖像理解我們在圖像指代表達理解和圖像區域描述等任務上測試了 VITRON。表 5 中的比較和結果表明,VITRON 在多個數據集和指標上超越了最佳基線模型,證明其在圖像細粒度語義理解上的強大和準確性。

上述兩個任務僅關注模型在區域級別上的識別能力。進一步地,我們深入評估了模型對圖像語義理解的能力,特別是通過基于圖像的視覺問答(VQA)任務。這些任務能夠有效反映模型對圖像深層語義內容的理解能力。下表 6 顯示了基于圖像的 VQA 在六個數據集上的結果。主要比較了兩組模型:一組具有像素級視覺對齊能力,另一組沒有。結果表明,具備細粒度對齊能力的模型在任務性能上表現更強,這表明細粒度對齊有助于更深入的語義理解。值得注意的是,VITRON 在評估的模型中表現出最高的性能。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

區域級視頻理解同樣地,對于視頻,我們評估了區域級視頻理解能力。在圖像觀察的基礎上,我們直接進行了視頻問答(QA)任務。下表 7 展示了在四個代表性數據集上的視頻 QA 結果。有趣的是,雖然 PG-Video-LLaVA 具有視頻對齊能力,但其表現并未優于缺乏對齊能力的 Video-LLaVA。然而,VITRON 實現了更優異的性能。這間接證明了我們的系統具備更準確的視頻對齊能力(如下表 8 所示),從而促進了更好的視頻語義理解。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

視覺生成結果

本文評估了系統在視覺生成任務中的能力,重點關注三種最具代表性的生成任務類型:文本生成圖像(text-to-image generation)、文本生成視頻(text-to-video generation)和圖像生成視頻(image-to-video generation)。這些任務廣泛覆蓋了圖像生成的需求。下表 8、表 9 和表 10 展示了 VITRON 與其他最新技術(SoTA)系統的比較結果,包括 MLLM 和非 MLLM 的生成器。結果清楚地表明,VITRON 在所有三種任務中均表現優異。例如,在文本生成圖像和文本生成視頻任務中,VITRON 的性能優于 NExT-GPT。同樣,在圖像生成視頻任務中,VITRON 超越了 SoTA 基線 VideoCrafter1,展現了更出色的結果。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

視覺編輯結果

圖像編輯
使用了 MagicBrush 數據集,該數據集通過需要一系列復雜編輯操作的查詢挑戰模型。這些編輯操作包括移除、更改、修復和添加元素。目前尚無支持圖像編輯的 MLLM 系統,因此我們的比較僅限于非 LLM 的專業系統。下表 11 展示了不同模型在各種指標上的表現。VITRON 在所有指標上均表現更強,表明其在圖像編輯任務中的穩定能力。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

視頻編輯
對于視頻編輯,當前社區缺乏像圖像編輯那樣的標準化基準和評估方法。因此,選擇了手動評估方法。要求不同的視頻編輯系統基于相同的查詢編輯相同的視頻,之后五位評審員對編輯過的視頻進行評分。評估主要關注 1) 目標內容修改的成功與否,2) 非目標內容的忠實度/保真度。下表 12 展示了視頻編輯的手動評估結果。顯然,VITRON 在這兩個方面均優于兩個基線系統,展示了卓越的視頻編輯能力。隨后,可視化了 VITRON 視頻編輯的過程。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

討論

本文通過廣泛的定量比較展示了 VITRON 的整體效能。現在進一步探討系統如何以及為何能夠進步,通過深入分析進行探索。

離散文本指令還是連續信號嵌入,哪種更優?
首先,我們探索了不同的消息傳遞機制,以確定離散文本指令是否更有利,或者連續信號嵌入是否更適合構建多模態通用模型。同時,我們驗證了所提出的混合消息傳遞方法的優缺點。在 6 個任務上進行測試,比較了使用混合方法(默認設置)、沒有信號嵌入和沒有文本指令的 VITRON 任務表現,以及后端任務模塊的成功執行率。下圖 4 展示了結果。如圖所示,整體上,使用這兩種方法的場景性能始終更好,這證實了我們的混合模式的有效性。同時,我們發現文本指令的方法更有利于后端模塊的成功執行,但軟特征嵌入似乎在特定任務表現方面更有用。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

每種精細視覺對齊學習的貢獻有多大?
接下來,驗證了在中提出的不同精細視覺對齊學習策略的具體貢獻。圖 5(頂部的 4 個與圖像任務相關,底部的 4 個與視頻任務相關)展示了當移除某個學習策略時對性能的影響。總體而言,這 3 種精細視覺對齊學習策略對不同的下游任務至關重要。例如,對齊和引用分割任務直接影響精細視覺識別任務,而針對對齊的視覺問答調優則顯著提升認知層次的問答任務。這驗證了我們提出的精細視覺對齊調優策略的有效性。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

VITRON 是否真的實現了跨任務協同?
最后,探討了本文的系統是否能夠充分支持跨任務協同。根據表 2 至表 12 中關于“協同模塊”消融實驗的結果,我們可以觀察到協同學習機制確實對整體性能產生了積極影響。在下圖 6 中,進一步研究了不同任務之間是否存在協同作用及其合作關系。為了便于研究,考慮了任務之間的一對一映射關系,逐一研究任務對之間的合作。顯然,不同任務之間的合作效應有所不同。那些更加依賴精細視覺特征的任務或骨干模塊獲得了更顯著的改進。這也證明了協同學習模塊可以成功促進跨任務協同。

NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一-AI.x社區

結論

VITRON,一種統一的像素級視覺大語言模型,能夠無縫理解(感知和推理)、生成、分割(對齊和追蹤)以及編輯(修補)圖像和視頻。進一步介紹了一種新的混合消息傳遞方法,結合了離散文本指令和連續信號嵌入,以確保精確的功能調用。此外,VITRON 采用像素級時空視覺-語言對齊來增強其精細視覺能力。同時,開發了跨任務協同模塊,以優化任務無關的精細視覺特征的使用,提升各類視覺任務之間的協同作用。在 22 個數據集上的 12 個視覺任務中,VITRON 展現了在視覺分割、精細視覺理解、生成和編輯等方面的廣泛能力。總體而言,本研究展示了構建一個視覺-語言通用系統的巨大潛力,推動向更統一的人工智能邁進。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/6nlSB-hPlXG0__BlZtzYlw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲自拍偷拍av | 国产高清视频一区 | 欧美性久久| 日韩网站在线 | 91在线看视频| 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 成人免费区一区二区三区 | 国产区免费视频 | 91超碰在线 | 狠狠艹| 精品亚洲一区二区三区 | 国产www. | 日韩三级在线 | 亚洲欧美综合 | 国产一区二区久久久 | 中文区中文字幕免费看 | 精品九九 | 久久精品国产一区二区 | 国产在线精品一区二区 | 亚洲视频免费在线播放 | xx性欧美肥妇精品久久久久久 | 91亚洲精华国产 | 91av导航| 在线欧美一区二区 | 日日摸天天添天天添破 | 欧美日韩在线不卡 | 女人毛片a毛片久久人人 | 蜜月va乱码一区二区三区 | 日日av | 国产高清精品一区二区三区 | 精品成人在线 | 在线婷婷 | 亚洲国产精品一区二区第一页 | 亚洲欧美中文日韩在线v日本 | 欧美成人精品一区二区男人看 | 成人国产精品久久久 | 一级片网站视频 | 青春草91 | 欧美日韩精品一区 | 久久久精品一区 | 亚洲精品美女视频 |