成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

把圖像視為外語,快手、北大多模態大模型媲美DALLE-3

人工智能 新聞
動態視覺分詞統一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態理解與生成任務。

當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領域取得了顯著進展,能夠理解和生成復雜的文本內容。但你是否想過,如果能夠將大語言模型這強大的理解和生成能力遷移到多模態數據上,就可以輕松理解海量的圖像與視頻,并輔助創作圖文并茂的內容。近期,來自快手和北大合作的最新多模態大模型 LaVIT, 正在讓這個想法逐步變為現實。

圖片


  • 論文標題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
  • 論文地址:https://arxiv.org/abs/2309.04669
  • 代碼模型地址:https://github.com/jy0205/LaVIT

模型總覽

LaVIT 作為一個新型的通用多模態基礎模型,可以像語言模型那樣,既能夠理解也能生成視覺內容。LaVIT 繼承了大語言模型成功的訓練范式,即以自回歸的方式預測下一個圖像或文本 token。在訓練完成后,其可以充當一個多模態通用接口,無需進一步的微調,就可以執行多模態理解和生成任務。例如,LaVIT 具有以下的能力:

實現高質量文本到圖像的生成:LaVIT 能夠根據給定的文本提示生成高質量、多種縱橫比和高美感的圖像。其圖像生成能力與最先進的圖像生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。

根據多模態提示進行圖像生成:由于在 LaVIT 中,圖像和文本都被統一表示為離散化的 token,因此其可以接受多種模態組合(例如文本、圖像 + 文本、圖像 + 圖像)作為提示,生成相應的圖像,而無需進行任何微調。

理解圖像內容并回答問題:在給定輸入圖像的情況下,LaVIT 能夠閱讀圖像內容并理解其語義。例如,模型可以為輸入的圖像提供 caption 并回答相應的問題。

圖片

方法概覽

LaVIT 的模型結構如下圖所示,其整個優化過程包括兩個階段:

圖:LaVIT 模型的整體架構

階段 1: 動態視覺分詞器

為了能夠像自然語言一樣理解和生成視覺內容,LaVIT 引入了一個設計良好的視覺分詞器,用于將視覺內容(連續信號)轉換為像文本一樣的 token 序列,就像 LLM 能夠理解的外語一樣。作者認為,為了實現統一視覺和語言的建模,該視覺分詞器 (Tokenizer) 應該具有以下兩個特性:

  1. 離散化:視覺 token 應該被表示為像文本一樣的離散化形式。這樣對于兩種模態采用統一的表示形式,有利于 LaVIT 在一個統一的自回歸生成式訓練框架下,使用相同的分類損失進行多模態建模優化。
  2. 動態:與文本 token 不同的是,圖像 patch 之間有著顯著的相互依賴性,這使得從其他圖像 patch 中推斷另一個 patch 相對簡單。因此,這種依賴性會降低原本 LLM 的 next-token prediction 優化目標的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗余性,其根據不同圖像語義復雜度的不同,編碼出動態的視覺 token 數量。這樣對于復雜程度不同的圖像,采用動態的 token 編碼也進一步提高了預訓練的效率,避免了冗余的 token 計算。

下圖是 LaVIT 所提出的視覺分詞器結構:

圖片

圖:(a) 動態視覺 token 生成器 (b) token 合并器

該動態視覺分詞器包括 token 選擇器和 token 合并器。如圖所示, token 選擇器用來選擇最具信息的圖像區塊,而 token 合并器則將那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上,實現對冗余 token 的 merging。整個動態視覺分詞器則通過最大限度地重構輸入圖像的語義進行訓練。

Token 選擇器

Token 選擇器接收 N 個圖像區塊級的特征作為輸入,其目標是評估每個圖像區塊的重要性并選擇信息量最高的區塊,以充分代表整個圖像的語義。為實現這一目標,采用輕量級模塊,由多個 MLP 層組成,用于預測分布 π。通過從分布 π 中采樣,生成一個二進制決策 mask,用于指示是否保留相應的圖像區塊。

Token 合并器

Token 合并器據生成的決策掩碼,將 N 個圖像區塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丟棄 X_d 不同,token 合并器可以最大限度地保留輸入圖像的詳細語義。token 合并器由 L 個堆疊的塊組成,每個塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中, X_r 中的每個 token 只關注其前面的 token,以確保與 LLM 中的文本 token 形式一致。與雙向自注意相比,這種策略表現更好。交叉注意力層將保留的 token X_r 作為 query,并根據它們在語義上的相似性合并 X_d 中的 token。

階段 2: 統一的生成式預訓練

經過視覺分詞器處理后的視覺 token 與文本 token 相連接形成多模態序列作為訓練時的輸入。為了區分兩種模態,作者在圖像 token 序列的開頭和結尾插入了特殊 token :[IMG] 和 [/IMG],用于表示視覺內容的開始和結束。為了能夠生成文本和圖像,LaVIT 采用兩種圖文連接形式:[image, text] 和 [text; image]。

對于這些多模態輸入序列,LaVIT 采用統一的、自回歸方式來直接最大化每個多模態序列的似然性進行預訓練。這樣在表示空間和訓練方式上的完全統一,有助于 LLM 更好地學習多模態交互和對齊。在預訓練完成后,LaVIT 具有感知圖像的能力,可以像處理文本一樣理解和生成圖像。

實驗

零樣本多模態理解

LaVIT 在圖像字幕生成(NoCaps、Flickr30k)和視覺問答(VQAv2、OKVQA、GQA、VizWiz)等零樣本多模態理解任務上取得了領先的性能。

圖片

表 1 零樣本的多模態理解任務評估

零樣本多模態生成

在這個實驗中,由于所提出的視覺 tokenizer 能夠將圖像表示為離散化 token,LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成圖像的能力。作者對模型進行了零樣本文本條件下的圖像合成性能的定量評估,比較結果如表 2 所示。

圖片

表 2 不同模型的零樣本文本到圖像生成性能

從表中可以看出,LaVIT 的表現優于所有其他多模態語言模型。與 Emu 相比,LaVIT 在更小的 LLM 模型上取得了進一步改進,展現了出色的視覺 - 語言對齊能力。此外,LaVIT 在使用更少的訓練數據的情況下,實現了與最先進的文本到圖像專家 Parti 可比的性能。

多模態提示圖像生成

LaVIT 能夠在無需進行任何微調的情況下,無縫地接受多種模態組合作為提示,生成相應的圖像,而無需進行任何微調。LaVIT 生成的圖像能夠準確反映給定多模態提示的風格和語義。而且它可以通過輸入的多模態提示修改原始輸入圖像。在沒有額外微調的下游數據的情況下,傳統的圖像生成模型如 Stable Diffusion 無法達到這種能力。

圖片

多模態圖像生成結果的示例

定性分析

如下圖所示,LaVIT 的動態分詞器可以根據圖像內容動態選擇最具信息量的圖像塊,學習到的代碼本可以產生具有高層語義的視覺編碼。

圖片

動態視覺分詞器(左)和學習到的 codebook(右)的可視化

總結

LaVIT 的出現為多模態任務的處理又提供了一種創新范式,通過使用動態視覺分詞器將視覺和語言表示為統一的離散 token 表示,繼承了 LLM 成功的自回歸生成學習范式。通過在統一生成目標下進行優化,LaVIT 可以將圖像視為一種外語,像文本一樣理解和生成它們。這一方法的成功為未來多模態研究的發展方向提供了新的啟示,利用 LLM 強大的推理能力,實現更智能、更全面的多模態理解和生成打開新的可能性。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-20 13:18:46

模型多模態體系

2025-02-18 09:10:00

2023-11-29 15:00:00

數據訓練

2025-01-08 08:21:16

2025-06-09 08:50:00

2024-07-16 13:18:36

2024-08-13 15:00:00

大模型提示學習

2024-10-24 23:37:33

2025-02-07 11:00:00

模型開源AI

2021-01-18 15:28:13

加密貨幣比特幣貨幣

2024-12-30 00:01:00

多模態大模型Python

2025-04-28 14:13:43

開源SOTA多模態

2023-09-12 13:59:41

OpenAI數據集

2025-04-10 06:30:00

2025-04-28 09:10:00

2023-10-16 12:31:17

人工智能數據

2023-09-28 07:24:13

KOSMOS模型文檔

2024-09-25 14:53:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产一区久久 | 91精品欧美久久久久久久 | 国产精品波多野结衣 | 国产精品一区二区欧美 | 国内精品久久影院 | 中日韩av | 国产精品3区 | 国产日韩精品视频 | 欧美日韩综合 | 午夜视频在线播放 | 亚洲一区在线播放 | 精品国产乱码久久久久久闺蜜 | 草草精品 | 国产一区二区高清在线 | 国产成人精品免高潮在线观看 | 九色视频网站 | 亚洲精品一区在线 | 亚洲成人综合网站 | 久久久久久久网 | 亚洲一级在线 | 亚洲精品国产一区 | 亚洲成人中文字幕 | 成av在线 | 免费在线看黄视频 | 97视频在线观看网站 | 久久久久九九九女人毛片 | 久久亚洲欧美日韩精品专区 | 精品国产一级 | 日韩精品一区二区三区在线播放 | 日韩精品久久久久 | 五月婷婷丁香婷婷 | 亚洲国产一区视频 | 老熟女毛片| 区一区二在线观看 | 亚洲欧美在线观看 | 国产精品乱码一区二三区小蝌蚪 | 久久久久国产成人精品亚洲午夜 | 久久精品美女 | 精品视频久久久久久 | 久久久精品国产 | 亚洲黄色av |