成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

劍橋、騰訊AI Lab等提出大語(yǔ)言模型PandaGPT:一個(gè)模型統(tǒng)一六種模態(tài)

人工智能 新聞
近日,來自劍橋、NAIST 和騰訊 AI Lab 的研究者推出了一款名為 PandaGPT 的跨模態(tài)語(yǔ)言模型,展示了在人工智能領(lǐng)域的創(chuàng)新嘗試。

來自劍橋、NAIST 和騰訊 AI Lab 的研究者近期發(fā)布了一項(xiàng)名為 PandaGPT 的研究成果,這是一種將大型語(yǔ)言模型與不同模態(tài)對(duì)齊、綁定以實(shí)現(xiàn)跨模態(tài)指令跟隨能力的技術(shù)。PandaGPT 可以完成諸如生成詳細(xì)的圖像描述、根據(jù)視頻編寫故事以及回答關(guān)于音頻的問題等復(fù)雜任務(wù)。它可以同時(shí)接收多模態(tài)輸入,并自然地組合它們的語(yǔ)義。

圖片

  • 項(xiàng)目主頁(yè): https://panda-gpt.github.io/
  • 代碼: https://github.com/yxuansu/PandaGPT
  • 論文: http://arxiv.org/abs/2305.16355
  • 線上 Demo 展示: https://huggingface.co/spaces/GMFTBY/PandaGPT

圖片


為了實(shí)現(xiàn)圖像 & 視頻、文本、音頻、熱力圖、深度圖、IMU 讀數(shù)六種模態(tài)下的指令跟隨能力,PandaGPT 將 ImageBind 的多模態(tài)編碼器與 Vicuna 大型語(yǔ)言模型相結(jié)合(如上圖所示)。

為了使 ImageBind 的多模態(tài)編碼器和 Vicuna 的大型語(yǔ)言模型的特征空間對(duì)齊,PandaGPT 使用了組合 LLaVa 和 Mini-GPT4 發(fā)布的共 160k 基于圖像的語(yǔ)言指令跟隨數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。每個(gè)訓(xùn)練實(shí)例包括一張圖像和相應(yīng)一組多輪對(duì)話。

為了避免破壞 ImageBind 本身的多模態(tài)對(duì)齊性質(zhì)和減少訓(xùn)練成本,PandaGPT 只更新了以下模塊:

  1. 在 ImageBind 的編碼結(jié)果上新增一個(gè)線性投影矩陣,將 ImageBind 生成的表示轉(zhuǎn)換后插入到 Vicuna 的輸入序列中;
  2. 在 Vicuna 的注意力模塊上添加了額外的 LoRA 權(quán)重。兩者參數(shù)總數(shù)約占 Vicuna 參數(shù)的 0.4%。訓(xùn)練函數(shù)為傳統(tǒng)的語(yǔ)言建模目標(biāo)。值得注意的是,訓(xùn)練過程中僅對(duì)模型輸出對(duì)應(yīng)部分進(jìn)行權(quán)重更新,不對(duì)用戶輸入部分進(jìn)行計(jì)算。整個(gè)訓(xùn)練過程在 8×A100 (40G) GPUs 上完成訓(xùn)練需要約 7 小時(shí)。

值得強(qiáng)調(diào)的是,目前的 PandaGPT 版本只使用了對(duì)齊的圖像 - 文本數(shù)據(jù)進(jìn)行訓(xùn)練,但是繼承了 ImageBind 編碼器的六種模態(tài)理解能力(圖像 / 視頻、文本、音頻、深度度、熱量圖和 IMU)和它們之間的對(duì)齊屬性,從而具備在所有模態(tài)之間跨模態(tài)能力。

在實(shí)驗(yàn)中,作者展示了 PandaGPT 對(duì)不同模態(tài)的理解能力,包括基于圖像 / 視頻的問答,基于圖像 / 視頻的創(chuàng)意寫作,基于視覺和聽覺信息的推理等等,下面是一些例子:

圖像:

圖片

音頻:

圖片

視頻:

圖片

與其他多模態(tài)語(yǔ)言模型相比,PandaGPT 最突出的特點(diǎn)是它能夠理解并將不同模態(tài)的信息自然地組合在一起。

視頻 + 音頻:

圖片


圖像 + 音頻:

圖片

總結(jié)

作者們也總結(jié)了目前 PandaGPT 的諸多問題以及未來的發(fā)展方向。盡管 PandaGPT 在處理多種模態(tài)及其組合方面具有驚人的能力,但仍有多種方法可以極大程度的提升 PandaGPT 的性能。

  1. PandaGPT 可以通過使用其他模態(tài)對(duì)齊數(shù)據(jù)來進(jìn)一步提升圖像以外模態(tài)的理解能力,例如利用 ASR 和 TTS 數(shù)據(jù)來進(jìn)行音頻 - 文本模態(tài)的模態(tài)理解和指令跟隨能力。
  2. 文本以外的其他模態(tài)僅僅使用了一個(gè) embedding 向量進(jìn)行表示,導(dǎo)致語(yǔ)言模型無(wú)法理解文本之外模型的細(xì)粒度信息。更多關(guān)于細(xì)粒度特征提取的研究,如跨模態(tài)注意力機(jī)制,可能有助于提高性能。
  3. PandaGPT 目前僅允許將文本之外的模態(tài)信息用作輸入。未來該模型有潛力將整個(gè) AIGC 統(tǒng)一到同一個(gè)模型之中,即一個(gè)模型同時(shí)完成圖像 & 視頻生成、語(yǔ)音合成、文本生成等任務(wù)。
  4. 需要新的基準(zhǔn)測(cè)試來評(píng)估多模態(tài)輸入的組合能力。
  5. PandaGPT 還可能表現(xiàn)出現(xiàn)有語(yǔ)言模型的一些常見缺陷,包括幻覺、毒性和刻板印象。

最后,作者們強(qiáng)調(diào),PandaGPT 僅僅是一個(gè)研究原型,暫時(shí)還不足以直接應(yīng)用于生產(chǎn)環(huán)境。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-05-12 13:39:48

AI研究模型

2025-03-12 12:10:13

2024-10-25 14:30:00

模型AI

2023-09-14 12:35:59

2025-06-16 14:40:40

模型AI訓(xùn)練

2023-06-29 17:46:31

模型谷歌

2025-04-22 08:08:37

2025-01-06 10:00:00

模型視覺生成

2023-02-25 16:14:36

AIMeta語(yǔ)言模型

2025-02-12 13:31:33

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2024-11-01 10:16:09

API開源項(xiàng)目

2023-09-12 07:02:19

騰訊混元大模型

2023-11-09 15:10:00

訓(xùn)練數(shù)據(jù)

2024-05-17 16:02:00

2022-09-30 15:15:41

模型框架

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2025-04-22 09:22:00

模型檢測(cè)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲一区视频在线 | 夜夜爽99久久国产综合精品女不卡 | 久久精品国产a三级三级三级 | 中文字幕一二三 | 国产精品无 | 中文字幕成人在线 | 天天干天天玩天天操 | 成人一区精品 | 精品国产乱码久久久久久丨区2区 | 一区二区三区在线 | 亚洲欧美综合精品久久成人 | 91免费小视频 | av色在线 | 欧美一二三| 午夜影视 | 自拍偷拍视频网 | 免费国产一区 | 超碰在线人人干 | 久久久精品一区二区三区 | av久久| 日本手机看片 | 免费看91| 天堂免费 | 欧美理伦片在线播放 | 免费高清av | 二区三区视频 | 日韩在线国产 | 国产精品我不卡 | 黄a在线播放 | 国产清纯白嫩初高生视频在线观看 | 日本免费一区二区三区四区 | 欧美成视频 | 久久香焦 | 日本天堂一区 | 欧美日韩国产一区二区三区 | 国产午夜精品久久久久 | 在线观看中文字幕 | 成人国产精品久久 | 欧美日韩大陆 | 国产一区二区三区久久久久久久久 | 亚洲精品免费视频 |