成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

復旦等發(fā)布AnyGPT:任意模態(tài)輸入輸出,圖像、音樂、文本、語音都支持

人工智能 新聞
復旦大學邱錫鵬團隊聯(lián)合 Multimodal Art Projection(MAP)、上海人工智能實驗室的研究者提出了一種名為 AnyGPT 的多模態(tài)語言模型。

最近,OpenAI 的視頻生成模型 Sora 爆火,生成式 AI 模型在多模態(tài)方面的能力再次引起廣泛關(guān)注。

現(xiàn)實世界本質(zhì)上是多模態(tài)的,生物體通過不同的渠道感知和交換信息,包括視覺、語言、聲音和觸覺。開發(fā)多模態(tài)系統(tǒng)的一個有望方向是增強 LLM 的多模態(tài)感知能力,主要涉及多模態(tài)編碼器與語言模型的集成,從而使其能夠跨各種模態(tài)處理信息,并利用 LLM 的文本處理能力來產(chǎn)生連貫的響應。

然而,該策略僅限于文本生成,不包含多模態(tài)輸出。一些開創(chuàng)性工作通過在語言模型中實現(xiàn)多模態(tài)理解和生成取得了重大進展,但這些模型僅包含單一的非文本模態(tài),例如圖像或音頻。

為了解決上述問題,復旦大學邱錫鵬團隊聯(lián)合 Multimodal Art Projection(MAP)、上海人工智能實驗室的研究者提出了一種名為 AnyGPT 的多模態(tài)語言模型,該模型能夠以任意的模態(tài)組合來理解和推理各種模態(tài)的內(nèi)容。具體來說,AnyGPT 可以理解文本、語音、圖像、音樂等多種模態(tài)交織的指令,并能熟練地選擇合適的多模態(tài)組合進行響應。

例如給出一段語音 prompt,AnyGPT 能夠生成語音、圖像、音樂形式的綜合響應:

給出文本 + 圖像形式的 prompt,AnyGPT 能夠按照 prompt 要求生成音樂:

圖片

圖片


  • 論文地址:https://arxiv.org/pdf/2402.12226.pdf
  • 項目主頁:https://junzhan2000.github.io/AnyGPT.github.io/

方法簡介

AnyGPT 利用離散表征來統(tǒng)一處理各種模態(tài),包括語音、文本、圖像和音樂。

為了完成任意模態(tài)到任意模態(tài)的生成任務,該研究提出了一個可以統(tǒng)一訓練的綜合框架。如下圖 1 所示,該框架由三個主要組件組成,包括:

  • 多模態(tài) tokenizer
  • 作為主干網(wǎng)絡的多模態(tài)語言模型
  • 多模態(tài) de-tokenizer

圖片

其中,tokenizer 將連續(xù)的非文本模態(tài)轉(zhuǎn)換為離散的 token,隨后將其排列成多模態(tài)交錯序列。然后,語言模型使用下一個 token 預測訓練目標進行訓練。在推理過程中,多模態(tài) token 被相關(guān)的 de-tokenizer 解碼回其原始表征。為了豐富生成的質(zhì)量,可以部署多模態(tài)增強模塊來對生成的結(jié)果進行后處理,包括語音克隆或圖像超分辨率等應用。

AnyGPT 可以穩(wěn)定地訓練,無需對當前的大型語言模型(LLM)架構(gòu)或訓練范式進行任何改變。相反,它完全依賴于數(shù)據(jù)級預處理,使得新模態(tài)無縫集成到 LLM 中,類似于添加新語言。

這項研究的一個關(guān)鍵挑戰(zhàn)是缺乏多模態(tài)交錯指令跟蹤數(shù)據(jù)。為了完成多模態(tài)對齊預訓練,研究團隊利用生成模型合成了第一個大規(guī)模「任意對任意」多模態(tài)指令數(shù)據(jù)集 ——AnyInstruct-108k。它由 108k 多輪對話樣本組成,這些對話錯綜復雜地交織著各種模態(tài),從而使模型能夠處理多模態(tài)輸入和輸出的任意組合。

圖片

圖片

這些數(shù)據(jù)通常需要大量比特才能準確表征,從而導致序列較長,這對語言模型的要求特別高,因為計算復雜度隨著序列長度呈指數(shù)級增加。為了解決這個問題,該研究采用了兩階段的高保真生成框架,包括語義信息建模和感知信息建模。首先,語言模型的任務是生成在語義層面經(jīng)過融合和對齊的內(nèi)容。然后,非自回歸模型在感知層面將多模態(tài)語義 token 轉(zhuǎn)換為高保真多模態(tài)內(nèi)容,在性能和效率之間取得平衡。

圖片

圖片

實驗

實驗結(jié)果表明,AnyGPT 能夠完成任意模態(tài)對任意模態(tài)的對話任務,同時在所有模態(tài)中實現(xiàn)與專用模型相當?shù)男阅埽C明離散表征可以有效且方便地統(tǒng)一語言模型中的多種模態(tài)。

該研究評估了預訓練基礎(chǔ) AnyGPT 的基本功能,涵蓋所有模態(tài)的多模態(tài)理解和生成任務。該評估旨在測試預訓練過程中不同模態(tài)之間的一致性,具體來說是測試了每種模態(tài)的 text-to-X 和 X-to-text 任務,其中 X 分別是圖像、音樂和語音。

為了模擬真實場景,所有評估均以零樣本模式進行。這意味著 AnyGPT 在評估過程中不會對下游訓練樣本進行微調(diào)或預訓練。這種具有挑戰(zhàn)性的評估設置要求模型泛化到未知的測試分布。

評估結(jié)果表明,AnyGPT 作為一種通用的多模態(tài)語言模型,在各種多模態(tài)理解和生成任務上取得了令人稱贊的性能。

圖像

該研究評估了 AnyGPT 在圖像描述任務上的圖像理解能力,結(jié)果如表 2 所示。

圖片

文本到圖像生成任務的結(jié)果如表 3 所示。

圖片語音

該研究通過計算 LibriSpeech 數(shù)據(jù)集的測試子集上的詞錯誤率 (WER) 來評估 AnyGPT 在自動語音識別 (ASR) 任務上的性能,并使用 Wav2vec 2.0 和 Whisper Large V2 作為基線,評估結(jié)果如表 5 所示。

圖片

圖片

音樂

該研究在 MusicCaps 基準上評估了 AnyGPT 在音樂理解和生成任務方面的表現(xiàn),采用 CLAP_score 分數(shù)作為客觀指標,衡量生成的音樂和文本描述之間的相似度,評估結(jié)果如表 6 所示。

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-11-25 14:30:00

2023-06-28 21:47:54

2024-07-31 15:08:35

2011-11-28 09:25:36

Java輸入輸出

2021-05-07 20:01:23

IO輸入輸出

2025-03-27 09:40:59

2009-12-23 10:57:20

nohup命令

2009-12-17 11:36:55

Ruby輸入輸出

2014-09-04 11:39:43

Linux

2011-07-11 11:05:09

Windows控制臺

2010-02-06 14:28:38

C++標準輸入輸出

2024-12-12 09:09:24

2025-06-17 02:25:00

工業(yè)異常檢測

2025-04-14 00:20:00

2011-03-01 15:02:54

Qt

2020-09-04 11:02:47

Java技巧參數(shù)

2021-06-24 10:24:57

Linux輸入輸出設備Interface

2024-09-09 06:00:00

Python輸入編程

2021-12-01 11:40:14

Python 輸入輸出
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 免费一区在线观看 | 一区二区三区四区五区在线视频 | 久久视频精品在线 | 97成人精品| 亚洲区在线 | 国产一区中文字幕 | 成人不卡一区二区 | 福利在线观看 | 成人免费在线电影 | 国产精品99视频 | 天天夜碰日日摸日日澡 | 国产精品一区在线观看 | 中文二区| 在线免费观看视频黄 | 黄色一级免费看 | 狠狠的操 | 久久国产精品色av免费观看 | 国产综合一区二区 | 在线日韩欧美 | 性生生活大片免费看视频 | 国产一二三区精品视频 | 国产精品一区二区三区久久久 | 成人国产精品色哟哟 | 亚洲精品中文字幕av | 美女在线一区二区 | 最新av在线网址 | 中文在线一区二区 | 九九在线 | 亚洲一区二区三 | 亚洲日韩中文字幕一区 | 亚洲在线中文字幕 | 亚洲国产成人精品久久 | 欧美黄在线观看 | 伊人手机在线视频 | aaaaa毛片| www国产成人免费观看视频,深夜成人网 | 国产精品美女www爽爽爽视频 | 国产乱码一二三区精品 | 玖玖国产| 五月激情六月婷婷 | 91视频网址 |