成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

跨模態(tài)通信總丟失語義、產(chǎn)生歧義?加入AI大模型,LAM-MSC實(shí)現(xiàn)四模態(tài)統(tǒng)一高效傳輸

人工智能 新聞
由湖南師范大學(xué)、南京大學(xué)和東南大學(xué)等機(jī)構(gòu)組成的研究團(tuán)隊(duì)提出了基于AI大模型的多模態(tài)語義通信(LAM-MSC)框架。

本文的作者為湖南師范大學(xué)的江沸菠副教授,彭于波博士,湖南工商大學(xué)的董莉副教授,英國(guó)布魯內(nèi)爾倫敦大學(xué)的王可之教授,南京大學(xué)的楊鯤教授(歐洲科學(xué)院院士),東南大學(xué)的潘存華教授、尤肖虎教授(中國(guó)科學(xué)院院士)。

多模態(tài)信號(hào),包括文本、音頻、圖像和視頻等,可以被整合到語義通信中,在語義層面提供低延遲、高質(zhì)量的沉浸式體驗(yàn)。然而,多模態(tài)語義通信面臨著數(shù)據(jù)異構(gòu)、語義歧義和信號(hào)衰落等挑戰(zhàn)。AI 大模型,尤其是多模態(tài)語言模型和大語言模型的發(fā)展,為解決這些問題提供了新思路。

基于此,由湖南師范大學(xué)、南京大學(xué)和東南大學(xué)等機(jī)構(gòu)組成的研究團(tuán)隊(duì)提出了基于AI大模型的多模態(tài)語義通信(LAM-MSC)框架。

圖片

  • 論文題目:Large AI Model Empowered Multimodal Semantic Communications
  • 作者:江沸菠,董莉,彭于波,王可之,楊鯤,潘存華,尤肖虎
  • 來源:IEEE Communications Magazine
  • 論文鏈接:https://ieeexplore.ieee.org/abstract/document/10670195/

引言

人工智能和物聯(lián)網(wǎng)的融合催生了全息通信等智能應(yīng)用,推動(dòng)通信系統(tǒng)向語義通信演進(jìn)。語義通信注重傳輸內(nèi)容的「含義」,能實(shí)現(xiàn)更智能的通信服務(wù)。隨著元宇宙等應(yīng)用發(fā)展,傳輸數(shù)據(jù)日益呈現(xiàn)多模態(tài)特征。

傳統(tǒng)語義通信系統(tǒng)僅能處理單一模態(tài)數(shù)據(jù),而多模態(tài)語義通信系統(tǒng)能夠處理文本、語音、圖像、視頻等多種模態(tài)數(shù)據(jù),減少了高開銷和低效率的問題。

圖片

圖 1 :傳統(tǒng)的單模態(tài)語義通信系統(tǒng)與多模態(tài)語義通信系統(tǒng)。

如圖 1(a)所示,傳統(tǒng)的語義通信系統(tǒng)通常只能處理單一類型的單模態(tài)數(shù)據(jù)。因此,傳輸多模態(tài)數(shù)據(jù)時(shí),需要使用多個(gè)單模態(tài)語義通信系統(tǒng),可能導(dǎo)致顯著的高開銷和低效率。另一方面,圖 1(b)展示了一個(gè)多模態(tài)語義通信系統(tǒng),通過采用統(tǒng)一的多模態(tài)語義通信模型,可以處理多種模態(tài)數(shù)據(jù)。

然而,多模態(tài)語義通信系統(tǒng)的設(shè)計(jì)面臨以下挑戰(zhàn):

(1)數(shù)據(jù)異構(gòu):需要處理文本、圖像、視頻等多種格式的數(shù)據(jù),且目標(biāo)任務(wù)可能非常復(fù)雜,涉及機(jī)器翻譯、圖像識(shí)別、視頻分析等。提取語義特征時(shí),還需解決不同模態(tài)之間的語義對(duì)齊問題。

(2)語義歧義:在不同模態(tài)之間傳輸數(shù)據(jù)時(shí),可能會(huì)產(chǎn)生語義錯(cuò)誤或誤解,同時(shí)不同的知識(shí)背景可能導(dǎo)致語義理解不一致,進(jìn)而引發(fā)歧義。

(3)信號(hào)衰落:信號(hào)在傳輸過程中可能會(huì)受到衰落和噪聲的影響,導(dǎo)致信息丟失或語義變化,從而增加個(gè)性化語義重建的復(fù)雜性。

為解決上述挑戰(zhàn),本文提出了一種基于 AI 大模型的多模態(tài)語義通信框架,具體貢獻(xiàn)如下:

(1)統(tǒng)一的語義表示:采用基于多模態(tài)語言模型的多模態(tài)對(duì)齊技術(shù)(MMA),使用可組合擴(kuò)散模型(CoDi)處理多模態(tài)數(shù)據(jù)。MMA 通過構(gòu)建共享的多模態(tài)空間,促進(jìn)交叉模態(tài)的同步生成。通過將多模態(tài)數(shù)據(jù)統(tǒng)一到文本模態(tài),提升語義一致性和信息傳輸?shù)男省?/span>

(2)個(gè)性化語義理解:設(shè)計(jì)了基于個(gè)性化 LLM 的知識(shí)庫(kù)(LKB),利用 GPT-4 模型來理解個(gè)人信息。通過個(gè)性化提示庫(kù)對(duì) GPT-4 進(jìn)行上下文學(xué)習(xí),創(chuàng)建本地知識(shí)庫(kù),提取更多相關(guān)的語義信息,從而消除語義歧義。

(3)生成式信道估計(jì):提出使用條件生成對(duì)抗網(wǎng)絡(luò)進(jìn)行信道估計(jì)(CGE),估算衰落信道的信道增益。該方法通過專用生成器網(wǎng)絡(luò)和 leakyReLU 激活函數(shù),捕捉信道增益的非線性特性,從而實(shí)現(xiàn)高質(zhì)量的信道增益預(yù)測(cè)。

多模態(tài)語義通信的實(shí)現(xiàn)

LAM-MSC 框架集成了 AI 大模型作為解決方案。具體來說,該框架通過以下五個(gè)關(guān)鍵步驟實(shí)現(xiàn)多模態(tài)語義通信。

圖片

圖 2 :所提出的 LAM-MSC 框架的示意圖。

基于 MMA 的模態(tài)轉(zhuǎn)換

對(duì)于輸入的多模態(tài)數(shù)據(jù)(圖像、音頻和視頻等),利用 MMA 將這些數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù),并保持語義對(duì)齊。

例如,如圖 3 所示,原始的傳輸數(shù)據(jù)包括一張照片,上面是發(fā)送者(假設(shè)是 Mike)和接收者(假設(shè)是 Jane)在花園里玩耍的場(chǎng)景。然后,原始圖像被轉(zhuǎn)換成文本描述:「A boy and a girl in a playful pose. The boy has golden hair and is wearing a brown suit with a red tie. The girl has black hair and is wearing a white dress with a black bow. The background is a garden」。

圖片

圖 3 :所提出的 LAM-MSC 框架的數(shù)據(jù)流示例:發(fā)送者 Mike 向接收者 Jane 發(fā)送一張圖片,意圖傳達(dá)圖片的語義內(nèi)容為 「Mike and Jane are playing in a garden」。

基于 LKB 的語義提取

對(duì)轉(zhuǎn)換后的文本數(shù)據(jù),發(fā)送者只傳輸包含其意圖的關(guān)鍵信息,省略冗余信息。整合發(fā)送者意圖和用戶信息,提取個(gè)性化語義。

如圖 3 所示,通過整合發(fā)送者的意圖、用戶信息和興趣,LKB 提取了個(gè)性化語義 「Jane and me in a playful pose. The background is a garden」。這個(gè)描述代表了發(fā)送者和接收者的身份,并表明發(fā)送者的關(guān)注重點(diǎn)主要是照片中的「兩個(gè)人」和背景,而不是他們的裝扮。

基于 CGE 輔助的語義通信數(shù)據(jù)傳輸

語義通信以語義編碼器為起點(diǎn),從原始數(shù)據(jù)中提取有意義的元素或?qū)傩裕荚趯⒃撜Z義信息盡可能準(zhǔn)確地傳輸給接收者。然后,信道編碼器將語義編碼數(shù)據(jù)調(diào)制成適用于無線通信的復(fù)數(shù)輸入符號(hào)。為了減輕衰落信道的影響,采用 CGE 來獲取 CSI,從而將乘法噪聲轉(zhuǎn)化為加性噪聲。

這種轉(zhuǎn)換降低了信道解碼器恢復(fù)傳輸信號(hào)的復(fù)雜性。接下來,利用信道解碼器進(jìn)行信號(hào)解調(diào),同時(shí)克服加性噪聲的影響。最后,語義解碼器執(zhí)行語義解碼,從而獲取恢復(fù)的語義(例如,「Jane and I are playfully posing. The background is a garden.」)。盡管物理信道的干擾導(dǎo)致恢復(fù)語義與原始內(nèi)容之間存在輕微差異,但總體含義保持了一致性。

基于 LKB 的語義恢復(fù)

接收者可能無法直接理解恢復(fù)的語義,因?yàn)榻邮盏降南⒌膫€(gè)性化是針對(duì)發(fā)送者而不是接收者的,這可能導(dǎo)致語義歧義問題。類似地,根據(jù)接收者的個(gè)性化提示詞和知識(shí)庫(kù),采用 LKB 將解碼的語義轉(zhuǎn)換為接收者的個(gè)性化語義。

如圖 3 所示,LKB 根據(jù)接收者的用戶信息(例如,身份)調(diào)整恢復(fù)的語義。因此,恢復(fù)的語義被轉(zhuǎn)化為接收者 Jane 的個(gè)性化語義,得到文本「Mike and I are playfully posing. The background is a garden」。

基于 MMA 的模態(tài)恢復(fù)

與模態(tài)轉(zhuǎn)換類似,MMA 用于實(shí)現(xiàn)模態(tài)恢復(fù),即將文本數(shù)據(jù)轉(zhuǎn)換回原始的模態(tài)數(shù)據(jù)。然而,需要注意的是,本文僅評(píng)估恢復(fù)的和原始的模態(tài)數(shù)據(jù)在語義層面上的一致性,而非數(shù)據(jù)細(xì)節(jié)的完全重現(xiàn)(例如可以通過角色一致性等技術(shù)生成相同角色身份的圖片,但是無法保證圖片在像素上的一致性)。

如圖 3 所示,恢復(fù)的圖像僅顯示「Mike and Jane are playing in a garden」。這是因?yàn)榘l(fā)送者的主要意圖在于人物和背景的語義方面,而不是關(guān)于人物裝扮的具體細(xì)節(jié)。

仿真結(jié)果

圖片

圖 4 在不同信噪比下的多模態(tài)語義通信傳輸準(zhǔn)確性。

圖 4 的消融實(shí)驗(yàn)顯示,提高信噪比能提升多模態(tài)語義通信的準(zhǔn)確性。對(duì)比 LAM-MSC 和無 LKB 的 LAM-MSC 可以看出,個(gè)性化知識(shí)庫(kù)在提升語義傳輸準(zhǔn)確性上起到了積極作用。

此外,去除 CGE 的 LAM-MSC 表現(xiàn)最差,表明在所提出的語義通信系統(tǒng)中引入 CGE 的重要性。

圖片

圖 5 不同方法的對(duì)比結(jié)果。

圖 5 的對(duì)比實(shí)驗(yàn)比較了 LAM-MSC 框架與專門用于圖像傳輸?shù)?DeepJSCC-V 方法和音頻傳輸?shù)?Fairseq 方法。

盡管這些方法在準(zhǔn)確性上略勝一籌,但 LAM-MSC 在壓縮率上表現(xiàn)更好,因?yàn)樗軐D像和音頻轉(zhuǎn)為文本,減少傳輸數(shù)據(jù)量。此外,LAM-MSC 能處理多模態(tài)數(shù)據(jù),而 DeepJSCC-V 和 Fairseq 只能處理單模態(tài)數(shù)據(jù)。

更多詳情,請(qǐng)參閱論文原文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-19 18:12:25

谷歌模型AI

2025-02-26 13:45:00

2025-01-08 08:21:16

2023-06-05 10:09:03

研究人工智能

2024-11-13 09:39:13

2025-06-09 08:50:00

2023-12-28 17:31:44

PixelLM性能模型

2025-06-26 15:11:41

AI模型自動(dòng)化

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-12-18 18:57:58

2024-11-27 14:00:00

模型訓(xùn)練

2024-12-09 08:15:43

2023-06-06 14:09:32

模型開源

2024-05-31 14:11:37

?大模型多模態(tài)AI

2024-09-25 14:53:00

2025-06-04 13:53:57

AI模型Meta

2023-09-06 09:50:29

人工智能模型

2025-05-14 08:51:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品一区二区三区四区 | 亚洲久久 | 伊人色综合久久久天天蜜桃 | 久久久久亚洲精品中文字幕 | 日韩成人在线视频 | 国产99视频精品免费视频7 | 97日日碰人人模人人澡分享吧 | 操到爽 | 成人性生交大片 | 久久久久久国产精品免费免费狐狸 | 在线观看av网站永久 | 久久丝袜视频 | 色网在线播放 | 欧美在线一区二区三区 | 99九九视频 | 在线中文字幕亚洲 | 天天搞天天操 | 欧美一区二区三区四区在线 | av超碰| 草久久 | 精品一区二区三区四区 | 国产精品自产av一区二区三区 | 青青草视频免费观看 | 久久综合激情 | 久久夜夜| 99pao成人国产永久免费视频 | 四虎影视1304t | 亚洲欧美日韩一区二区 | 天天夜夜操| 欧美日韩精品综合 | 国产一区91精品张津瑜 | 日本一区二区在线视频 | 日本人做爰大片免费观看一老师 | 国内精品免费久久久久软件老师 | 欧美视频在线免费 | 亚洲一区二区视频 | 日本 欧美 国产 | 亚洲福利在线观看 | 久久久久亚洲 | 欧美一区精品 | av免费入口 |