成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)多模態(tài)學(xué)習(xí) 精華

發(fā)布于 2024-6-4 12:13
瀏覽
0收藏

看、聽(tīng)、說(shuō)的多模態(tài)已成為主流大模型的重要功能之一。但在數(shù)據(jù)爆炸時(shí)代,大模型學(xué)習(xí)文本類(lèi)的結(jié)構(gòu)化數(shù)據(jù)相對(duì)還好一些,但要去學(xué)習(xí)視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)非常困難。


目前,從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)多模態(tài)學(xué)習(xí),會(huì)隨著模態(tài)數(shù)量、輸入大小和數(shù)據(jù)異構(gòu)性的增加,深度神經(jīng)網(wǎng)絡(luò)會(huì)變過(guò)擬合和泛化效果不佳。


尤其是當(dāng)在規(guī)模有限的數(shù)據(jù)集上訓(xùn)練時(shí),這一狀況就越發(fā)明顯,例如,經(jīng)常表現(xiàn)出非平穩(wěn)行為的時(shí)間序列數(shù)據(jù)。因此,谷歌提出了創(chuàng)新框架LANISTR來(lái)解決這些難題。


論文地址:https://arxiv.org/pdf/2305.16556

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

LANISTR是一個(gè)基于注意力機(jī)制的框架,其核心思想是在單模態(tài)和多模態(tài)層面上應(yīng)用基于掩碼的訓(xùn)練。


還特別引入了一種新的基于相似度的多模態(tài)掩碼損失,使其能夠從存在缺失模態(tài)的大型多模態(tài)數(shù)據(jù)中學(xué)習(xí)跨模態(tài)之間的關(guān)系。


多模態(tài)融合編碼器

?

現(xiàn)實(shí)數(shù)據(jù)經(jīng)常以復(fù)合形式存在,單一模態(tài)的數(shù)據(jù)往往不足以捕捉事件的全貌。例如,在醫(yī)療診斷中,臨床報(bào)告和MRI掃描圖像才能展現(xiàn)患者狀況的全面視圖;而在電子商務(wù)中,商品描述與銷(xiāo)售歷史(時(shí)間序列)相結(jié)合才能更好地預(yù)測(cè)市場(chǎng)需求。


因此,一個(gè)好用的多模態(tài)大模型,必須具備將這些分散信息源綜合的能力。為了實(shí)現(xiàn)這一目標(biāo),LANISTR采用了基于Transformer架構(gòu)的交叉注意力機(jī)制。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

多模態(tài)融合編碼器可將來(lái)自各模態(tài)的嵌入向量首先被串聯(lián)起來(lái),然后通過(guò)一系列的Transformer層進(jìn)行處理


在這些層中,交叉注意力機(jī)制發(fā)揮了重要作用,允許模型在不同的模態(tài)表示之間自由“詢(xún)問(wèn)”和“回答”,使每個(gè)模態(tài)的特征都能關(guān)注其他模態(tài)的特征,并根據(jù)它們的相關(guān)性和重要性進(jìn)行加權(quán)整合。


這一流程與人腦思考有些類(lèi)似,可根據(jù)上下文和情境在不同感官信號(hào)間切換注意力,從而實(shí)現(xiàn)信息的高效整合。


4種編碼器介紹

?

LANISTR中的多模態(tài)融合編碼器一共由文本、圖像、表格和時(shí)間序列4種編碼器組成,每種模態(tài)都有其獨(dú)特的表達(dá)方式和信息結(jié)構(gòu)。這種機(jī)制不僅增強(qiáng)了對(duì)單個(gè)模態(tài)特征的理解,還促進(jìn)了模態(tài)間的交互學(xué)習(xí),從而對(duì)整個(gè)場(chǎng)景有了更加全面的認(rèn)識(shí)。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

文本編碼器:基于Transformer架構(gòu)主要處理文本數(shù)據(jù)。通過(guò)掩碼語(yǔ)言方法進(jìn)行預(yù)訓(xùn)練,隨機(jī)掩蓋文本中的部分詞匯,讓模型學(xué)習(xí)預(yù)測(cè)這些被掩蓋詞的能力。這種機(jī)制促使模型理解詞語(yǔ)間的依賴(lài)關(guān)系和語(yǔ)境含義,從而提取出豐富的語(yǔ)言特征。


圖像編碼器:采用Vision Transformer架構(gòu)用于處理視覺(jué)數(shù)據(jù)。可將圖像分割成多個(gè)小塊,并將這些塊視為序列輸入到Transformer中,通過(guò)自注意力機(jī)制學(xué)習(xí)圖像的高層次特征,還會(huì)使用掩碼圖像建模方法,通過(guò)重建被掩碼的像素或特征來(lái)訓(xùn)練,以提取圖像的視覺(jué)特征。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

表格編碼器:使用了定制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),針對(duì)分類(lèi)特征的嵌入層來(lái)編碼每一列數(shù)據(jù)的特征。考慮到表格數(shù)據(jù)的稀疏性和多樣性,了集成特征選擇或降維技術(shù),以聚焦于最有信息量的特征。


時(shí)間序列編碼器:由于大模型需要捕捉隨時(shí)間變化的動(dòng)態(tài)模式,時(shí)間序列編碼器使用了循環(huán)神經(jīng)網(wǎng)絡(luò)方法,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和門(mén)控循環(huán)單元。通過(guò)對(duì)序列進(jìn)行建模提取出時(shí)間序列的模式和趨勢(shì),為后續(xù)的多模態(tài)融合準(zhǔn)備數(shù)據(jù)。


研究人員在兩個(gè)數(shù)據(jù)集上測(cè)試了LANISTR的性能,在MIMIC-IV數(shù)據(jù)集上,當(dāng)僅使用0.1%的有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)時(shí),模型的AUROC相比最先進(jìn)的方法提高了6.6%。


在亞馬遜產(chǎn)品評(píng)論數(shù)據(jù)集中,僅使用0.01%的有標(biāo)簽數(shù)據(jù),模型的準(zhǔn)確率提升了14%。值得一提的是,這些改進(jìn)是在高達(dá)35.7%和99.8%的樣本存在模態(tài)缺失的情況下完成的,這更加證明了LANISTR的多模態(tài)學(xué)習(xí)能力。


本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/dicYO5bU5fIuPb0kIlyKOA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久99深爱久久99精品 | 中文字幕 在线观看 | 欧美电影免费观看高清 | 欧美中文字幕一区二区 | 亚洲一区二区久久久 | 九九综合 | 天天操一操 | 91麻豆精品国产91久久久久久 | 美女福利视频网站 | 99热热精品 | 免费久久视频 | 欧美日韩成人一区二区 | 欧美福利视频 | 国产自产c区 | 一区二区三区四区av | 亚洲精品久久嫩草网站秘色 | 91视频一区 | 亚洲在线一区二区三区 | 亚洲一区二区三 | 国产999精品久久久久久 | 日韩中文一区二区 | 国产免费观看一区 | 老牛嫩草一区二区三区av | 精品国产视频 | 久久成人人人人精品欧 | 91中文字幕在线观看 | jizz在线看片 | 91av视频在线播放 | 国产99精品| 日韩资源| 成人免费视频网站在线观看 | www成人免费视频 | 黄色免费网 | 国产三级一区二区 | 国产三级大片 | 日本一区二区三区在线观看 | 涩爱av一区二区三区 | 91av免费看| 亚洲精品在线视频 | 操久久 | 国产一级片 |