成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

新聞 人工智能
縱橫交錯描述(CxC)數(shù)據(jù)集使用圖像-文本,文本-文本和圖像-圖像對的語義相似性評級擴展了MS-COCO的開發(fā)和測試范圍。

 如果一張圖片可以用一千個單詞描述,那么圖片中所能被描繪的對象之間便有如此多的細節(jié)和關系。我們可以描述狗皮毛的質(zhì)地,要被追逐的飛盤上的商標,剛剛?cè)舆^飛盤的人臉上的表情,等等。

[[398584]]

現(xiàn)階段,包含文本描述及其相應圖像的描述的數(shù)據(jù)集(例如MS-COCO和Flickr30k)已被廣泛用于學習對齊的圖像和文本表示并建立描述模型。

然而,這些數(shù)據(jù)集的跨模態(tài)關聯(lián)有限:圖像未與其他圖像匹配,描述僅與同一張圖片的其他描述匹配,存在圖像與描述的匹配但未被標記為匹配項,并且沒有標簽標明何時圖像與描述之間是不匹配的。

為了彌補這一評估空白,我們提出了「交叉描述:針對MS-COCO的擴展的模內(nèi)和模態(tài)語義相似性判斷」。

縱橫交錯描述(CxC)數(shù)據(jù)集使用圖像-文本,文本-文本和圖像-圖像對的語義相似性評級擴展了MS-COCO的開發(fā)和測試范圍。

評級標準基于「語義文本相似性」,這是一種在短文本對之間廣泛存在的語義相關性度量,我們還將其擴展為包括對圖像的判斷。我們已經(jīng)發(fā)布了CxC的評分以及將CxC與現(xiàn)有MS-COCO數(shù)據(jù)合并的代碼。

創(chuàng)建CxC數(shù)據(jù)集

CxC數(shù)據(jù)集擴展了MS-COCO評估拆分,并在模態(tài)內(nèi)和模態(tài)之間具有分級的相似性關聯(lián)。鑒于隨機選擇的圖像和描述匹配的相似性不高,我們提出了一種方法來對項目進行選擇,通過人工評級從而產(chǎn)生一些具有較高相似性的新匹配。為了減少所選匹配對用于查找它們的模型的依賴性,我們引入了一種間接采樣方案,其中我們使用不同的編碼方法對圖像和描述進行編碼,并計算相同模態(tài)項匹配之間的相似度進而生成相似度矩陣。圖像使用Graph-RISE嵌入進行編碼,而描述則使用兩種方法進行編碼-基于GloVe嵌入的通用語句編碼器(USE)和平均單詞袋(BoW)。

由于每個MS-COCO示例都有五個輔助描述,因此我們平均每個輔助描述編碼以創(chuàng)建每個示例的單個表征,從而確保所有描述對都可以映射到圖像。

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

上:使用平均輔助描述編碼構造的文本相似度矩陣(每個單元格對應一個相似度分數(shù)),每個文本條目對應于單個圖像。下:數(shù)據(jù)集中每個圖像的圖像相似度矩陣。

我們從文本相似度矩陣中選擇兩個具有較高計算相似度的描述,然后獲取它們的每個圖像,從而生成一對新的圖像,這些圖像在外觀上不同,但根據(jù)描述的相似。

例如,「一只害羞地向側(cè)面看的狗」和「一只黑狗抬起頭來享受微風」具有相當高的模型相似性,因此下圖中兩只狗的對應圖像 可以選擇圖像相似度等級。此步驟也可以從兩個具有較高計算相似度的圖像開始,以產(chǎn)生一對新的描述。

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

上:根據(jù)描述相似度來選擇圖像匹配。下:根據(jù)描圖像的相似度來選擇描述匹配。

通過使用現(xiàn)有的圖像標題對在模態(tài)之間進行鏈接來做到這一點。例如,如果人對一個描述匹配樣本ij的評級為高度相似,我們從樣本i中選擇圖像,并從樣本j中選擇描述,以獲得一個新的用于人工評級的模態(tài)內(nèi)匹配。然后,我們使用具有最高相似性的模態(tài)內(nèi)對進行采樣,這可以包括一些具有高度相似性的新匹配。

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性
AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性
AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性
AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性
AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性
AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

不同相似度的語義圖像相似性(SIS)和語義圖像文本相似性(SITS)示例,其中5為最相似,0為完全不相似。

評估

MS-COCO的匹配是不完整的,因為有時為一幅圖像的描述同樣適用于另一幅圖像,但這些關聯(lián)并未記錄到數(shù)據(jù)集中。CxC使用新的正向匹配增強了這些現(xiàn)有的檢索任務,并且還支持新的圖像-圖像檢索任務。

通過其相似度的評級判斷,CxC還可以測量模型和人工評級之間的相關性。不僅如此,CxC的相關性分數(shù)還考慮相似度的相對順序,其中包括低分項(不匹配項)。

我們進行了一系列實驗,以展示CxC評級的效用。為此,我們使用基于BERT的文本編碼器和使用EfficientNet-B4作為圖像編碼器構造了三個雙編碼器(DE)模型:

1. 文本-文本(DE_T2T)模型,雙方使用共享的文本編碼器。

2. 使用上述文本和圖像編碼器的圖像文本模型(DE_I2T),且在文本編碼器上方有一個用來匹配圖像編碼器輸出的層。

3. 在文本-文本和圖像-文本任務的加權組合上訓練的多任務模型(DE_I2T + T2T)。

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

文本-文本(T2T),圖像-文本(I2T)和多任務(I2T + T2T)雙編碼器模型的CxC檢索結果

從檢索任務的結果可以看出,DE_I2T + T2T(黃色條)在圖像文本和文本圖像檢索任務上的性能優(yōu)于DE_I2T(紅色條)。因此,添加模態(tài)內(nèi)(文本-文本)訓練任務有助于提高模態(tài)間(圖像-文本,文本-圖像)性能。

AI識圖驢唇不對馬嘴?Google AI:用交錯訓練集提升圖像描述準確性

相同模型的CxC相關結果

對于關聯(lián)任務,DE_I2T在SIS上表現(xiàn)最好,而DE_I2T + T2T在總體上是最好的。相關分數(shù)還顯示DE_I2T僅在圖像上表現(xiàn)良好:它具有最高的SIS,但具有更差的STS。

添加文本-文本損失到DE_I2T訓練中(DE_I2T + T2T),可以使整體性能更加均衡。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-06 08:43:17

2022-12-17 19:57:17

ChatGPTAI模仿

2009-08-12 09:27:31

Google搜索

2022-08-19 09:53:20

人工智能大數(shù)據(jù)風險

2024-01-19 10:33:41

AI達沃斯論壇人工智能

2023-07-27 13:27:06

2018-02-25 17:09:30

視頻AI圖像

2021-11-11 19:35:16

人工智能AI深度學習

2024-12-09 09:20:00

MySQLNULL 值

2025-04-01 04:25:00

RAG數(shù)據(jù)檢索

2024-09-14 10:00:00

AI機器人計算

2024-12-11 08:12:24

2021-07-26 17:09:42

AI 數(shù)據(jù)機器人

2023-08-02 10:17:04

物聯(lián)網(wǎng)庫存管理

2024-06-11 09:19:00

2022-03-04 19:14:06

AI深度學習DeepMind

2022-03-23 09:36:51

AI訓練模型

2020-09-24 18:07:04

華為云食道癌方案

2024-11-27 13:36:10

2025-03-03 04:20:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩av在线中文字幕 | 国产91久久久久久 | 91素人| 午夜精品久久久久久久久久久久久 | 国产一伦一伦一伦 | 成人精品区 | 色婷婷精品久久二区二区蜜臂av | 伊人久久综合影院 | 麻豆av网| 日本精品视频一区二区 | 久久久久国产 | 日本在线小视频 | av网站在线免费观看 | 天天影视网天天综合色在线播放 | av中文字幕在线播放 | 国产99久久久国产精品 | 欧美日韩成人在线 | 五月天国产在线 | 午夜影院黄 | 成人一级片在线观看 | 在线一区二区国产 | 久久中文字幕视频 | 国产一级久久久久 | 国产精品亚洲一区二区三区在线 | 国产成人啪免费观看软件 | 久久精品中文 | 黄色成人在线观看 | 成人免费网站在线 | 一级看片免费视频囗交动图 | 欧美高清免费 | 91视视频在线观看入口直接观看 | 国产精品自产av一区二区三区 | 国产精品毛片在线 | 午夜影院在线观看 | 亚洲一区二区久久久 | 日韩一区二区在线播放 | 羞羞涩涩在线观看 | 91免费在线 | 午夜精品久久久久久 | 第一av| 中文字幕 在线观看 |