成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北京大學(xué)彭宇新教授團(tuán)隊(duì)開源最新多輪交互式商品檢索模型、數(shù)據(jù)集及評(píng)測(cè)基準(zhǔn)

人工智能 新聞
本文構(gòu)建了新的多輪組合圖像檢索數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)FashionMT。

本文是北京大學(xué)彭宇新教授團(tuán)隊(duì)在多輪交互式商品檢索的最新研究成果,已被 ICLR 2025 接收并開源。

圖像檢索是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù),近年來(lái)在電商等場(chǎng)景中廣泛應(yīng)用。然而,單一圖像難以滿足用戶需求,用戶常需要修改圖像以適配特定場(chǎng)景。為此,組合圖像檢索(CIR)應(yīng)運(yùn)而生,旨在通過(guò)結(jié)合參考圖像和修改文本來(lái)定位目標(biāo)圖像。隨著多輪交互需求的增加,多輪組合圖像檢索(MTCIR)逐漸成為研究熱點(diǎn),能夠利用用戶迭代反饋不斷優(yōu)化檢索結(jié)果。然而,現(xiàn)有MTCIR方法通常通過(guò)串聯(lián)單輪CIR數(shù)據(jù)集構(gòu)建多輪數(shù)據(jù)集,存在兩點(diǎn)不足:

(1)歷史上下文缺失:修改文本缺乏對(duì)歷史圖像的關(guān)聯(lián),導(dǎo)致檢索偏離實(shí)際場(chǎng)景;

(2)數(shù)據(jù)規(guī)模受限:單輪數(shù)據(jù)集規(guī)模有限,串聯(lián)方式進(jìn)一步壓縮了多輪數(shù)據(jù)集的規(guī)模,難以滿足研究和應(yīng)用需求。

為解決上述問(wèn)題,本文構(gòu)建了新的多輪組合圖像檢索數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)FashionMT。其特點(diǎn)包括:

(1)回溯性:每輪修改文本可能涉及歷史參考圖像信息(如保留特定屬性),要求算法回溯利用多輪歷史信息;

(2)多樣化:FashionMT包含的電商圖像數(shù)量和類別分別是MT FashionIQ的14倍和30倍,且交互輪次數(shù)量接近其27倍,提供了豐富的多模態(tài)檢索場(chǎng)景。

本文進(jìn)一步提出了多輪聚合-迭代模型MAI,重點(diǎn)應(yīng)對(duì)MTCIR中的兩大挑戰(zhàn):

(1)多模態(tài)語(yǔ)義聚合。

(2)多輪信息優(yōu)化。具體而言,MAI引入了一種新的兩階段語(yǔ)義聚合(TSA)范式,并結(jié)合循環(huán)組合損失(CCL)計(jì)算。TSA通過(guò)引入描述文本作為過(guò)渡,逐步將圖像與其描述文本聚合,再與修改文本聚合。CCL的循環(huán)結(jié)構(gòu)進(jìn)一步增強(qiáng)了語(yǔ)義一致性和模態(tài)對(duì)齊。此外,本文設(shè)計(jì)了一種無(wú)參數(shù)的多輪迭代優(yōu)化(MIO)機(jī)制,動(dòng)態(tài)選擇具有高語(yǔ)義多樣性的代表性標(biāo)記,有效壓縮了歷史數(shù)據(jù)表征的存儲(chǔ)空間。實(shí)驗(yàn)結(jié)果表明,本方法在所提出的新基準(zhǔn)FashionMT的召回指標(biāo)上平均提升了8%,優(yōu)于現(xiàn)有方法。

  • 論文標(biāo)題:MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
  • 論文鏈接:https://openreview.net/pdf?id=gXyWbl71n1
  • 開源代碼:https://github.com/PKU-ICST-MIPL/MAI_ICLR2025
  • 實(shí)驗(yàn)室網(wǎng)址:https://www.wict.pku.edu.cn/mipl

背景與動(dòng)機(jī)

多輪組合圖像檢索(MTCIR)作為電商場(chǎng)景的關(guān)鍵技術(shù),旨在通過(guò)持續(xù)對(duì)話理解用戶動(dòng)態(tài)調(diào)整的需求。現(xiàn)有方法采用"多輪串聯(lián)單輪"范式時(shí),模型陷入僅依賴當(dāng)前輪次圖像的路徑依賴,導(dǎo)致歷史語(yǔ)義鏈路斷裂——當(dāng)用戶修改需求涉及歷史屬性時(shí)(如"保留前兩輪的袖口設(shè)計(jì)"),檢索系統(tǒng)因無(wú)法回溯上下文而失效。這一現(xiàn)象暴露兩大關(guān)鍵不足:首先,現(xiàn)有數(shù)據(jù)集構(gòu)建方式割裂了跨輪次的語(yǔ)義關(guān)聯(lián),使模型陷入局部最優(yōu)陷阱;其次,傳統(tǒng)單輪優(yōu)化范式難以適應(yīng)多輪場(chǎng)景的語(yǔ)義累積特性,在長(zhǎng)程信息傳遞與動(dòng)態(tài)記憶壓縮方面存在設(shè)計(jì)局限。

針對(duì)上述不足,本文提出了系統(tǒng)性解決方案:

(1) 跨輪次語(yǔ)義建模框架:通過(guò)顯式標(biāo)注多輪修改需求與歷史圖像的語(yǔ)義關(guān)聯(lián),構(gòu)建首個(gè)具備歷史回溯特性的數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)FashionMT;

(2) 兩階段跨模態(tài)語(yǔ)義聚合:設(shè)計(jì)基于TSA模塊與CCL損失的漸進(jìn)式對(duì)齊架構(gòu),通過(guò)圖像-文本-指令的層級(jí)交互解決模態(tài)鴻溝問(wèn)題;

(3) 動(dòng)態(tài)記憶壓縮機(jī)制:設(shè)計(jì)MIO模塊,利用基于聚類算法的token選擇策略實(shí)現(xiàn)長(zhǎng)程依賴建模中的信息優(yōu)化,在保持檢索精度的同時(shí)減少歷史信息冗余存儲(chǔ)。本文方法實(shí)現(xiàn)了多輪檢索中語(yǔ)義連續(xù)性與計(jì)算效率的協(xié)同優(yōu)化。

圖1. 多輪組合圖像檢索樣例展示

數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)

本文的數(shù)據(jù)主要來(lái)源于兩個(gè)渠道:1. 從現(xiàn)有的單輪組合圖像檢索數(shù)據(jù)集收集圖像及相關(guān)文本;2. 從多個(gè)電商平臺(tái)爬取圖像及相關(guān)文本。在數(shù)據(jù)預(yù)處理過(guò)程中,本文對(duì)爬取的圖像進(jìn)行了清洗,去除損壞、模糊以及非商品類圖像。

圖2. 數(shù)據(jù)集和評(píng)測(cè)基準(zhǔn)FashionMT數(shù)據(jù)分布圖

受現(xiàn)有修改文本手工標(biāo)注過(guò)程的啟發(fā),本文提出了一個(gè)自動(dòng)化的數(shù)據(jù)集構(gòu)建框架-修改生成框架(MGF),旨在通過(guò)捕捉參考圖像和目標(biāo)圖像對(duì)之間的差異,自動(dòng)構(gòu)建數(shù)據(jù)集。該框架包括以下步驟:

1. 圖像選擇:從某一產(chǎn)品子類中選擇N+1張圖像用于N輪交易;2. 標(biāo)題生成:利用圖像描述模型為這些圖像生成標(biāo)題;3. 基礎(chǔ)修改生成:采用大型語(yǔ)言模型(LLM)描述相鄰輪次圖像標(biāo)題之間的差異;4. 回溯性修改生成:確定需要回溯分析的特定輪次,并根據(jù)最新圖像與歷史圖像之間的屬性交集生成相應(yīng)的修改文本。

為了更好地適應(yīng)現(xiàn)實(shí)場(chǎng)景中的回溯性需求,本文設(shè)定了兩種回溯性修改文本生成情境:回滾和組合。在回滾設(shè)置中,通過(guò)回滾的方式在指定的參考圖像與目標(biāo)圖像之間生成修改文本。該情境下的示例為:“Compared to the most recent turn, I still prefer the item from the second turn. Building on that, I like...”。在組合設(shè)置中,用戶結(jié)合多個(gè)歷史輪次中的圖像屬性來(lái)構(gòu)建修改請(qǐng)求。該情境下的示例為:“I like ... from the first turn, and ... from the second turn” 。在此設(shè)置中,修改文本由兩部分組成:第一部分是描述需要保留的公共屬性,并以提示 “Keep the {Attr} in the {ID} turn” 開頭,其中 {Attr}表示如顏色、logo、圖案等屬性,{ID}表示與目標(biāo)圖像共享屬性的輪次;第二部分描述附加的修改需求。

FashionMT在規(guī)模和豐富性上顯著超越現(xiàn)有數(shù)據(jù)集,圖像數(shù)量是MT FashionIQ的14倍,類別數(shù)量是MT Shoes的近10倍。通過(guò)利用修改生成框架,F(xiàn)ashionMT實(shí)現(xiàn)了高效的交易構(gòu)建,數(shù)據(jù)集規(guī)模為MT FashionIQ的27倍。此外,F(xiàn)ashionMT的修改文本更加詳盡,平均長(zhǎng)度是MT FashionIQ的兩倍。作為專為MTCIR任務(wù)設(shè)計(jì)的數(shù)據(jù)集,F(xiàn)ashionMT為多模態(tài)圖像檢索任務(wù)提供了更加全面和真實(shí)的數(shù)據(jù)支持。

技術(shù)方案

為應(yīng)對(duì)MTCIR中的兩大挑戰(zhàn)——多模態(tài)語(yǔ)義聚合多輪信息優(yōu)化,本文提出了多輪聚合-迭代模型(MAI)。如圖3所示,MAI包含4個(gè)主要模塊:

1.多模態(tài)語(yǔ)義聚合(BSA):通過(guò)聚合圖像描述和修改文本的語(yǔ)義信息,增強(qiáng)圖像與文本之間的語(yǔ)義對(duì)齊。

2.多輪迭代優(yōu)化(MIO):通過(guò)優(yōu)化多輪交互中的關(guān)鍵語(yǔ)義 tokens,減少冗余信息,提升檢索性能。

3.修改語(yǔ)義聚合(MSA):將修改文本與參考圖像的語(yǔ)義信息進(jìn)行融合,以強(qiáng)化修改內(nèi)容對(duì)圖像的語(yǔ)義影響。

4.循環(huán)組合損失(CCL):通過(guò)多輪訓(xùn)練中的循環(huán)優(yōu)化機(jī)制,強(qiáng)化目標(biāo)圖像與修改文本之間的匹配度。

圖3. 多輪聚合-迭代模型方法框架圖

模塊1:多模態(tài)語(yǔ)義聚合(BSA)

在第 n 輪,首先對(duì)修改文本進(jìn)行語(yǔ)法分析,判斷是否存在回滾操作,判斷標(biāo)準(zhǔn)是基于預(yù)設(shè)模板生成的修改文本。如果修改文本匹配回滾模板,則將參考圖像指定為回滾輪次中的圖像;如果不匹配,則默認(rèn)選擇第 n 輪的參考圖像。通過(guò)凍結(jié)視覺(jué)編碼器提取圖像的視覺(jué)補(bǔ)丁嵌入。BSA 框架通過(guò)可學(xué)習(xí)的 tokens,首先學(xué)習(xí)圖像及其描述之間的模態(tài)語(yǔ)義,然后與修改文本進(jìn)行交互,從而在與修改文本交互時(shí)增強(qiáng)模態(tài)之間的相關(guān)性。經(jīng)過(guò) BSA 后,tokens 聚合了參考圖像和圖像描述的多模態(tài)語(yǔ)義,記為

模塊2:多輪迭代優(yōu)化(MIO)

盡管tokens 比視覺(jué)嵌入更節(jié)省空間,但為每一輪存儲(chǔ)這些 tokens 仍會(huì)消耗大量空間。電商圖像通常具有不同的屬性,如顏色、風(fēng)格、尺寸等,而多輪檢索往往涉及同一子類別的商品,導(dǎo)致多輪圖像之間存在相似屬性。因此,提出了一種無(wú)參數(shù)機(jī)制,用于優(yōu)化并保留在多輪交互中關(guān)鍵的語(yǔ)義屬性。本方法將上一輪的學(xué)習(xí)到的與當(dāng)前輪的拼接得到,優(yōu)化過(guò)程包括以下幾個(gè)步驟:

(1)聚類:基于 k-最近鄰的密度峰值聚類算法(DPC-kNN),對(duì)進(jìn)行聚類,聚類操作可表示如下

其中表示第 i 個(gè)聚類,為第 i 個(gè)聚類的質(zhì)心。

(2)密度估計(jì):聚類后,根據(jù)簇內(nèi) tokens 與其他 tokens 的距離,估計(jì)每個(gè)簇的密度,低密度的 tokens 會(huì)被過(guò)濾掉。密度估計(jì)公式為:

其中 Nei(v) 表示 v 的鄰近 tokens。

(3)修剪:通過(guò)計(jì)算每個(gè) token 的密度和與鄰近點(diǎn)的距離,過(guò)濾得分較低的 tokens,保留得分高即語(yǔ)義顯著的 tokens。最終表示為 ,有效保留了攜帶判別性語(yǔ)義的 tokens,減少了計(jì)算資源的消耗。

模塊3:修改語(yǔ)義聚合(MSA)

在 MSA 階段,本文將包含參考語(yǔ)義的tokens 與修改文本嵌入 m_n 進(jìn)行交互。通過(guò)凍結(jié)文本編碼器提取修改文本的嵌入,將其與拼接后輸入自注意力層。隨后,經(jīng)過(guò)線性變換和歸一化處理,最終得到參考端的嵌入,該嵌入同時(shí)包含來(lái)自參考圖像、圖像描述和修改文本的多模態(tài)語(yǔ)義。由于涉及多個(gè)歷史圖像,BSA 將通過(guò)拼接前幾輪的tokens 與對(duì)應(yīng)的圖像描述,進(jìn)行多模態(tài)嵌入的聚合。隨后,這些嵌入將與修改文本在 MSA 中進(jìn)行語(yǔ)義聚合。

模塊4:循環(huán)組合損失(CCL)

在多輪組合圖像檢索任務(wù)中,修改文本在檢索過(guò)程中的引導(dǎo)作用至關(guān)重要。為此,本文提出了循環(huán)組合損失(CCL),旨在通過(guò)對(duì)多模態(tài)信息進(jìn)行精確對(duì)齊,強(qiáng)化圖像與文本之間的語(yǔ)義關(guān)聯(lián),特別是文本修改的語(yǔ)義。具體而言,本文設(shè)計(jì)的循環(huán)組合損失目標(biāo)是通過(guò)多輪迭代中圖像和文本的語(yǔ)義對(duì)齊,確保檢索結(jié)果更加準(zhǔn)確。該損失函數(shù)結(jié)合了4種嵌入的約束,包括參考圖像的語(yǔ)義嵌入、目標(biāo)圖像的語(yǔ)義嵌入、修改文本的語(yǔ)義嵌入以及目標(biāo)圖像的文本特征。通過(guò)多輪訓(xùn)練,強(qiáng)化每輪之間語(yǔ)義的傳遞和優(yōu)化,使得最終的目標(biāo)圖像能更好地與修改文本匹配。循環(huán)組合損失(CCL) 由以下4項(xiàng)損失組成: 

(1)參考圖像語(yǔ)義與目標(biāo)圖像語(yǔ)義之間的相似度損失

(2)目標(biāo)圖像語(yǔ)義與修改文本語(yǔ)義之間的相似度損失

(3)修改文本語(yǔ)義與目標(biāo)圖像文本特征之間的相似度損失

(4)目標(biāo)圖像文本特征與參考圖像語(yǔ)義之間的相似度損失

每一項(xiàng)相似度損失通過(guò)批量分類損失計(jì)算,使用內(nèi)積方法(余弦相似度)衡量嵌入之間的相似性。最終,循環(huán)組合損失為各輪損失的累積,確保在多輪交互中,所有語(yǔ)義信息得到充分融合和優(yōu)化,其公式展示如下:

實(shí)驗(yàn)結(jié)果

表1. 在FashionMT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

表1的實(shí)驗(yàn)結(jié)果表明,本文所提出的MAI方法顯著優(yōu)于現(xiàn)有方法,在檢索的召回率平均指標(biāo)上相比新加坡A*STAR研究院的SPRC方法提高了8.63%,相比北京大學(xué)發(fā)布的多模態(tài)混合輸入大模型MMICL提高了11.77%。

圖4. 在FashionMT數(shù)據(jù)集上的檢索結(jié)果可視化

圖4表明, MAI通過(guò)利用TSA和CCL高效聚合圖像-描述文本的語(yǔ)義,能夠有效處理細(xì)粒度需求,使其對(duì)“縐布”和“復(fù)古設(shè)計(jì)”等領(lǐng)域特定術(shù)語(yǔ)具有識(shí)別能力。此外,MAI通過(guò)使用MIO組件保留多輪歷史關(guān)鍵信息,能夠精確解釋諸如“肩帶設(shè)計(jì)”等模糊表達(dá),從而滿足回溯性需求。

更多內(nèi)容,請(qǐng)參見原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-18 09:10:00

2013-04-02 11:23:17

Hadoop優(yōu)酷

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2025-05-27 15:40:34

模型AI訓(xùn)練

2025-04-29 09:08:00

2023-05-19 11:00:19

數(shù)據(jù)集開源

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2025-06-27 08:47:12

2012-11-28 16:05:47

應(yīng)用交付負(fù)載均衡AD

2009-08-17 11:02:25

2012-02-03 11:13:49

北京大學(xué)浪潮高性能計(jì)算

2015-11-23 17:37:54

51社保

2023-12-14 13:30:00

AI模型

2012-08-04 08:16:39

戴爾

2024-07-02 13:30:50

2024-11-08 11:06:07

2016-04-14 16:21:38

2009-06-01 11:04:39

CIO

2023-09-19 13:48:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: av一级在线观看 | 一区二区三区小视频 | 国产精品一区二 | 国产精品网址 | 欧美aaa一级片 | 欧美中国少妇xxx性高请视频 | 日韩福利在线 | 亚洲欧美综合精品另类天天更新 | 狠狠色综合网站久久久久久久 | 草逼网站| 亚洲国产精品99久久久久久久久 | 日本黄色免费视频 | 久热电影 | 中文字幕在线免费视频 | 一区二区三区四区不卡视频 | 国产精品精品久久久 | 国产精品成人一区二区 | 一区二区三区视频免费看 | 中文字幕 在线观看 | 久久精品小短片 | 久久99精品久久久久久噜噜 | 国产精品国产 | 日韩中文字幕 | 久久久久久久国产精品视频 | 久久美女网 | 五月婷婷视频 | 黄色骚片 | 在线观看视频福利 | 午夜男人免费视频 | 99久久婷婷国产综合精品电影 | 日韩精品一区二区三区视频播放 | 国产免国产免费 | 九九九视频 | 一区不卡在线观看 | 成人欧美一区二区三区1314 | 国产成人精品午夜视频免费 | 日本成人久久 | 嫩草一区二区三区 | 中文字幕不卡 | 91在线看 | 久久久久久网站 |