IEEE TPAMI 2025 | 北京大學(xué)提出LSTKC++,長(zhǎng)短期知識(shí)解耦與鞏固驅(qū)動(dòng)的終身行人重識(shí)別
本文的第一作者為北京大學(xué)博士二年級(jí)學(xué)生徐昆侖,通訊作者為北京大學(xué)王選計(jì)算機(jī)研究所研究員、助理教授周嘉歡。
近日,北京大學(xué)王選計(jì)算機(jī)研究所周嘉歡團(tuán)隊(duì)在人工智能重要國(guó)際期刊 IEEE TPAMI 發(fā)布了一項(xiàng)最新的研究成果:LSTKC++ 。
該框架引入了長(zhǎng)短期知識(shí)解耦與動(dòng)態(tài)糾正及融合機(jī)制,有效保障了模型在終身學(xué)習(xí)過(guò)程中對(duì)新知識(shí)的學(xué)習(xí)和對(duì)歷史知識(shí)的記憶。目前該研究已被 IEEE TPAMI 接收,相關(guān)代碼已開源。
- 論文標(biāo)題:Long Short-Term Knowledge Decomposition and Consolidation for Lifelong Person Re-Identification
- 論文鏈接:https://ieeexplore.ieee.org/abstract/document/11010188/
- 代碼鏈接:https://github.com/zhoujiahuan1991/LSTKC-Plus-Plus
- 接收期刊:T-PAMI(CCF A 類/中科院一區(qū) Top)
- 單位:北京大學(xué)王選計(jì)算機(jī)研究所,華中科技大學(xué)人工智能與自動(dòng)化學(xué)院
行人重識(shí)別(Person Re-Identification, ReID)技術(shù)的目標(biāo)是在跨攝像頭、跨場(chǎng)景等條件下,根據(jù)外觀信息準(zhǔn)確識(shí)別行人身份,并在多攝像頭監(jiān)控、智能交通、公共安全與大規(guī)模視頻檢索等應(yīng)用中具有重要作用。
在實(shí)際應(yīng)用中,行人數(shù)據(jù)分布常因地點(diǎn)、設(shè)備和時(shí)間等因素的變化而發(fā)生改變,使得新數(shù)據(jù)和訓(xùn)練數(shù)據(jù)呈現(xiàn)域差異,導(dǎo)致傳統(tǒng)的「單次訓(xùn)練、靜態(tài)推理」ReID 范式難以適應(yīng)測(cè)試數(shù)據(jù)的長(zhǎng)期動(dòng)態(tài)變化。
這催生了一個(gè)更具挑戰(zhàn)性的新任務(wù)——終身行人重識(shí)別(Lifelong Person Re-ID, LReID)。該任務(wù)要求模型能夠利用新增域的數(shù)據(jù)進(jìn)行訓(xùn)練,在學(xué)習(xí)新域數(shù)據(jù)知識(shí)的同時(shí),保持舊域數(shù)據(jù)的識(shí)別能力。
圖 1 研究動(dòng)機(jī)
LReID 的核心挑戰(zhàn)是災(zāi)難性遺忘問(wèn)題,即模型在學(xué)習(xí)新域知識(shí)后,對(duì)舊域數(shù)據(jù)的處理性能發(fā)生退化。為克服該問(wèn)題,多數(shù)方法采用知識(shí)蒸餾策略將舊模型的知識(shí)遷移到新模型。然而,這些方法存在兩個(gè)關(guān)鍵隱患:
- 錯(cuò)誤知識(shí)遷移:由于數(shù)據(jù)偏差等因素,舊模型中不可避免地包含一些錯(cuò)誤知識(shí)。在知識(shí)蒸餾過(guò)程中,不僅會(huì)引發(fā)錯(cuò)誤知識(shí)的累積,還會(huì)對(duì)新知識(shí)的學(xué)習(xí)產(chǎn)生干擾,造成模型的學(xué)習(xí)能力受限;
- 知識(shí)損失:新舊域之間的分布差異導(dǎo)致部分舊知識(shí)無(wú)法被新數(shù)據(jù)激活,使得這些知識(shí)無(wú)法通過(guò)知識(shí)蒸餾有效地遷移到新模型中。
為破解上述難題,北京大學(xué)王選計(jì)算機(jī)研究所團(tuán)隊(duì)在 T-PAMI 2025 上提出了 LSTKC++ 框架。該框架引入了長(zhǎng)短期知識(shí)解耦與動(dòng)態(tài)糾正及融合機(jī)制,在有效保障新知識(shí)學(xué)習(xí)的同時(shí),增強(qiáng)了舊知識(shí)的保留能力。
一、基礎(chǔ)框架:LSTKC 長(zhǎng)短期知識(shí)糾正與鞏固
LSTKC 是作者團(tuán)隊(duì)在 AAAI 2024 上提出的終身行人重識(shí)別框架。LSTKC 引入了「短期-長(zhǎng)期模型協(xié)同融合」的思想,將終身學(xué)習(xí)所涉及的模型劃分為短期模型和長(zhǎng)期模型。前者指利用特定域數(shù)據(jù)訓(xùn)練得到的模型,后者指積累了所有歷史域知識(shí)的模型。
在新域數(shù)據(jù)訓(xùn)練時(shí),LSTKC 引入一個(gè)基于知識(shí)糾正的短期知識(shí)遷移模塊(Rectification-based Short-Term Knowledge Transfer, R-STKT)。R-STKT 從長(zhǎng)期模型中提取判別性特征,并基于新數(shù)據(jù)的標(biāo)注信息識(shí)別并糾正其中的錯(cuò)誤特征,進(jìn)而利用知識(shí)蒸餾策略將校正后的正確知識(shí)遷移到新模型中。
在新域數(shù)據(jù)訓(xùn)練結(jié)束后,LSTKC 引入了基于知識(shí)評(píng)估的長(zhǎng)期知識(shí)鞏固模塊(Estimation-based Long-Term Knowledge Consolidation, E-LTKC),根據(jù)長(zhǎng)期模型和短期模型生成的特征,估計(jì)長(zhǎng)期知識(shí)與短期知識(shí)之間的差異,進(jìn)而實(shí)現(xiàn)長(zhǎng)短期知識(shí)的自適應(yīng)融合,實(shí)現(xiàn)了新舊知識(shí)的權(quán)衡。
圖 2 LSTKC 模型
二、升級(jí)框架:LSTKC++ 長(zhǎng)短期知識(shí)解耦與鞏固
盡管 LSTKC 中基于知識(shí)差異的長(zhǎng)短期知識(shí)融合策略在一定程度上促進(jìn)了新舊知識(shí)權(quán)衡,但是由于模型間的知識(shí)差異無(wú)法直接反映融合模型的實(shí)際性能,導(dǎo)致 LSTKC 的模型融合策略難以實(shí)現(xiàn)新舊知識(shí)的最優(yōu)權(quán)衡。
圖 3 LSTKC++ 框架
為解決上述問(wèn)題,作者在 T-PAMI 版本提出了 LSTKC++,從三個(gè)方面進(jìn)行了方法升級(jí):
- 模型解耦。 將原有的長(zhǎng)期舊模型
解耦為兩個(gè)部分:一個(gè)代表更早期歷史知識(shí)(前
個(gè)域)的長(zhǎng)期模型
和一個(gè)代表最近歷史知識(shí)(第
域)的短期舊模型
。
- 長(zhǎng)短期互補(bǔ)知識(shí)遷移。 首先,針對(duì)長(zhǎng)期舊模型和短期舊模型進(jìn)行互補(bǔ)糾正:根據(jù)樣本親和度矩陣(affinity matrix)分別篩選出長(zhǎng)期舊模型
和短期舊模型
中的正確知識(shí)。然后,對(duì)于二者均正確的知識(shí)進(jìn)行融合;對(duì)于一方正確、另一方錯(cuò)誤的知識(shí),僅保留正確知識(shí);對(duì)于二者錯(cuò)誤的知識(shí),根據(jù)新數(shù)據(jù)標(biāo)簽進(jìn)行糾正。通過(guò)上述互補(bǔ)糾正過(guò)程,得到融合了長(zhǎng)短期模型的互補(bǔ)知識(shí)糾正矩陣。隨后,糾正矩陣基于知識(shí)蒸餾損失指導(dǎo)新模型學(xué)習(xí)。
- 基于新數(shù)據(jù)的知識(shí)權(quán)衡參數(shù)優(yōu)化。 為了優(yōu)化 LSTKC 中用于融合長(zhǎng)期歷史知識(shí)和短期歷史知識(shí)的權(quán)衡參數(shù)
,作者將新增的
域訓(xùn)練數(shù)據(jù)作為驗(yàn)證集,進(jìn)而搜索得到最優(yōu)的長(zhǎng)短期歷史知識(shí)權(quán)衡參數(shù)
,用以獲得更新的長(zhǎng)期舊模型
。
相比于使用已學(xué)習(xí)過(guò)的數(shù)據(jù)作為優(yōu)化基準(zhǔn),新增數(shù)據(jù)尚未被長(zhǎng)期和短期歷史模型學(xué)習(xí)過(guò),避免了過(guò)擬合問(wèn)題,因此對(duì)知識(shí)權(quán)衡性能的評(píng)估更為可靠。
- 樣本關(guān)系引導(dǎo)的長(zhǎng)期知識(shí)鞏固。 為了使模型在學(xué)習(xí)新域后能夠直接利用長(zhǎng)期知識(shí)和短期知識(shí)進(jìn)行推理,作者引入了更新后的長(zhǎng)期歷史模型
與短期模型
的融合機(jī)制。具體地,利用
和
提取的樣本間相似性矩陣
和
計(jì)算融合權(quán)重:
其中,為用于測(cè)試的模型。
三、實(shí)驗(yàn)分析
數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
論文的實(shí)驗(yàn)采用兩個(gè)典型的訓(xùn)練域順序(Order-1 與 Order-2),包含五個(gè)廣泛使用的行人重識(shí)別數(shù)據(jù)集(Market1501、DukeMTMC-ReID、CUHK03、MSMT17、CUHK-SYSU)作為訓(xùn)練域。分別評(píng)估模型在已學(xué)習(xí)域(Seen Domains)上的知識(shí)鞏固能力和在未知域(Unseen Domains)上的泛化能力。評(píng)測(cè)指標(biāo)采用行人 ReID 任務(wù)的標(biāo)準(zhǔn)指標(biāo):平均精度均值(mAP)和 Rank-1 準(zhǔn)確率(R@1)。
實(shí)驗(yàn)結(jié)果
- 綜合性能分析: 在兩種不同的域順序設(shè)定下,LSTKC++ 的已知域平均性能(Seen-Avg mAP 和 Seen-Avg R@1)相比于 CVPR 2024 方法 DKP 提升 1.5%-3.4%。同時(shí),LSTKC++ 在未知域的整體泛化性能(Unseen-Avg mAP 和 Unseen-Avg R@1)上相比于現(xiàn)有方法提升 1.3%-4%。
- 子域性能分析: 在不同的域順序設(shè)定中,雖然 LSTKC++ 在第一個(gè)和最后一個(gè)域的性能并非最優(yōu),但是其在中間三個(gè)域的性能均顯著優(yōu)于現(xiàn)有方法。這是因?yàn)椴糠脂F(xiàn)有方法對(duì)模型施加較強(qiáng)的抗遺忘約束,因而有效保持了初始域的性能,但其對(duì)新知識(shí)的學(xué)習(xí)能力大幅受限。其次,部分方法則采用較弱的抗遺忘約束,增強(qiáng)了模型對(duì)新知識(shí)的學(xué)習(xí)能力,但其對(duì)歷史域性能的保持能力受限。與上述方法相比,LSTKC++ 綜合考慮了知識(shí)遺忘和學(xué)習(xí)的自適應(yīng)平衡,因而在中間域呈現(xiàn)明顯的性能優(yōu)勢(shì),并在不同域的整體性能上實(shí)現(xiàn)穩(wěn)定提升。
- 計(jì)算與存儲(chǔ)開銷分析: 現(xiàn)有方法(如 PatchKD、AKA、DKP)通常通過(guò)引入額外的可學(xué)習(xí)模塊來(lái)提升抗遺忘性能,這些模塊往往會(huì)增加額外的訓(xùn)練時(shí)間、模型參數(shù)量、存儲(chǔ)空間占用和 GPU 顯存消耗。與之相比,LSTKC 和 LSTKC++ 僅在特征提取器和身份分類器中包含可學(xué)習(xí)參數(shù),因此在模型參數(shù)量(Params)上具有明顯優(yōu)勢(shì)。其次,LSTKC 在訓(xùn)練時(shí)間(Batch Time)、模型存儲(chǔ)(Model Memory)和 GPU 顯存消耗(GPU Memory)方面均最為高效。盡管 LSTKC++ 引入了一個(gè)額外的舊模型,但由于該舊模型被凍結(jié)且不參與梯度計(jì)算,其帶來(lái)的額外開銷僅為約 30% 的訓(xùn)練時(shí)間和約 818MB(占總顯存的~7.4%)的 GPU 顯存。總體而言,與最新的 CVPR 2024 方法 DKP 相比,LSTKC++ 在綜合性能(TABLE I 和 TABLE II)以及計(jì)算和存儲(chǔ)效率方面均展現(xiàn)出明顯優(yōu)勢(shì)。
四、總結(jié)與展望
技術(shù)創(chuàng)新
本項(xiàng)被 T-PAMI 2025 接收的工作聚焦于終身行人重識(shí)別(LReID)任務(wù),面向新知識(shí)學(xué)習(xí)和歷史知識(shí)遺忘的挑戰(zhàn),提出了以下創(chuàng)新性設(shè)計(jì):
- 解耦式知識(shí)記憶體系: 提出將終身學(xué)習(xí)中的知識(shí)解耦為長(zhǎng)期知識(shí)和短期知識(shí),通過(guò)長(zhǎng)短期知識(shí)的針對(duì)性處理保障短期新知識(shí)學(xué)習(xí)和促進(jìn)長(zhǎng)期歷史知識(shí)與短期新知識(shí)間的平衡;
- 語(yǔ)義級(jí)知識(shí)糾錯(cuò)機(jī)制: 將知識(shí)篩選與糾正機(jī)制引入基于知識(shí)蒸餾的持續(xù)學(xué)習(xí),有效克服錯(cuò)誤歷史知識(shí)對(duì)新知識(shí)學(xué)習(xí)的干擾;
- 長(zhǎng)短期互補(bǔ)知識(shí)提煉: 挖掘并融合長(zhǎng)短期模型間的互補(bǔ)知識(shí),提升知識(shí)蒸餾過(guò)程中知識(shí)表達(dá)的魯棒性,提升歷史知識(shí)在新知識(shí)學(xué)習(xí)中的引導(dǎo)作用。
- 遺忘-學(xué)習(xí)主動(dòng)權(quán)衡: 摒棄固定抗遺忘損失的策略,提出主動(dòng)搜索最優(yōu)的新舊知識(shí)權(quán)衡參數(shù)的方法。
應(yīng)用價(jià)值
LSTKC++ 所提出的終身學(xué)習(xí)機(jī)制具備良好的實(shí)用性和推廣潛力,特別適用于以下典型場(chǎng)景:
- 適應(yīng)動(dòng)態(tài)開放環(huán)境,構(gòu)建「終身進(jìn)化」的識(shí)別系統(tǒng)。 在實(shí)際應(yīng)用中,攝像頭部署環(huán)境常常發(fā)生變化,例如視角變換、光照變化、圖像分辨率波動(dòng)等,傳統(tǒng)靜態(tài)訓(xùn)練的模型難以持續(xù)適應(yīng)。LSTKC++ 具備長(zhǎng)期知識(shí)保持與新知識(shí)快速整合能力,可持續(xù)應(yīng)對(duì)環(huán)境遷移,適用于智慧城市、邊緣計(jì)算終端、無(wú)人安防等場(chǎng)景,助力構(gòu)建「可持續(xù)演進(jìn)」的識(shí)別系統(tǒng)。
- 滿足隱私保護(hù)需求,避免歷史樣本訪問(wèn)。 在公共安全、交通監(jiān)控、醫(yī)療影像等高度敏感的應(yīng)用場(chǎng)景中,受限于數(shù)據(jù)安全與隱私法規(guī),系統(tǒng)通常禁止長(zhǎng)期存儲(chǔ)歷史圖像或身份數(shù)據(jù)。LSTKC++ 在整個(gè)持續(xù)學(xué)習(xí)過(guò)程中無(wú)需訪問(wèn)任何歷史樣本或緩存數(shù)據(jù),具備天然的隱私友好性。
- 高效學(xué)習(xí),快速部署。 LSTKC++ 無(wú)需保存圖像或額外身份原型等,在多輪更新中也不會(huì)引入顯存負(fù)擔(dān)或冗余參數(shù)。同時(shí),相比現(xiàn)有方法(如 DKP),該方法大幅減少了參數(shù)規(guī)模與顯存占用,訓(xùn)練過(guò)程高效,可快速完成模型更新,滿足資源受限設(shè)備上的持續(xù)學(xué)習(xí)需求。
未來(lái)展望
LSTKC++ 為無(wú)樣本持續(xù)學(xué)習(xí)提供了結(jié)構(gòu)化解決方案,未來(lái)仍具備多維度的研究與拓展空間:
- 向預(yù)訓(xùn)練視覺大模型拓展。 當(dāng)前終身學(xué)習(xí)方法多數(shù)基于 CNN 架構(gòu)設(shè)計(jì),然而預(yù)訓(xùn)練視覺大模型在視覺任務(wù)中已展現(xiàn)出強(qiáng)大表達(dá)能力。如何將 LSTKC++ 的知識(shí)解耦與鞏固機(jī)制遷移至大模型框架,并結(jié)合其先驗(yàn)語(yǔ)義進(jìn)行持續(xù)學(xué)習(xí),是一個(gè)具有理論深度與實(shí)際價(jià)值的重要方向。
- 研究多模態(tài)感知下的持續(xù)學(xué)習(xí)機(jī)制。 現(xiàn)有終身行人重識(shí)別研究主要基于可見光圖像,尚未充分考慮紅外、深度圖、文本描述等多模態(tài)信息。在傳感設(shè)備普及的背景下,融合多模態(tài)數(shù)據(jù)以提升持續(xù)學(xué)習(xí)的穩(wěn)定性、抗干擾能力,將是推動(dòng)算法實(shí)用化的重要路徑。
- 推廣至通用類別的域增量識(shí)別任務(wù)。 LSTKC++ 當(dāng)前聚焦于「跨域+跨身份」的行人檢索問(wèn)題,然而在現(xiàn)實(shí)應(yīng)用中,物品、交通工具、動(dòng)物等通用類別同樣面臨動(dòng)態(tài)領(lǐng)域變化現(xiàn)象。將本方法推廣至通用類別的域增量學(xué)習(xí)場(chǎng)景,有望提升大規(guī)模視覺系統(tǒng)在開放環(huán)境下的適應(yīng)性與擴(kuò)展能力。