IEEE TPAMI 2025 | 北京大學(xué)提出LSTKC++，長(zhǎng)短期知識(shí)解耦與鞏固驅(qū)動(dòng)的終身行人重識(shí)別

2025-07-03 09:16:41

近日，北京大學(xué)王選計(jì)算機(jī)研究所周嘉歡團(tuán)隊(duì)在人工智能重要國(guó)際期刊 IEEE TPAMI 發(fā)布了一項(xiàng)最新的研究成果：LSTKC++?。

本文的第一作者為北京大學(xué)博士二年級(jí)學(xué)生徐昆侖，通訊作者為北京大學(xué)王選計(jì)算機(jī)研究所研究員、助理教授周嘉歡。

近日，北京大學(xué)王選計(jì)算機(jī)研究所周嘉歡團(tuán)隊(duì)在人工智能重要國(guó)際期刊 IEEE TPAMI 發(fā)布了一項(xiàng)最新的研究成果：LSTKC++ 。

該框架引入了長(zhǎng)短期知識(shí)解耦與動(dòng)態(tài)糾正及融合機(jī)制，有效保障了模型在終身學(xué)習(xí)過(guò)程中對(duì)新知識(shí)的學(xué)習(xí)和對(duì)歷史知識(shí)的記憶。目前該研究已被 IEEE TPAMI 接收，相關(guān)代碼已開源。

論文標(biāo)題：Long Short-Term Knowledge Decomposition and Consolidation for Lifelong Person Re-Identification
論文鏈接：https://ieeexplore.ieee.org/abstract/document/11010188/
代碼鏈接：https://github.com/zhoujiahuan1991/LSTKC-Plus-Plus
接收期刊：T-PAMI（CCF A 類/中科院一區(qū) Top）
單位：北京大學(xué)王選計(jì)算機(jī)研究所，華中科技大學(xué)人工智能與自動(dòng)化學(xué)院

行人重識(shí)別（Person Re-Identification, ReID）技術(shù)的目標(biāo)是在跨攝像頭、跨場(chǎng)景等條件下，根據(jù)外觀信息準(zhǔn)確識(shí)別行人身份，并在多攝像頭監(jiān)控、智能交通、公共安全與大規(guī)模視頻檢索等應(yīng)用中具有重要作用。

在實(shí)際應(yīng)用中，行人數(shù)據(jù)分布常因地點(diǎn)、設(shè)備和時(shí)間等因素的變化而發(fā)生改變，使得新數(shù)據(jù)和訓(xùn)練數(shù)據(jù)呈現(xiàn)域差異，導(dǎo)致傳統(tǒng)的「單次訓(xùn)練、靜態(tài)推理」ReID 范式難以適應(yīng)測(cè)試數(shù)據(jù)的長(zhǎng)期動(dòng)態(tài)變化。

這催生了一個(gè)更具挑戰(zhàn)性的新任務(wù)——終身行人重識(shí)別（Lifelong Person Re-ID, LReID）。該任務(wù)要求模型能夠利用新增域的數(shù)據(jù)進(jìn)行訓(xùn)練，在學(xué)習(xí)新域數(shù)據(jù)知識(shí)的同時(shí)，保持舊域數(shù)據(jù)的識(shí)別能力。

圖 1 研究動(dòng)機(jī)

LReID 的核心挑戰(zhàn)是災(zāi)難性遺忘問(wèn)題，即模型在學(xué)習(xí)新域知識(shí)后，對(duì)舊域數(shù)據(jù)的處理性能發(fā)生退化。為克服該問(wèn)題，多數(shù)方法采用知識(shí)蒸餾策略將舊模型的知識(shí)遷移到新模型。然而，這些方法存在兩個(gè)關(guān)鍵隱患：

錯(cuò)誤知識(shí)遷移：由于數(shù)據(jù)偏差等因素，舊模型中不可避免地包含一些錯(cuò)誤知識(shí)。在知識(shí)蒸餾過(guò)程中，不僅會(huì)引發(fā)錯(cuò)誤知識(shí)的累積，還會(huì)對(duì)新知識(shí)的學(xué)習(xí)產(chǎn)生干擾，造成模型的學(xué)習(xí)能力受限；
知識(shí)損失：新舊域之間的分布差異導(dǎo)致部分舊知識(shí)無(wú)法被新數(shù)據(jù)激活，使得這些知識(shí)無(wú)法通過(guò)知識(shí)蒸餾有效地遷移到新模型中。

為破解上述難題，北京大學(xué)王選計(jì)算機(jī)研究所團(tuán)隊(duì)在 T-PAMI 2025 上提出了 LSTKC++ 框架。該框架引入了長(zhǎng)短期知識(shí)解耦與動(dòng)態(tài)糾正及融合機(jī)制，在有效保障新知識(shí)學(xué)習(xí)的同時(shí)，增強(qiáng)了舊知識(shí)的保留能力。

一、基礎(chǔ)框架：LSTKC 長(zhǎng)短期知識(shí)糾正與鞏固

LSTKC 是作者團(tuán)隊(duì)在 AAAI 2024 上提出的終身行人重識(shí)別框架。LSTKC 引入了「短期-長(zhǎng)期模型協(xié)同融合」的思想，將終身學(xué)習(xí)所涉及的模型劃分為短期模型和長(zhǎng)期模型。前者指利用特定域數(shù)據(jù)訓(xùn)練得到的模型，后者指積累了所有歷史域知識(shí)的模型。

在新域數(shù)據(jù)訓(xùn)練時(shí)，LSTKC 引入一個(gè)基于知識(shí)糾正的短期知識(shí)遷移模塊（Rectification-based Short-Term Knowledge Transfer, R-STKT）。R-STKT 從長(zhǎng)期模型中提取判別性特征，并基于新數(shù)據(jù)的標(biāo)注信息識(shí)別并糾正其中的錯(cuò)誤特征，進(jìn)而利用知識(shí)蒸餾策略將校正后的正確知識(shí)遷移到新模型中。

在新域數(shù)據(jù)訓(xùn)練結(jié)束后，LSTKC 引入了基于知識(shí)評(píng)估的長(zhǎng)期知識(shí)鞏固模塊（Estimation-based Long-Term Knowledge Consolidation, E-LTKC），根據(jù)長(zhǎng)期模型和短期模型生成的特征，估計(jì)長(zhǎng)期知識(shí)與短期知識(shí)之間的差異，進(jìn)而實(shí)現(xiàn)長(zhǎng)短期知識(shí)的自適應(yīng)融合，實(shí)現(xiàn)了新舊知識(shí)的權(quán)衡。

圖 2 LSTKC 模型

二、升級(jí)框架：LSTKC++ 長(zhǎng)短期知識(shí)解耦與鞏固

盡管 LSTKC 中基于知識(shí)差異的長(zhǎng)短期知識(shí)融合策略在一定程度上促進(jìn)了新舊知識(shí)權(quán)衡，但是由于模型間的知識(shí)差異無(wú)法直接反映融合模型的實(shí)際性能，導(dǎo)致 LSTKC 的模型融合策略難以實(shí)現(xiàn)新舊知識(shí)的最優(yōu)權(quán)衡。

圖 3 LSTKC++ 框架

為解決上述問(wèn)題，作者在 T-PAMI 版本提出了 LSTKC++，從三個(gè)方面進(jìn)行了方法升級(jí)：

模型解耦。 將原有的長(zhǎng)期舊模型解耦為兩個(gè)部分：一個(gè)代表更早期歷史知識(shí)（前個(gè)域）的長(zhǎng)期模型和一個(gè)代表最近歷史知識(shí)（第域）的短期舊模型。

長(zhǎng)短期互補(bǔ)知識(shí)遷移。 首先，針對(duì)長(zhǎng)期舊模型和短期舊模型進(jìn)行互補(bǔ)糾正：根據(jù)樣本親和度矩陣（affinity matrix）分別篩選出長(zhǎng)期舊模型和短期舊模型中的正確知識(shí)。然后，對(duì)于二者均正確的知識(shí)進(jìn)行融合；對(duì)于一方正確、另一方錯(cuò)誤的知識(shí)，僅保留正確知識(shí)；對(duì)于二者錯(cuò)誤的知識(shí)，根據(jù)新數(shù)據(jù)標(biāo)簽進(jìn)行糾正。通過(guò)上述互補(bǔ)糾正過(guò)程，得到融合了長(zhǎng)短期模型的互補(bǔ)知識(shí)糾正矩陣。隨后，糾正矩陣基于知識(shí)蒸餾損失指導(dǎo)新模型學(xué)習(xí)。
基于新數(shù)據(jù)的知識(shí)權(quán)衡參數(shù)優(yōu)化。 為了優(yōu)化 LSTKC 中用于融合長(zhǎng)期歷史知識(shí)和短期歷史知識(shí)的權(quán)衡參數(shù)，作者將新增的域訓(xùn)練數(shù)據(jù)作為驗(yàn)證集，進(jìn)而搜索得到最優(yōu)的長(zhǎng)短期歷史知識(shí)權(quán)衡參數(shù)，用以獲得更新的長(zhǎng)期舊模型。

相比于使用已學(xué)習(xí)過(guò)的數(shù)據(jù)作為優(yōu)化基準(zhǔn)，新增數(shù)據(jù)尚未被長(zhǎng)期和短期歷史模型學(xué)習(xí)過(guò)，避免了過(guò)擬合問(wèn)題，因此對(duì)知識(shí)權(quán)衡性能的評(píng)估更為可靠。

樣本關(guān)系引導(dǎo)的長(zhǎng)期知識(shí)鞏固。 為了使模型在學(xué)習(xí)新域后能夠直接利用長(zhǎng)期知識(shí)和短期知識(shí)進(jìn)行推理，作者引入了更新后的長(zhǎng)期歷史模型與短期模型的融合機(jī)制。具體地，利用和提取的樣本間相似性矩陣和計(jì)算融合權(quán)重：

其中，為用于測(cè)試的模型。

三、實(shí)驗(yàn)分析

數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

論文的實(shí)驗(yàn)采用兩個(gè)典型的訓(xùn)練域順序（Order-1 與 Order-2），包含五個(gè)廣泛使用的行人重識(shí)別數(shù)據(jù)集（Market1501、DukeMTMC-ReID、CUHK03、MSMT17、CUHK-SYSU）作為訓(xùn)練域。分別評(píng)估模型在已學(xué)習(xí)域（Seen Domains）上的知識(shí)鞏固能力和在未知域（Unseen Domains）上的泛化能力。評(píng)測(cè)指標(biāo)采用行人 ReID 任務(wù)的標(biāo)準(zhǔn)指標(biāo)：平均精度均值（mAP）和 Rank-1 準(zhǔn)確率（R@1）。

實(shí)驗(yàn)結(jié)果

綜合性能分析： 在兩種不同的域順序設(shè)定下，LSTKC++ 的已知域平均性能（Seen-Avg mAP 和 Seen-Avg R@1）相比于 CVPR 2024 方法 DKP 提升 1.5%-3.4%。同時(shí)，LSTKC++ 在未知域的整體泛化性能（Unseen-Avg mAP 和 Unseen-Avg R@1）上相比于現(xiàn)有方法提升 1.3%-4%。
子域性能分析： 在不同的域順序設(shè)定中，雖然 LSTKC++ 在第一個(gè)和最后一個(gè)域的性能并非最優(yōu)，但是其在中間三個(gè)域的性能均顯著優(yōu)于現(xiàn)有方法。這是因?yàn)椴糠脂F(xiàn)有方法對(duì)模型施加較強(qiáng)的抗遺忘約束，因而有效保持了初始域的性能，但其對(duì)新知識(shí)的學(xué)習(xí)能力大幅受限。其次，部分方法則采用較弱的抗遺忘約束，增強(qiáng)了模型對(duì)新知識(shí)的學(xué)習(xí)能力，但其對(duì)歷史域性能的保持能力受限。與上述方法相比，LSTKC++ 綜合考慮了知識(shí)遺忘和學(xué)習(xí)的自適應(yīng)平衡，因而在中間域呈現(xiàn)明顯的性能優(yōu)勢(shì)，并在不同域的整體性能上實(shí)現(xiàn)穩(wěn)定提升。
計(jì)算與存儲(chǔ)開銷分析： 現(xiàn)有方法（如 PatchKD、AKA、DKP）通常通過(guò)引入額外的可學(xué)習(xí)模塊來(lái)提升抗遺忘性能，這些模塊往往會(huì)增加額外的訓(xùn)練時(shí)間、模型參數(shù)量、存儲(chǔ)空間占用和 GPU 顯存消耗。與之相比，LSTKC 和 LSTKC++ 僅在特征提取器和身份分類器中包含可學(xué)習(xí)參數(shù)，因此在模型參數(shù)量（Params）上具有明顯優(yōu)勢(shì)。其次，LSTKC 在訓(xùn)練時(shí)間（Batch Time）、模型存儲(chǔ)（Model Memory）和 GPU 顯存消耗（GPU Memory）方面均最為高效。盡管 LSTKC++ 引入了一個(gè)額外的舊模型，但由于該舊模型被凍結(jié)且不參與梯度計(jì)算，其帶來(lái)的額外開銷僅為約 30% 的訓(xùn)練時(shí)間和約 818MB（占總顯存的～7.4%）的 GPU 顯存。總體而言，與最新的 CVPR 2024 方法 DKP 相比，LSTKC++ 在綜合性能（TABLE I 和 TABLE II）以及計(jì)算和存儲(chǔ)效率方面均展現(xiàn)出明顯優(yōu)勢(shì)。

四、總結(jié)與展望

技術(shù)創(chuàng)新

本項(xiàng)被 T-PAMI 2025 接收的工作聚焦于終身行人重識(shí)別（LReID）任務(wù)，面向新知識(shí)學(xué)習(xí)和歷史知識(shí)遺忘的挑戰(zhàn)，提出了以下創(chuàng)新性設(shè)計(jì)：

解耦式知識(shí)記憶體系： 提出將終身學(xué)習(xí)中的知識(shí)解耦為長(zhǎng)期知識(shí)和短期知識(shí)，通過(guò)長(zhǎng)短期知識(shí)的針對(duì)性處理保障短期新知識(shí)學(xué)習(xí)和促進(jìn)長(zhǎng)期歷史知識(shí)與短期新知識(shí)間的平衡；
語(yǔ)義級(jí)知識(shí)糾錯(cuò)機(jī)制： 將知識(shí)篩選與糾正機(jī)制引入基于知識(shí)蒸餾的持續(xù)學(xué)習(xí)，有效克服錯(cuò)誤歷史知識(shí)對(duì)新知識(shí)學(xué)習(xí)的干擾；
長(zhǎng)短期互補(bǔ)知識(shí)提煉： 挖掘并融合長(zhǎng)短期模型間的互補(bǔ)知識(shí)，提升知識(shí)蒸餾過(guò)程中知識(shí)表達(dá)的魯棒性，提升歷史知識(shí)在新知識(shí)學(xué)習(xí)中的引導(dǎo)作用。
遺忘-學(xué)習(xí)主動(dòng)權(quán)衡： 摒棄固定抗遺忘損失的策略，提出主動(dòng)搜索最優(yōu)的新舊知識(shí)權(quán)衡參數(shù)的方法。

應(yīng)用價(jià)值

LSTKC++ 所提出的終身學(xué)習(xí)機(jī)制具備良好的實(shí)用性和推廣潛力，特別適用于以下典型場(chǎng)景：

適應(yīng)動(dòng)態(tài)開放環(huán)境，構(gòu)建「終身進(jìn)化」的識(shí)別系統(tǒng)。 在實(shí)際應(yīng)用中，攝像頭部署環(huán)境常常發(fā)生變化，例如視角變換、光照變化、圖像分辨率波動(dòng)等，傳統(tǒng)靜態(tài)訓(xùn)練的模型難以持續(xù)適應(yīng)。LSTKC++ 具備長(zhǎng)期知識(shí)保持與新知識(shí)快速整合能力，可持續(xù)應(yīng)對(duì)環(huán)境遷移，適用于智慧城市、邊緣計(jì)算終端、無(wú)人安防等場(chǎng)景，助力構(gòu)建「可持續(xù)演進(jìn)」的識(shí)別系統(tǒng)。
滿足隱私保護(hù)需求，避免歷史樣本訪問(wèn)。 在公共安全、交通監(jiān)控、醫(yī)療影像等高度敏感的應(yīng)用場(chǎng)景中，受限于數(shù)據(jù)安全與隱私法規(guī)，系統(tǒng)通常禁止長(zhǎng)期存儲(chǔ)歷史圖像或身份數(shù)據(jù)。LSTKC++ 在整個(gè)持續(xù)學(xué)習(xí)過(guò)程中無(wú)需訪問(wèn)任何歷史樣本或緩存數(shù)據(jù)，具備天然的隱私友好性。
高效學(xué)習(xí)，快速部署。 LSTKC++ 無(wú)需保存圖像或額外身份原型等，在多輪更新中也不會(huì)引入顯存負(fù)擔(dān)或冗余參數(shù)。同時(shí)，相比現(xiàn)有方法（如 DKP），該方法大幅減少了參數(shù)規(guī)模與顯存占用，訓(xùn)練過(guò)程高效，可快速完成模型更新，滿足資源受限設(shè)備上的持續(xù)學(xué)習(xí)需求。

未來(lái)展望

LSTKC++ 為無(wú)樣本持續(xù)學(xué)習(xí)提供了結(jié)構(gòu)化解決方案，未來(lái)仍具備多維度的研究與拓展空間：

向預(yù)訓(xùn)練視覺大模型拓展。 當(dāng)前終身學(xué)習(xí)方法多數(shù)基于 CNN 架構(gòu)設(shè)計(jì)，然而預(yù)訓(xùn)練視覺大模型在視覺任務(wù)中已展現(xiàn)出強(qiáng)大表達(dá)能力。如何將 LSTKC++ 的知識(shí)解耦與鞏固機(jī)制遷移至大模型框架，并結(jié)合其先驗(yàn)語(yǔ)義進(jìn)行持續(xù)學(xué)習(xí)，是一個(gè)具有理論深度與實(shí)際價(jià)值的重要方向。
研究多模態(tài)感知下的持續(xù)學(xué)習(xí)機(jī)制。 現(xiàn)有終身行人重識(shí)別研究主要基于可見光圖像，尚未充分考慮紅外、深度圖、文本描述等多模態(tài)信息。在傳感設(shè)備普及的背景下，融合多模態(tài)數(shù)據(jù)以提升持續(xù)學(xué)習(xí)的穩(wěn)定性、抗干擾能力，將是推動(dòng)算法實(shí)用化的重要路徑。
推廣至通用類別的域增量識(shí)別任務(wù)。 LSTKC++ 當(dāng)前聚焦于「跨域+跨身份」的行人檢索問(wèn)題，然而在現(xiàn)實(shí)應(yīng)用中，物品、交通工具、動(dòng)物等通用類別同樣面臨動(dòng)態(tài)領(lǐng)域變化現(xiàn)象。將本方法推廣至通用類別的域增量學(xué)習(xí)場(chǎng)景，有望提升大規(guī)模視覺系統(tǒng)在開放環(huán)境下的適應(yīng)性與擴(kuò)展能力。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心