會“思考”的目標(biāo)檢測模型來了！IDEA提出Rex-Thinker：基于思維鏈的指代物體檢測模型，準(zhǔn)確率+可解釋性雙突破

2025-07-01 08:53:26

最近， IDEA 提出全新解決方案 Rex-Thinker ，首次將人類思維中的 “邏輯推理鏈” 引入視覺指代任務(wù)，讓 AI 像人一樣分步思考、驗(yàn)證證據(jù)，在權(quán)威測評中不僅準(zhǔn)確率顯著提升，更展現(xiàn)出強(qiáng)大的 “知之為知之” 能力！

Caption： Rex-Thinker 的思考過程

在日常生活中，我們常通過語言描述尋找特定物體：“穿藍(lán)襯衫的人”“桌子左邊的杯子”。如何讓 AI 精準(zhǔn)理解這類指令并定位目標(biāo)，一直是計(jì)算機(jī)視覺的核心挑戰(zhàn)。現(xiàn)有方法常被兩大問題困擾：決策過程不透明（“黑箱” 預(yù)測）和拒識能力不足（對不存在物體輸出錯誤結(jié)果）。

圖 1：指代檢測的應(yīng)用場景實(shí)例

項(xiàng)目主頁：https://rexthinker.github.io/?
在線 Demo：https://huggingface.co/spaces/Mountchicken/Rex-Thinker
Demo?論文地址：https://arxiv.org/abs/2506.04034
開源代碼：https://github.com/IDEA-Research/Rex-Thinker
投稿人：Qing Jiang
投稿團(tuán)隊(duì)：IDEA-CVR

突破在哪？讓 AI 學(xué)會 “思考三步走”

傳統(tǒng)模型直接輸出目標(biāo)檢測框，而 Rex-Thinker 創(chuàng)新性地構(gòu)建了可解釋的推理框架：

1. 規(guī)劃（Planning）拆解語言指令：“找到坐在烏龜上的人” → 分解為 “第一步找到烏龜 → 第二步判斷每個人是否坐在烏龜上”

2. 驗(yàn)證（Action）對每個候選目標(biāo)（如 “Person 1”“Person 2”）逐步核對子條件，每一步的分析都綁定圖中具體區(qū)域（比如 Person 1 就對應(yīng)圖中標(biāo)號為 Person 的人）（見圖 2）

3. 決策（Summarization）匯總驗(yàn)證結(jié)果，輸出匹配目標(biāo)的坐標(biāo)或聲明 “未找到”

圖 2: Rex-Thinker 推理示例

模型結(jié)構(gòu)：基于檢索的檢測多模態(tài)模型設(shè)計(jì) + CoT 推理

圖 3: Rex-Thinker 模型結(jié)構(gòu)

如圖 3 所示，Rex-Thinker 在模型設(shè)計(jì)上，采用了基于檢索策略，即先通過一個開集檢測模型提取出所有的候選框，然后將候選框輸入到模型中，然后模型對每個候選框進(jìn)行推理，最后再輸出答案，具體而言每個步驟為：

1. 候選框生成：使用開放詞匯檢測器（如 Grounding DINO）提前檢測出所有可能的目標(biāo)區(qū)域，作為 Box Hint 輸入；

2. 鏈?zhǔn)酵评恚–oT Reasoning）: 給定候選框，模型逐個對比、推理，生成結(jié)構(gòu)化思考過程 <think>...</think> 和最終答案 <answer>…</answer>。整個過程的輸入 prompt 如下所示：

圖 4 . Rex-Thinker 的輸入 prompt 構(gòu)成。

3. 輸出格式：最終輸出標(biāo)準(zhǔn)化 JSON 格式的目標(biāo)坐標(biāo)，這種設(shè)計(jì)既規(guī)避了直接回歸坐標(biāo)的困難，也讓每步推理有圖像依據(jù)，提升可解釋性和推理可信度。

訓(xùn)練流程：SFT 冷啟動 + GRPO 后訓(xùn)練，打造強(qiáng)大推理能力

要讓 AI 具備像人一樣的推理能力，關(guān)鍵在于教會它怎么一步步思考。為此，Rex-Thinker 采用了兩階段訓(xùn)練策略，從構(gòu)建高質(zhì)量推理數(shù)據(jù)集開始。

圖 5: HumanRef-CoT 數(shù)據(jù)集構(gòu)造流程

1. 構(gòu)建推理數(shù)據(jù)集 HumanRef-CoT

首先，團(tuán)隊(duì)在已有的 HumanRef 數(shù)據(jù)集（專注多人物指代）基礎(chǔ)上，利用 GPT-4o 自動生成了 9 萬條鏈?zhǔn)酵评硎纠瑯?gòu)建了 HumanRef-CoT，主要特點(diǎn)包括：

完整推理鏈：每條樣本嚴(yán)格按照「規(guī)劃（Planning）- 驗(yàn)證（Action）- 總結(jié)（Summarization）」的推理流程生成。
多樣化推理場景：覆蓋單目標(biāo)、多目標(biāo)、屬性組合、空間關(guān)系、交互行為等復(fù)雜描述；
拒答樣本：特意加入了無匹配目標(biāo)的描述，引導(dǎo)模型學(xué)會在必要時拒絕作答，提升抗幻覺能力。

這一數(shù)據(jù)集首次系統(tǒng)性地引入了推理鏈標(biāo)注，為訓(xùn)練具有推理能力的視覺指代模型奠定了基礎(chǔ)。

2. 兩階段訓(xùn)練策略

圖 6. Rex-Thinker 采用的兩階段訓(xùn)練方法

（1）冷啟動訓(xùn)練

首先在 HumanRef-CoT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)（SFT），這個階段主要幫助模型掌握基本的推理框架和輸出規(guī)范。

（2）GRPO-based 強(qiáng)化學(xué)習(xí)后訓(xùn)練

有了基礎(chǔ)推理能力后，進(jìn)入關(guān)鍵的 GRPO 強(qiáng)化學(xué)習(xí)階段，進(jìn)一步提升推理質(zhì)量與可靠性。通過引入 F1 準(zhǔn)確率獎勵 + 格式規(guī)范獎勵，讓模型自我優(yōu)化推理路徑。這一機(jī)制避免了單一推理路徑訓(xùn)練可能帶來的過擬合問題，促進(jìn)了模型在推理策略上的多樣性和泛化能力。最終，GRPO 不僅提升了模型的推理精度，還顯著增強(qiáng)了面對陌生類別、復(fù)雜描述時的魯棒性和抗幻覺能力。如下圖所示，模型在未見過的類別（熱狗）也具備推理能力

圖 7. Rex-Thinker 在 GRPO 后訓(xùn)練后泛化到任意物體

實(shí)驗(yàn)結(jié)果: SFT 賦予模型 CoT 能力， GRPO 提升模型泛化能力

在 HumanRef Benchmark 上，Rex-Thinker 展示了顯著的性能提升。團(tuán)隊(duì)測試了三種模型版本：

Rex-Thinker-Plain：只訓(xùn)練最終檢測結(jié)果，沒有推理監(jiān)督；
Rex-Thinker-CoT：加入思維鏈（CoT）監(jiān)督，學(xué)會 “如何思考”；
Rex-Thinker-GRPO：在 CoT 基礎(chǔ)上，用 GRPO 強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化推理質(zhì)量。

表 1 Rex-Thinker 在 HumanRef Benchmark 上的評測結(jié)果

如表 1 結(jié)果顯示，加入 CoT 監(jiān)督后，模型在各項(xiàng)指標(biāo)上全面優(yōu)于基礎(chǔ)版本，平均提升 0.9 點(diǎn) DF1 指標(biāo)，尤其在 “拒識” 子集上的表現(xiàn)提升尤為明顯，Rejection Score 提高了 13.8 個百分點(diǎn)，說明推理鏈的引入顯著增強(qiáng)了模型對 “不存在目標(biāo)” 的識別能力。進(jìn)一步地，GRPO 訓(xùn)練在 CoT 基礎(chǔ)上帶來了額外性能提升，平均 DF1 提升至 83.5。相比單一推理路徑的監(jiān)督學(xué)習(xí)，GRPO 引導(dǎo)模型通過獎勵機(jī)制探索更優(yōu)推理路徑，顯著改善了復(fù)雜場景下的魯棒性和判斷準(zhǔn)確性。

表 2 Rex-Thinker 在 RefCOCOg 數(shù)據(jù)集上的泛化結(jié)果

此外，在 RefCOCOg 數(shù)據(jù)集上的跨類別評估中，Rex-Thinker 同樣表現(xiàn)出良好的遷移能力。在不進(jìn)行任何針對性微調(diào)的情況下，模型仍能準(zhǔn)確推理出目標(biāo)位置，體現(xiàn)出良好的泛化能力。通過對 RefCOCOg 的少量 GRPO 微調(diào)，模型性能進(jìn)一步接近甚至超過現(xiàn)有主流方法，驗(yàn)證了該方法在新類別和新任務(wù)中的可拓展性。

可視化結(jié)果

我們接下來展示一下 Rex-Thinker 的推理過程可視化，包括、每一步條件驗(yàn)證及最終決策輸出。圖中顯著標(biāo)注了模型在圖像中如何逐步定位目標(biāo)、如何識別條件是否滿足，并最終輸出結(jié)果或拒絕預(yù)測。這些可視化不僅體現(xiàn)了模型良好的目標(biāo)理解能力，也突出了其推理路徑的清晰性與可解釋性。特別是在存在多個干擾項(xiàng)或不存在目標(biāo)的場景中，Rex-Thinker 能夠給出詳盡的否定推理，展示出 “知之為知之，不知為不知” 的能力。這一能力在傳統(tǒng)視覺模型中極為罕見，凸顯了思維鏈機(jī)制在實(shí)際應(yīng)用中的價(jià)值。