成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

會“思考”的目標(biāo)檢測模型來了!IDEA提出Rex-Thinker:基于思維鏈的指代物體檢測模型,準(zhǔn)確率+可解釋性雙突破

人工智能 新聞
最近, IDEA 提出全新解決方案 Rex-Thinker ,首次將人類思維中的 “邏輯推理鏈” 引入視覺指代任務(wù),讓 AI 像人一樣分步思考、驗(yàn)證證據(jù),在權(quán)威測評中不僅準(zhǔn)確率顯著提升,更展現(xiàn)出強(qiáng)大的 “知之為知之” 能力!

Caption: Rex-Thinker 的思考過程

在日常生活中,我們常通過語言描述尋找特定物體:“穿藍(lán)襯衫的人”“桌子左邊的杯子”。如何讓 AI 精準(zhǔn)理解這類指令并定位目標(biāo),一直是計(jì)算機(jī)視覺的核心挑戰(zhàn)。現(xiàn)有方法常被兩大問題困擾: 決策過程不透明 (“黑箱” 預(yù)測)和 拒識能力不足 (對不存在物體輸出錯誤結(jié)果)。

圖片

圖 1:指代檢測的應(yīng)用場景實(shí)例

最近, IDEA 提出全新解決方案 Rex-Thinker ,首次將人類思維中的 “邏輯推理鏈” 引入視覺指代任務(wù),讓 AI 像人一樣分步思考、驗(yàn)證證據(jù),在權(quán)威測評中不僅準(zhǔn)確率顯著提升,更展現(xiàn)出強(qiáng)大的 “知之為知之” 能力!

圖片

  • 項(xiàng)目主頁:https://rexthinker.github.io/?
  • 在線 Demo:https://huggingface.co/spaces/Mountchicken/Rex-Thinker
  • Demo?論文地址:https://arxiv.org/abs/2506.04034
  • 開源代碼:https://github.com/IDEA-Research/Rex-Thinker
  • 投稿人:Qing Jiang
  • 投稿團(tuán)隊(duì):IDEA-CVR

突破在哪?讓 AI 學(xué)會 “思考三步走”

傳統(tǒng)模型直接輸出目標(biāo)檢測框,而 Rex-Thinker 創(chuàng)新性地構(gòu)建了可解釋的推理框架:

1. 規(guī)劃 (Planning)拆解語言指令:“找到坐在烏龜上的人” → 分解為 “第一步找到烏龜 → 第二步判斷每個人是否坐在烏龜上”

2. 驗(yàn)證 (Action)對每個候選目標(biāo)(如 “Person 1”“Person 2”)逐步核對子條件, 每一步的分析都綁定圖中具體區(qū)域 (比如 Person 1 就對應(yīng)圖中標(biāo)號為 Person 的人) (見圖 2)

3. 決策 (Summarization)匯總驗(yàn)證結(jié)果,輸出匹配目標(biāo)的坐標(biāo)或聲明 “未找到”

圖片

圖 2: Rex-Thinker 推理示例

模型結(jié)構(gòu):基于檢索的檢測多模態(tài)模型設(shè)計(jì) + CoT 推理

圖片

圖 3: Rex-Thinker 模型結(jié)構(gòu)

如圖 3 所示,Rex-Thinker 在模型設(shè)計(jì)上,采用了基于檢索策略,即先通過一個開集檢測模型提取出所有的候選框,然后將候選框輸入到模型中,然后模型對每個候選框進(jìn)行推理,最后再輸出答案,具體而言每個步驟為:

1. 候選框生成: 使用開放詞匯檢測器(如 Grounding DINO)提前檢測出所有可能的目標(biāo)區(qū)域,作為 Box Hint 輸入;

2. 鏈?zhǔn)酵评恚–oT Reasoning): 給定候選框,模型逐個對比、推理,生成結(jié)構(gòu)化思考過程 <think>...</think> 和最終答案 <answer>…</answer>。整個過程的輸入 prompt 如下所示:

圖片

圖 4 . Rex-Thinker 的輸入 prompt 構(gòu)成。

3. 輸出格式:最終輸出標(biāo)準(zhǔn)化 JSON 格式的目標(biāo)坐標(biāo),這種設(shè)計(jì)既規(guī)避了直接回歸坐標(biāo)的困難,也讓每步推理有圖像依據(jù),提升可解釋性和推理可信度。

訓(xùn)練流程:SFT 冷啟動 + GRPO 后訓(xùn)練,打造強(qiáng)大推理能力

要讓 AI 具備像人一樣的推理能力,關(guān)鍵在于教會它怎么一步步思考。為此,Rex-Thinker 采用了兩階段訓(xùn)練策略,從構(gòu)建高質(zhì)量推理數(shù)據(jù)集開始。

圖片

圖 5: HumanRef-CoT 數(shù)據(jù)集構(gòu)造流程

1. 構(gòu)建推理數(shù)據(jù)集 HumanRef-CoT

首先,團(tuán)隊(duì)在已有的 HumanRef 數(shù)據(jù)集(專注多人物指代)基礎(chǔ)上,利用 GPT-4o 自動生成了 9 萬條鏈?zhǔn)酵评硎纠瑯?gòu)建了 HumanRef-CoT,主要特點(diǎn)包括:

  • 完整推理鏈:每條樣本嚴(yán)格按照「規(guī)劃(Planning)- 驗(yàn)證(Action)- 總結(jié)(Summarization)」的推理流程生成。
  • 多樣化推理場景:覆蓋單目標(biāo)、多目標(biāo)、屬性組合、空間關(guān)系、交互行為等復(fù)雜描述;
  • 拒答樣本:特意加入了無匹配目標(biāo)的描述,引導(dǎo)模型學(xué)會在必要時拒絕作答,提升抗幻覺能力。

這一數(shù)據(jù)集首次系統(tǒng)性地引入了推理鏈標(biāo)注,為訓(xùn)練具有推理能力的視覺指代模型奠定了基礎(chǔ)。

2. 兩階段訓(xùn)練策略

圖片

圖 6. Rex-Thinker 采用的兩階段訓(xùn)練方法

(1)冷啟動訓(xùn)練

首先在 HumanRef-CoT 數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)(SFT),這個階段主要幫助模型掌握基本的推理框架和輸出規(guī)范。

(2)GRPO-based 強(qiáng)化學(xué)習(xí)后訓(xùn)練

有了基礎(chǔ)推理能力后,進(jìn)入關(guān)鍵的 GRPO 強(qiáng)化學(xué)習(xí)階段,進(jìn)一步提升推理質(zhì)量與可靠性。通過引入 F1 準(zhǔn)確率獎勵 + 格式規(guī)范獎勵 ,讓模型自我優(yōu)化推理路徑。這一機(jī)制避免了單一推理路徑訓(xùn)練可能帶來的過擬合問題,促進(jìn)了模型在推理策略上的多樣性和泛化能力。 最終,GRPO 不僅提升了模型的推理精度,還顯著增強(qiáng)了面對陌生類別、復(fù)雜描述時的魯棒性和抗幻覺能力。如下圖所示,模型在未見過的類別(熱狗)也具備推理能力

圖片

圖 7. Rex-Thinker 在 GRPO 后訓(xùn)練后泛化到任意物體

實(shí)驗(yàn)結(jié)果: SFT 賦予模型 CoT 能力, GRPO 提升模型泛化能力

在 HumanRef Benchmark 上,Rex-Thinker 展示了顯著的性能提升。團(tuán)隊(duì)測試了三種模型版本:

  • Rex-Thinker-Plain:只訓(xùn)練最終檢測結(jié)果,沒有推理監(jiān)督;
  • Rex-Thinker-CoT:加入思維鏈(CoT)監(jiān)督,學(xué)會 “如何思考”;
  • Rex-Thinker-GRPO:在 CoT 基礎(chǔ)上,用 GRPO 強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化推理質(zhì)量。

圖片

表 1 Rex-Thinker 在 HumanRef Benchmark 上的評測結(jié)果

如表 1 結(jié)果顯示,加入 CoT 監(jiān)督后,模型在各項(xiàng)指標(biāo)上全面優(yōu)于基礎(chǔ)版本,平均提升 0.9 點(diǎn) DF1 指標(biāo),尤其在 “拒識” 子集上的表現(xiàn)提升尤為明顯,Rejection Score 提高了 13.8 個百分點(diǎn),說明推理鏈的引入顯著增強(qiáng)了模型對 “不存在目標(biāo)” 的識別能力。進(jìn)一步地,GRPO 訓(xùn)練在 CoT 基礎(chǔ)上帶來了額外性能提升,平均 DF1 提升至 83.5。相比單一推理路徑的監(jiān)督學(xué)習(xí),GRPO 引導(dǎo)模型通過獎勵機(jī)制探索更優(yōu)推理路徑,顯著改善了復(fù)雜場景下的魯棒性和判斷準(zhǔn)確性。

圖片

表 2 Rex-Thinker 在 RefCOCOg 數(shù)據(jù)集上的泛化結(jié)果

此外,在 RefCOCOg 數(shù)據(jù)集上的跨類別評估中,Rex-Thinker 同樣表現(xiàn)出良好的遷移能力。在不進(jìn)行任何針對性微調(diào)的情況下,模型仍能準(zhǔn)確推理出目標(biāo)位置,體現(xiàn)出良好的泛化能力。通過對 RefCOCOg 的少量 GRPO 微調(diào),模型性能進(jìn)一步接近甚至超過現(xiàn)有主流方法,驗(yàn)證了該方法在新類別和新任務(wù)中的可拓展性。

可視化結(jié)果

我們接下來展示一下 Rex-Thinker 的推理過程可視化,包括、每一步條件驗(yàn)證及最終決策輸出。圖中顯著標(biāo)注了模型在圖像中如何逐步定位目標(biāo)、如何識別條件是否滿足,并最終輸出結(jié)果或拒絕預(yù)測。這些可視化不僅體現(xiàn)了模型良好的目標(biāo)理解能力,也突出了其推理路徑的清晰性與可解釋性。特別是在存在多個干擾項(xiàng)或不存在目標(biāo)的場景中,Rex-Thinker 能夠給出詳盡的否定推理,展示出 “知之為知之,不知為不知” 的能力。這一能力在傳統(tǒng)視覺模型中極為罕見,凸顯了思維鏈機(jī)制在實(shí)際應(yīng)用中的價(jià)值。

圖片

圖片

圖片

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2021-11-01 10:40:15

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機(jī)器學(xué)習(xí)

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2025-01-13 10:00:00

2024-08-27 10:20:00

2021-08-10 16:01:18

模型人工智能深度學(xué)習(xí)

2019-03-28 09:26:26

數(shù)據(jù)科學(xué)模型機(jī)器學(xué)習(xí)

2023-03-07 16:48:54

算法可解釋性

2025-01-13 08:13:18

2025-06-16 08:51:00

2024-09-18 05:25:00

可解釋性人工智能AI

2024-07-05 09:21:37

2024-04-08 07:02:40

AI服務(wù)器人工智能

2024-11-04 14:26:14

2020-04-26 15:35:49

神經(jīng)網(wǎng)絡(luò)決策樹ImageNet

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2025-04-18 08:42:52

模型推理AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91se在线 | 99热首页| 精品成人av| 欧美日韩国产高清 | 国产在线精品一区二区三区 | 日韩精品在线播放 | 亚洲一级毛片 | 夜夜骑av| 91久久北条麻妃一区二区三区 | 97成人精品 | 国产成人精品区一区二区不卡 | 一区二区免费看 | av在线播放网 | 国产超碰人人爽人人做人人爱 | 国产精品国产a | 国产良家自拍 | 99在线国产 | 久久99精品久久久97夜夜嗨 | 久久综合狠狠综合久久综合88 | 一级高清| 欧美黄在线观看 | 日韩a在线 | 国产精品欧美一区二区三区不卡 | 日本午夜在线视频 | 成人蜜桃av | 中文字幕黄色大片 | 久草在线视频中文 | 欧美日韩视频在线 | www.免费看片.com | av中文字幕在线 | 91天堂网 | 91av视频在线观看 | 亚洲国产精品99久久久久久久久 | 亚洲一区国产精品 | 日韩av大片免费看 | 中文字幕av网址 | 精品国产一区二区三区性色av | 九九亚洲 | 国产精品99精品久久免费 | 欧美男人的天堂 | 日日操日日干 |