GRIT:讓AI"指著圖說話"的新思路
GRIT從本質上而言是一種改良過的強化學習,它針對輸出進行了魔改,用一個生活例子來理解。想象一下,你在和朋友看一張照片,朋友問你:"這張照片里有幾只貓?"普通人會怎么回答?"我看看,這里有一只白貓(用手指著左上角),那里還有一只黑貓(指著右下角),所以一共有2只貓。"
傳統AI是怎么回答的?"我需要仔細觀察這張圖片,分析其中的動物特征,通過形狀、顏色等特征識別,最終得出結論:圖片中有2只貓。"
看出區別了嗎?人類會指著具體位置來說明自己的推理過程,而傳統AI只會給出文字描述,卻不會告訴你它在看圖片的哪個部分。
1)傳統AI的問題在于看圖推理時"指鹿為馬",分析圖片時就像睜眼瞎,也許它可能說"我看到了一只狗",但實際上圖片里根本沒有狗。它無法告訴你它在看圖片的哪個位置。打個比方: 就像一個學生在考試時寫答案,卻不顯示計算過程。老師無法知道他是真的會做,還是瞎猜的。
2)要訓練一個能"指著圖說話"的AI,傳統方法需要數萬張圖片,每張圖片都要人工標注詳細信息(這只貓在哪里、那只狗在哪里),還要寫出詳細的推理步驟。
這就像: 要教一個孩子認識動物,不僅要給他看圖片,還要在每張圖片上畫出每只動物的位置,寫出詳細的識別過程。工作量巨大。
GRIT進行了微創新,教AI"用坐標指路",GRIT教會AI在推理時不只說話,還要"指路":
- 傳統AI的回答:"我看到圖片中有車輛,通過分析可以確定有2輛車。"
- GRIT訓練的AI回答:
<think>
我需要數一數圖片中的車輛。
左上角有一輛紅色汽車 [123,456,234,567],
右下角還有一輛藍色卡車 [321,432,654,543]
</think>
<rethink>
讓我再仔細確認一下這兩個位置:
第一個位置[123,456,234,567]確實是紅色汽車,
第二個位置[321,432,654,543]確實是藍色卡車。
</rethink>
<answer>
圖片中有2輛車。
</answer>
這里的數字[123,456,234,567]就是坐標,就像GPS定位一樣,告訴你AI在看圖片的哪個具體區域!
GRIT的神奇之處:只需要20張圖片就能訓練成功。GRIT只在答對時給糖果,答錯時不給獎勵。
- 獎勵1 - 格式獎勵(教規矩)
- 獎勵2 - 計數獎勵(教準確)
- 獎勵3 - 答案獎勵(教正確)
用GPT-4o當"老師"來判斷答案對不對,答對了 → 給大獎勵,反之答錯了 → 給小獎勵或不給獎勵。
- 如果需要數3只貓,AI指出了3個位置 → 給獎勵
- 如果指出了2個或4個位置 → 不給獎勵。就像教孩子數數要準確一樣
- 如果AI按照 <think>...坐標...</think> 的格式回答 → 給獎勵
- 如果AI亂說話不按格式 → 不給獎勵,就像教孩子說話要有禮貌一樣
傳統方法可能需要請100個老師,準備1萬本教材,教3個月。而GRIT則是請1個老師,準備20本教材,教1天。而且GRIT讓AI變得"誠實":
- 以前用戶:"為什么你說這里有只貓?"。AI:"我就是覺得有"(無法解釋)
- 現在用戶:"為什么你說這里有只貓?",AI:"因為我在坐標[100,200,300,400]這個位置看到了貓的特征"。用戶可以立即驗證這個位置是否真的有貓
第一步:接收任務輸入,例如一張客廳照片 + "房間里有幾把椅子?"
第二步:開始思考(<think>階段)
AI開始掃描圖片:
<think>
我需要在這張客廳圖片中找到所有的椅子。
讓我仔細看看...
第三步:指出位置并分析,AI找到可疑區域并標記坐標:
我在左邊看到一把木椅 [50,100,150,200],
中間有一把沙發椅 [200,150,350,250],
右邊角落還有一把小椅子 [400,300,500,400]
第四步:再次確認(<rethink>階段)AI重新檢查自己找到的位置:
<rethink>
讓我再次確認這些位置:
位置[50,100,150,200]:確實是一把木質餐椅
位置[200,150,350,250]:這是一把單人沙發椅
位置[400,300,500,400]:這是一把小凳子,也算椅子
所以總共有3把椅子。
</rethink>
第五步:給出最終答案
<answer>
房間里有3把椅子。
</answer>
以下為強化學習的過程,這個過程很像訓練寵物:
- 第一輪嘗試:
AI生成答案:"房間里有椅子[亂七八糟的數字],所以有2把"
系統判斷:格式亂、位置錯、答案也錯獎勵:0分(什么都不給)
- 第二輪嘗試:
AI生成答案:"<think>有椅子[100,200,300,400]</think> <answer>1把</answer>"
系統判斷:格式對、位置對、但答案錯了獎勵:1分(格式獎勵+位置獎勵)
第三輪嘗試:
AI生成完整的推理過程,格式正確,位置準確,答案正確獎勵:滿分!
經過多次訓練: AI學會了同時做好三件事:按正確格式回答,準確指出位置,給出正確答案
從視覺定位(grounding)和邏輯推理(reasoning)兩個角度評估了使用 GRIT 方法訓練的多模態模型在“定位式推理”(grounded reasoning)任務中的表現。接著,從定性與定量兩個方面進一步分析了模型生成的邊界框與其推理內容之間的相互作用。最后還研究了訓練數據規模擴大對模型性能的影響。
在實驗設置方面,選取了六個公共數據集(VSR、TallyQA、GQA、MME、MathVista-mini 和 OVDEval 的位置子集)作為評測集,涵蓋空間關系驗證、目標計數、組合式空間問答、多樣化視覺任務及開放詞表定位等任務類型。
訓練數據方面,展示了GRIT在小樣本場景下的強大能力,僅使用來自VSR和TallyQA的20個圖像-問題-答案三元組進行訓練。訓練使用 Qwen2.5-VL-3B 和 InternVL3-2B 兩個主流多模態模型,在 GRPO-GR 策略下采用強化學習進行優化,訓練步驟為 200,使用 Deepspeed Zero2 在 8 張 A100 顯卡上完成,訓練耗時約 12 小時。
實驗結果表明,GRIT 訓練出的模型在 GPT-答案準確率和 Grounding IoU 兩個指標上均優于所有基線方法,體現了其在統一視覺定位與多步推理能力上的顯著優勢。
本文轉載自??????魯班模錘??????,作者:龐德公
