機(jī)器人視覺語言導(dǎo)航進(jìn)入R1時(shí)代!港大聯(lián)合上海AI Lab提出全新具身智能框架
你對著家里的機(jī)器人說:“去廚房,看看冰箱里還有沒有牛奶?!?/span>
它不僅準(zhǔn)確走到了廚房,還在移動過程中避開了椅子,轉(zhuǎn)身打開冰箱,并回答你:“還有半瓶?!?/span>
這不是遙遠(yuǎn)的科幻,而是視覺語言導(dǎo)航技術(shù)的下一站。
由香港大學(xué)與上海AI Lab聯(lián)合提出的VLN-R1,具備將自然語言指令直接轉(zhuǎn)化為第一人稱視角下的連續(xù)導(dǎo)航動作的能力,無需依賴離散地圖,能在復(fù)雜環(huán)境中靈活感知、決策與行動,實(shí)現(xiàn)類人級別的具身智能導(dǎo)航。
在VLN-CE基準(zhǔn)測試中,VLN-R1展現(xiàn)出了很強(qiáng)性能,僅用Qwen2-VL-2B模型(20億參數(shù)),通過RFT訓(xùn)練后就超越了7B模型的SFT結(jié)果。
更具挑戰(zhàn)性的長距離導(dǎo)航中,VLN-R1實(shí)現(xiàn)了“跨域遷移”——在R2R上預(yù)訓(xùn)練后,僅用1萬RxR樣本進(jìn)行RFT,性能就超過了使用完整RxR數(shù)據(jù)訓(xùn)練的模型,彰顯出極強(qiáng)的數(shù)據(jù)效率。
VLN-R1:讓LVLM采用類Deepseek-R1范式成為具身導(dǎo)航會思考的“大腦”
視覺語言導(dǎo)航(VLN)是具身人工智能領(lǐng)域的核心挑戰(zhàn)之一。其核心要求是:讓智能體能夠基于自然語言指令(如“走到客廳的沙發(fā)旁”),在現(xiàn)實(shí)環(huán)境中自主完成導(dǎo)航任務(wù)。
這一任務(wù)的復(fù)雜性在于,智能體需要同時(shí)理解語言語義,并結(jié)合實(shí)時(shí)視覺感知來規(guī)劃行動路徑,實(shí)現(xiàn)“語言指令”與“環(huán)境交互”的跨模態(tài)融合。
當(dāng)前主流的基于語言模型的導(dǎo)航系統(tǒng),普遍依賴離散拓?fù)鋱D進(jìn)行路徑規(guī)劃。具體表現(xiàn)為:
- 將環(huán)境抽象為預(yù)定義的“節(jié)點(diǎn)”(如房間入口、走廊拐角等)和“連接邊”(節(jié)點(diǎn)間的可行路徑);
- 導(dǎo)航過程被限制在這些預(yù)設(shè)的節(jié)點(diǎn)連接范圍內(nèi),無法靈活應(yīng)對未標(biāo)注的環(huán)境細(xì)節(jié)或動態(tài)變化(例如突然出現(xiàn)的障礙物);
- 這種離散化的處理方式,導(dǎo)致系統(tǒng)對復(fù)雜環(huán)境的適應(yīng)性較差,難以實(shí)現(xiàn)真正貼近人類日常的連續(xù)導(dǎo)航動作(如繞開茶幾、調(diào)整行走方向等)。
VLN-R1的核心突破在于打破了“視覺輸入→文本描述→離散決策”的傳統(tǒng)鏈條,直接讓LVLM(如Qwen2-VL)以第一人稱視頻流為”眼睛”,輸出連續(xù)導(dǎo)航動作(前進(jìn)、左轉(zhuǎn)、右轉(zhuǎn)、停止)。
這一框架具有三大創(chuàng)新支柱:
兩階段訓(xùn)練+時(shí)間衰減獎(jiǎng)勵(lì):從模仿到強(qiáng)化的智能進(jìn)化
1.監(jiān)督微調(diào)(SFT):讓模型先通過專家演示學(xué)習(xí)”正確動作序列的文本表達(dá)”,例如看到”前方有門”時(shí)輸出”FORWARD”動作描述。
2.強(qiáng)化微調(diào)(RFT):為了讓導(dǎo)航需要考慮動作的前后關(guān)聯(lián)(比如現(xiàn)在轉(zhuǎn)錯(cuò)方向,后面就很難到達(dá)目標(biāo))。為此,強(qiáng)化微調(diào)階段引入了 “獎(jiǎng)勵(lì)機(jī)制”,讓模型在試錯(cuò)中學(xué)會更聰明的決策:
a.分組對比優(yōu)化(GRPO)
模型會針對同一組指令和畫面,同時(shí)生成多個(gè)不同的動作方案(比如 8 種走法),然后通過比較這些 方案的“好壞”來優(yōu)化策略:好的方案會被鼓勵(lì)多生成,差的方案則減少出現(xiàn),就像人類在多個(gè)選項(xiàng) 中選擇最優(yōu)路徑。這種方法不需要提前設(shè)定固定的獎(jiǎng)勵(lì)規(guī)則,而是通過方案間的相對優(yōu)劣來學(xué)習(xí),更符合真實(shí)環(huán)境的復(fù)雜性。
b.時(shí)間衰減獎(jiǎng)勵(lì)(TDR):讓模型關(guān)注“眼前重點(diǎn)”
在真實(shí)導(dǎo)航場景中,當(dāng)前動作的準(zhǔn)確性直接決定了后續(xù)規(guī)劃的可行性 —— 就像人類走路時(shí)若不先避開眼前的障礙物,即便遠(yuǎn)處的路線規(guī)劃得再完美也會碰壁。
TDR機(jī)制正是模擬了這一人類直覺:它對近期動作(如當(dāng)前步、下一步)賦予更高的獎(jiǎng)勵(lì)權(quán)重,而隨著時(shí)間推移,遠(yuǎn)期動作(如 5 步之后)的權(quán)重會逐步降低。
這種設(shè)計(jì)讓模型學(xué)會優(yōu)先確保眼前動作的精準(zhǔn)執(zhí)行,比如先完成關(guān)鍵的轉(zhuǎn)彎避開障礙,再循序漸進(jìn)地考慮后續(xù)步驟,避免因過度關(guān)注遠(yuǎn)處目標(biāo)而忽視當(dāng)下的環(huán)境風(fēng)險(xiǎn),如同人類行走時(shí)總是先看好腳下的每一步,再規(guī)劃前方的行進(jìn)路線。
VLN-Ego數(shù)據(jù)集:構(gòu)建具身智能的“訓(xùn)練操場”
研究團(tuán)隊(duì)利用Habitat模擬器構(gòu)建了全新的VLN-Ego數(shù)據(jù)集,包含63萬R2R(房間到房間)和120萬RxR(跨房間)訓(xùn)練樣本。每個(gè)樣本由三部分組成:自然語言指令(如“走過餐桌,左轉(zhuǎn)進(jìn)入走廊”)、第一人稱歷史視覺記憶與當(dāng)前觀測、未來6步的動作標(biāo)簽。
與傳統(tǒng)數(shù)據(jù)集不同,VLN-Ego完全基于第一人稱視角,摒棄了全局地圖等“作弊”信息,迫使模型學(xué)會基于實(shí)時(shí)視覺輸入的決策能力。
短時(shí)記憶采樣:平衡歷史經(jīng)驗(yàn)與實(shí)時(shí)感知
為解決視覺序列處理中“近期信息過載、長期記憶丟失”的難題,VLN-R1提出了長短時(shí)記憶采樣策略。
模型會以較高頻率采樣最近M步的短期記憶(如當(dāng)前看到的沙發(fā)位置),同時(shí)以較低頻率抽取更早的長期記憶(如走廊的初始方向),通過這種”遠(yuǎn)近結(jié)合”的方式,確保Agent在復(fù)雜環(huán)境中既不迷失方向,又能對突發(fā)情況做出反應(yīng)。
實(shí)驗(yàn)驗(yàn)證:小模型超越大模型,數(shù)據(jù)效率顛覆認(rèn)知
除了前文所描述的性能表現(xiàn),更值得關(guān)注的是VLN-R1的”小而美”特性——通過RFT優(yōu)化,2B模型性能直逼7B模型,這為資源受限場景(如家用機(jī)器人)的落地提供了可能。
具身智能的未來:從導(dǎo)航到認(rèn)知的全鏈路升級
該研究的核心啟示在于:具身智能的關(guān)鍵不是復(fù)雜的模塊化設(shè)計(jì),而是讓模型像人類一樣,通過“感知-決策-行動”的閉環(huán)進(jìn)行學(xué)習(xí)。VLN-R1證明,LVLM完全有能力成為這個(gè)閉環(huán)的“控制中樞”,而時(shí)間衰減獎(jiǎng)勵(lì)等機(jī)制則為模型注入了對物理世界時(shí)序規(guī)律的理解。
隨著VLN-Ego數(shù)據(jù)集與配套訓(xùn)練框架的開放,該方法的可復(fù)現(xiàn)性和拓展性正在提升。從工廠物流機(jī)器人到家庭服務(wù)助手,該框架正在促進(jìn)AI從“數(shù)字智能”向“具身認(rèn)知”跨越。
主頁網(wǎng)址:https://vlnr1.github.io/
代碼網(wǎng)址:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1