成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺語言模型如何突破感知邊界?上海 AI 新勢(shì)力提出“世界意識(shí)”賦能真實(shí)環(huán)境規(guī)劃

人工智能
當(dāng)模型具備了越來越強(qiáng)的“世界建模”能力,其誤解、誤判或偏見也可能帶來“認(rèn)知層面”的風(fēng)險(xiǎn)。例如,在判斷任務(wù)目標(biāo)時(shí)是否尊重隱私?在推理“常識(shí)”時(shí)是否體現(xiàn)文化中立?這些問題都值得伴隨技術(shù)前進(jìn)同步思考。

——如何讓多模態(tài)智能體真正“看懂”世界并做出復(fù)雜決策

“把切好的蘋果片冰一下再丟進(jìn)垃圾桶”——這樣一條看似普通的自然語言指令,若讓一臺(tái)具身智能體(Embodied Agent)執(zhí)行,其背后實(shí)則隱藏了多步規(guī)劃、常識(shí)應(yīng)用、環(huán)境理解、工具使用等一系列交互復(fù)雜度極高的子任務(wù)。如何讓 AI 理解任務(wù)的潛臺(tái)詞、合理分解步驟,并在真實(shí)視覺輸入中找準(zhǔn)對(duì)象并正確執(zhí)行,正是當(dāng)前具身智能與多模態(tài)學(xué)習(xí)面臨的最大挑戰(zhàn)之一。

具身智能與多模態(tài)規(guī)劃的研究背景

具身智能(Embodied Intelligence)可以被視為 AI 研究“從認(rèn)知走向行為”的轉(zhuǎn)折點(diǎn)。相比傳統(tǒng)語言模型只需生成文本答案,具身智能體需要真正“扎根”在感知世界中,將自然語言指令轉(zhuǎn)化為一連串具體、可執(zhí)行的動(dòng)作,并根據(jù)不斷變化的視覺環(huán)境調(diào)整策略。

與此同時(shí),大規(guī)模預(yù)訓(xùn)練模型不斷推進(jìn)了多模態(tài)理解的邊界——視覺語言模型(LVLMs)成為橋接人類意圖與感知世界的關(guān)鍵通道。它們接受圖像與語言作為輸入,生成合理的響應(yīng)或推理路徑,被廣泛應(yīng)用于問答、描述生成、交互導(dǎo)航等任務(wù)。然而,當(dāng)這些 LVLM 被遷移到具身場(chǎng)景時(shí),問題開始暴露:它們?cè)谡鎸?shí)復(fù)雜環(huán)境中的推理往往流于表面,尤其是缺乏對(duì)環(huán)境中語義結(jié)構(gòu)和任務(wù)邏輯的深度建模。

LVLM 的機(jī)遇與挑戰(zhàn),在具身任務(wù)中“落地生根”

當(dāng)前 LVLM 主要依賴大規(guī)模圖文對(duì)進(jìn)行訓(xùn)練,其強(qiáng)項(xiàng)在于處理“靜態(tài)感知”任務(wù),而非“動(dòng)態(tài)交互”決策。它們?cè)趫D像描述、多輪對(duì)話甚至考試問答中展現(xiàn)出驚人的語義掌控力,但在具身任務(wù)中卻普遍表現(xiàn)出三大軟肋。

第一,它們脫離環(huán)境上下文進(jìn)行模仿學(xué)習(xí),無法在執(zhí)行過程中動(dòng)態(tài)感知與反應(yīng);

第二,它們通常在“開放循環(huán)”(open-loop)設(shè)定中訓(xùn)練,未習(xí)得因果與時(shí)間依賴關(guān)系;

第三,在面對(duì)多步復(fù)雜任務(wù)、歧義語言指令、隱含語義要求時(shí)往往失誤頻頻。

這引發(fā)了一個(gè)更深層的問題:如何讓 LVLM 真正具備世界建模能力,從而在環(huán)境復(fù)雜多變、反饋有限的設(shè)定下進(jìn)行穩(wěn)健規(guī)劃?而這,正是本文提出的“世界意識(shí)規(guī)劃敘事增強(qiáng)”方法想要解決的核心挑戰(zhàn)。

今天我們解讀由復(fù)旦大學(xué)與上海人工智能創(chuàng)新研究院聯(lián)合團(tuán)隊(duì)提出的這一創(chuàng)新框架。該方法不僅在技術(shù)路徑上融合了敘事增強(qiáng)與認(rèn)知分層,還在實(shí)驗(yàn)設(shè)計(jì)上實(shí)現(xiàn)了對(duì)閉環(huán)具身任務(wù)的性能飛躍,代表了多模態(tài)具身智能從“模仿”走向“理解”的一次突破。

這項(xiàng)研究由復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室牽頭,聯(lián)合上海人工智能創(chuàng)新研究院與上海人工智能實(shí)驗(yàn)室共同完成。團(tuán)隊(duì)成員包括Junhao Shi, Zhaoye Fei, Siyin Wang, Qipeng Guo, Jingjing Gong, Xipeng QIu,該團(tuán)隊(duì)所代表的,不僅是中國(guó) NLP 與 AI 研究界的一股骨干力量,也體現(xiàn)了產(chǎn)學(xué)研融合背景下,對(duì)“通用人工智能走向認(rèn)知閉環(huán)”的前瞻性探索。

1.方法綜述:WAP 世界意識(shí)敘事增強(qiáng)框架

——給智能體一個(gè)“世界觀”,讓它學(xué)會(huì)像人一樣看、想、做

在這項(xiàng)研究中,研究團(tuán)隊(duì)并沒有簡(jiǎn)單地對(duì)模型堆疊參數(shù)或擴(kuò)大訓(xùn)練數(shù)據(jù),而是借助一種更接近人類認(rèn)知機(jī)制的做法:用結(jié)構(gòu)化的“世界敘事”來培養(yǎng)智能體的感知–理解–行動(dòng)閉環(huán)能力。這套方法被稱為 WAP(World-aware Planning Narrative Enhancement),既是數(shù)據(jù)增強(qiáng)策略,也是一種認(rèn)知重構(gòu)框架,核心理念是:讓語言不只是指令,而是攜帶環(huán)境語義的推理觸發(fā)器。

圖片圖片

圖1:敘事增強(qiáng)了管道。研究團(tuán)隊(duì)的框架通過四個(gè)主要階段轉(zhuǎn)換基礎(chǔ)教學(xué)軌跡對(duì):(1)多維教學(xué)增強(qiáng),生成認(rèn)知豐富的變體;(2)自我驗(yàn)證,確保與原始任務(wù)語義一致;(3)推理生成,為每個(gè)動(dòng)作提供明確的認(rèn)知痕跡;以及(4)構(gòu)建增強(qiáng)訓(xùn)練集,在添加認(rèn)知注釋的同時(shí)保持軌跡信息。

框架的整體設(shè)計(jì)理念

與其說 WAP 是一種技術(shù)堆疊,不如說它像在模型內(nèi)部構(gòu)建了一個(gè)“認(rèn)知成長(zhǎng)路徑”。

在傳統(tǒng)做法中,模型對(duì)任務(wù)的理解基本停留在語言輸入與靜態(tài)觀測(cè)之間的淺層映射。而 WAP 主張以觀察歷史與動(dòng)態(tài)場(chǎng)景為基礎(chǔ),激發(fā)模型建立完整的感知—語義—?jiǎng)幼鳂蚪渔湣_@條鏈路中的每一環(huán)都對(duì)應(yīng)人類在執(zhí)行任務(wù)時(shí)的心智加工流程。

  • 我看到了什么?
  • 我知道它在哪兒、有什么功能?
  • 這和我的目標(biāo)有什么關(guān)系?
  • 我接下來該做什么?

換句話說,WAP 就是在教模型如何“思考”。

多維認(rèn)知能力構(gòu)建

WAP 的關(guān)鍵在于為模型輸入的信息加上認(rèn)知標(biāo)簽。通過將每條任務(wù)指令映射為四個(gè)認(rèn)知維度下的“理解任務(wù)方式”,模型被迫練習(xí)從多個(gè)角度“看懂世界”。

視覺外觀建模(Visual Appearance Modeling)

模型不再只是通過物體名稱識(shí)別目標(biāo),而是通過增強(qiáng)指令中加入顏色、形狀、材質(zhì) 等視覺描述(如“小型圓形掛鐘”、“錐形燈罩”),強(qiáng)化其對(duì)象判別能力。這不僅提升魯棒性,也讓模型在復(fù)雜場(chǎng)景中具備更精細(xì)的感知分辨率。

空間-關(guān)系推理(Spatial-Relational Reasoning)

為任務(wù)指令增添基于空間參照物與結(jié)構(gòu)布局 的信息(如“在木制椅子旁”、“位于燈座下方”),使模型能夠建立起類似于人類“空間地圖”的理解機(jī)制。這一維度至關(guān)重要,因?yàn)榫呱砣蝿?wù)往往涉及移動(dòng)與定向操作,空間錯(cuò)誤即是任務(wù)失敗。

功能抽象學(xué)習(xí)(Functional Abstraction Learning)

此維度超越了物體外觀,強(qiáng)調(diào)其操作性與因果作用,如“冰箱是制冷設(shè)備”、“刀是切割工具”、“鐘是時(shí)間指示器”。這些抽象描述幫助模型在缺乏明確說明時(shí)依然能作出合理推斷——比如理解“冷藏”這一隱性要求的含義。

句法語義聯(lián)結(jié)(Syntactic Grounding)

這里的重點(diǎn)是提高模型處理復(fù)雜語言結(jié)構(gòu)、歧義、指代 等高階語言理解能力。例如,對(duì)“放入剛剛使用的容器”這樣的間接表達(dá)進(jìn)行消歧和上下文對(duì)齊。通過重構(gòu)任務(wù)指令語言風(fēng)格,引導(dǎo)模型在理解指令本身時(shí)進(jìn)行更深層次的結(jié)構(gòu)分析。

指令與軌跡的多維增強(qiáng)流程

研究團(tuán)隊(duì)構(gòu)建了一套流程式的敘事增強(qiáng)系統(tǒng),將每條原始軌跡轉(zhuǎn)化為一組具備認(rèn)知挑戰(zhàn)性的“變體指令”。

  • 以原始任務(wù)為核心,針對(duì)四大認(rèn)知維度分別生成增強(qiáng)版本;
  • 使用大型教師模型(如 Qwen2.5-VL)進(jìn)行“多維視角重述”;
  • 保留軌跡信息并附加語義標(biāo)注,構(gòu)建強(qiáng)化數(shù)據(jù)集。

最終,模型在訓(xùn)練中會(huì)面對(duì)形式多樣、視角豐富的指令表達(dá),這促使其在泛化到新場(chǎng)景時(shí)更具適應(yīng)力。

語義一致性自檢機(jī)制

但“創(chuàng)造力”不能以犧牲“準(zhǔn)確性”為代價(jià)。為避免增強(qiáng)指令跑題或引入語義偏移,WAP 設(shè)計(jì)了一套語義一致性驗(yàn)證機(jī)制。

系統(tǒng)使用多個(gè)判別器從五個(gè)角度檢查增強(qiáng)指令是否與原始指令意圖保持一致,只有通過至少四項(xiàng)驗(yàn)證的才會(huì)被保留。否則,該增強(qiáng)版本將被舍棄或重寫,確保整個(gè)訓(xùn)練集的認(rèn)知目標(biāo)不被“篡改”。

步進(jìn)式認(rèn)知推理生成

另一項(xiàng)令人印象深刻的機(jī)制是所謂的“行動(dòng)-認(rèn)知配對(duì)”:每一個(gè)動(dòng)作都配有一條明確的“認(rèn)知說明”。

這類似于在人類心理學(xué)中提到的“顯式元認(rèn)知路徑”,模型不僅要執(zhí)行動(dòng)作,還要給出它為什么這么做的解釋。這些推理語句成為模型學(xué)習(xí)時(shí)的重要監(jiān)督信號(hào),引導(dǎo)其逐步學(xué)會(huì)因果關(guān)系追蹤、狀態(tài)轉(zhuǎn)移感知與目標(biāo)保持機(jī)制。

這不僅提升了執(zhí)行表現(xiàn),更讓模型具有可解釋性。

課程式訓(xùn)練策略,從感知到推理的三階段訓(xùn)練

好比一個(gè)孩子從學(xué)會(huì)識(shí)字、認(rèn)識(shí)世界,再到能獨(dú)立思考,WAP 的訓(xùn)練流程也遵循一種“認(rèn)知階梯式”路徑。

第一階段:基礎(chǔ)模仿 模型學(xué)習(xí)語言與動(dòng)作的基本映射,對(duì)接軌跡語料;

第二階段:感知理解 引入視覺與空間增強(qiáng),建立起環(huán)境建模與對(duì)象對(duì)齊能力;

第三階段:高階推理 接入功能與句法增強(qiáng),攻克語言歧義與隱含任務(wù)結(jié)構(gòu)問題。

這種循序漸進(jìn)的訓(xùn)練方式,讓模型不會(huì)在一開始就面對(duì)“全難度”挑戰(zhàn),而是按“認(rèn)知發(fā)展曲線”逐步升級(jí)認(rèn)知系統(tǒng)。最終,模型在面對(duì)現(xiàn)實(shí)具身場(chǎng)景時(shí)擁有了如人類般的多角度理解能力與推理韌性。

2.實(shí)驗(yàn)設(shè)計(jì)與主要結(jié)果

用數(shù)據(jù)說話,世界意識(shí)究竟改變了什么?

自建80K大規(guī)模敘事增強(qiáng)語料,構(gòu)建認(rèn)知爬坡賽道

與傳統(tǒng)從小數(shù)據(jù)“摳細(xì)節(jié)”不同,作者在訓(xùn)練數(shù)據(jù)上開足馬力。他們基于原始 ALFRED 數(shù)據(jù)集的 16,145 條人類演示軌跡,通過四維認(rèn)知增強(qiáng)策略,一舉擴(kuò)展為多達(dá)80,875 條 instruction–trajectory 對(duì)。這些新樣本不僅數(shù)量大,更在認(rèn)知復(fù)雜性上形成有梯度的結(jié)構(gòu)化挑戰(zhàn),例如:

  • 描述物體材質(zhì)與形狀(視覺維度)
  • 加入相對(duì)空間位置(空間維度)
  • 強(qiáng)化功能與工具意圖表達(dá)(功能維度)
  • 引入歧義結(jié)構(gòu)與間接指令(句法維度)

作為“教師模型”,研究者選擇了能力強(qiáng)悍的Qwen2.5-VL-72B-Instruct,用以指導(dǎo)增強(qiáng)指令生成、認(rèn)知推理生成等過程。換句話說,這不僅是訓(xùn)練數(shù)據(jù)的擴(kuò)充,更是認(rèn)知能力成長(zhǎng)路徑的人工編排。

EB-ALFRED基準(zhǔn):從任務(wù)成功率到認(rèn)知均衡性的雙重考驗(yàn)

為了全面評(píng)估模型在具身環(huán)境中的真實(shí)水平,作者使用了 EB-ALFRED 這一升級(jí)版基準(zhǔn)。該平臺(tái)相較原始 ALFRED 更具代表性:精簡(jiǎn)冗余動(dòng)作空間;優(yōu)化語言指令質(zhì)量;明確任務(wù)場(chǎng)景類型劃分(如視覺、空間、復(fù)雜、常識(shí)、長(zhǎng)程等)

圖片圖片

表1:EmbodiedBench(EB-ALFRED)的性能比較。結(jié)果顯示了不同任務(wù)類別的成功率(SR)。

主要評(píng)估指標(biāo)有兩個(gè)。

任務(wù)成功率(Success Rate, SR):看任務(wù)是否達(dá)成目標(biāo)

標(biāo)準(zhǔn)差(STD):衡量模型在不同任務(wù)類型之間的能力平衡性。STD 越小,表明模型越能適應(yīng)多樣任務(wù)而不偏科

這個(gè)指標(biāo)組合其實(shí)很“人性化”:不僅看你做得好不好,還看你“偏科”沒。

“吊打”閉源大模型:開源也能站上高地

成果如何?一句話總結(jié):開源也能扳倒 GPT-4o。

以 Qwen2.5-VL-7B 為例,研究者從基礎(chǔ)版本(SR 僅為 4.7)出發(fā),通過疊加認(rèn)知增強(qiáng)與課程訓(xùn)練,最終實(shí)現(xiàn)了 62.7 的平均成功率。這個(gè)成績(jī)不僅遠(yuǎn)高于其自身的原始能力,還超過了 GPT-4o(56.3)和接近Gemini-1.5-Pro(62.3),而后者們可都是大模型家族中的“天花板”選手。

此外,WAP 訓(xùn)練出的模型在能力均衡性上也表現(xiàn)出色——STD 降至 6.3,顯著優(yōu)于如 Claude 3.5 Sonnet(8.6)等閉源大模型,說明它不會(huì)“視覺強(qiáng)但空間拉胯”或“常識(shí)懂但長(zhǎng)程發(fā)懵”。

認(rèn)知維度剖面圖:模型真的“理解”環(huán)境了嗎?

為了驗(yàn)證四大認(rèn)知增強(qiáng)是否真正內(nèi)化為智能體能力,研究團(tuán)隊(duì)在多個(gè)維度上做了定向評(píng)估。

視覺識(shí)別:InternVL3 的成功率從 46 提升到 58,表現(xiàn)出更細(xì)粒度的物體識(shí)別能力。

空間理解:在要求物體相對(duì)定位任務(wù)中,InternVL3 從 34 提升至 50,顯示出空間語義獲得。

常識(shí)推理:Qwen2.5-VL 的表現(xiàn)從 22 飆升到 62,表明模型能聯(lián)想物體用途與語義邏輯。

指代歧義消解:在處理“那個(gè)容器”等模糊指令時(shí),模型識(shí)別準(zhǔn)確率從 48 提升到 70,展現(xiàn)出上下文語義追蹤能力。

這不再是“技巧”,而是認(rèn)知能力的顯性成長(zhǎng)痕跡。

長(zhǎng)程任務(wù)的勝利,它終于不再“忘記過去”

長(zhǎng)程規(guī)劃任務(wù)是具身智能的真正試金石,它考驗(yàn)的不只是單步?jīng)Q策,而是整套認(rèn)知鏈的連貫執(zhí)行。

令人驚喜的是,WAP 訓(xùn)練出的模型在 15+ 步動(dòng)作序列任務(wù)中取得了高達(dá) 70 的成功率,相較基礎(chǔ)模型提升了 35 倍。而 GPT-4o 在閉環(huán)場(chǎng)景中則滑落至 24,可見其對(duì)“環(huán)境反饋”的依賴嚴(yán)重阻礙了泛化。

而 WAP 則通過兩項(xiàng)創(chuàng)新克服了這一困境:

完整觀察歷史接入:模型不再只看當(dāng)下圖像,而是維護(hù)因果記憶

多維知識(shí)一體化建模:以視覺、空間、功能、語義為柱,支撐復(fù)雜決策鏈

這也間接證明了一點(diǎn):真正的世界建模能力,是突破長(zhǎng)程弱點(diǎn)的關(guān)鍵。

3.深度分析與洞見

當(dāng)AI學(xué)會(huì)自我規(guī)劃,它會(huì)走多遠(yuǎn)?

WAP 框架的一大亮點(diǎn),是研究者不僅設(shè)計(jì)了精密的課程式認(rèn)知增強(qiáng)流程,還進(jìn)一步嘗試了“放手一搏”的方法——讓模型自己決定該怎么學(xué)。這就是所謂的自主增強(qiáng)(Self-Directed Enhancement):不再用人類預(yù)設(shè)規(guī)則,而是依賴模型自身理解任務(wù),再選擇要增強(qiáng)哪個(gè)維度的信息(視覺、空間、功能、句法等)。

結(jié)果如何?事實(shí)說明,自學(xué)雖好,但還不夠精細(xì)。雖然自主增強(qiáng)在平均成功率上達(dá)到 56.7,已超過許多傳統(tǒng)方法,表現(xiàn)可圈可點(diǎn),但依然顯著落后于顯式課程增強(qiáng)(62.7)。尤其在需要高階推理的任務(wù)中(如常識(shí)任務(wù):48 vs. 62、長(zhǎng)程任務(wù):60 vs. 70),差距一目了然。

這似乎也呼應(yīng)了現(xiàn)實(shí)教育場(chǎng)景:有天賦的學(xué)生固然能自學(xué)成才,但在面對(duì)復(fù)雜知識(shí)體系時(shí),結(jié)構(gòu)化引導(dǎo)仍是不可或缺的認(rèn)知放大器。

哪些模塊真正“值回票價(jià)”?一場(chǎng)精細(xì)的能力拆解

每一個(gè)系統(tǒng)性能的躍升背后,都隱藏著關(guān)鍵模塊的協(xié)同增效。為了厘清“誰是功臣,誰是錦上添花”,研究者進(jìn)行了一系列精巧的消融實(shí)驗(yàn)。

首先,僅使用“基礎(chǔ)推理”模塊,模型成功率為 47.0,且在不同任務(wù)類型上的波動(dòng)極大(STD 高達(dá) 14.0)。這說明:沒有認(rèn)知增強(qiáng),模型只是“懂一點(diǎn)皮毛”。

再試試只用“視覺+空間增強(qiáng)”?成功率竟然不升反降,維持在 46.7,但各任務(wù)類型之間差距極大(STD 達(dá) 17.1),也就是說——模型雖學(xué)會(huì)“看清”,卻沒學(xué)會(huì)“怎么做”,認(rèn)知“偏科”嚴(yán)重。

而當(dāng)作者逐步引入完整推理構(gòu)造與課程學(xué)習(xí)后,模型能力整體拉升、各任務(wù)類型表現(xiàn)也趨于均衡(最終 STD 降至 6.3)。這意味著:WAP 的關(guān)鍵在于把每一項(xiàng)認(rèn)知能力“串聯(lián)成鏈”,只有通過階段式建模才能讓智能體擁有穩(wěn)定、全局的推理模式,而不是“臨場(chǎng)發(fā)揮式”行動(dòng)者。

一個(gè)任務(wù)十八步:一顆冰鎮(zhèn)蘋果背后的認(rèn)知華章

案例最能說明問題。論文中展示的任務(wù)是:“把一塊冰鎮(zhèn)的蘋果片放進(jìn)垃圾桶”。看起來非常簡(jiǎn)單?模型真正做到這件事,花了整整 18 個(gè)動(dòng)作。

為什么這么多?原來,這條指令中潛藏著多個(gè)隱性要求——“蘋果要先切片”,“切好后要放入冰箱冷藏”,“冰鎮(zhèn)后才能丟棄”等。這些步驟都沒有在語言中直接表達(dá),但模型必須洞察其背后的因果鏈條。

更精彩的是,在第六步里,模型特地先把刀放回桌子再去拿蘋果——表現(xiàn)出了工具使用中的安全意識(shí)。最終,它不僅完成了任務(wù),還展示了清晰的推理鏈:

工具識(shí)別 → 狀態(tài)推斷(是否冰鎮(zhèn))→ 動(dòng)作順序計(jì)劃 → 任務(wù)達(dá)成 → 清理現(xiàn)場(chǎng)

這不是單一模型輸出的“偽規(guī)劃”,而是具有顯式認(rèn)知鏈的結(jié)構(gòu)性執(zhí)行路徑。從“看懂”到“做對(duì)”,模型正在向“思考為何如此做”靠近。

優(yōu)勢(shì)之外,也別忽視潛在盲點(diǎn)

正如每項(xiàng)工程的光輝背后都有待打磨的棱角,WAP 雖表現(xiàn)驚艷,但仍有可改進(jìn)空間。

自監(jiān)督尚未完全釋放潛力:當(dāng)前的自主增強(qiáng)能力較弱,表明模型尚未學(xué)會(huì)精準(zhǔn)調(diào)度多維知識(shí),還需更細(xì)粒度的激活機(jī)制;

大模型依賴偏重:目前的大規(guī)模預(yù)訓(xùn)練模型(如 Qwen2.5-VL)作為教師模型,對(duì)資源要求極高,限制了方法的普適可用性;

語境轉(zhuǎn)移能力待驗(yàn)證:雖然在 EB-ALFRED 上表現(xiàn)優(yōu)異,但是否能泛化到更異構(gòu)的真實(shí)環(huán)境(如室外、雜亂辦公區(qū))仍需進(jìn)一步實(shí)驗(yàn);

模塊組合的泛化策略:在不同任務(wù)條件下,是否能動(dòng)態(tài)裁剪或組合認(rèn)知模塊以降低成本,也是未來需要解決的問題。

但瑕不掩瑜。整體來看,WAP 所代表的,是從數(shù)據(jù)效率、推理路徑、決策可解釋性三個(gè)維度上,對(duì)具身智能的一次系統(tǒng)性重構(gòu)。

4.結(jié)語與展望

——當(dāng)視覺語言模型具備“世界意識(shí)”,它會(huì)走向怎樣的未來?

方法總結(jié)與核心貢獻(xiàn)

這項(xiàng)研究的最核心貢獻(xiàn)在于,為當(dāng)前尚顯“機(jī)械”的視覺語言模型打開了一扇通向“認(rèn)知世界建模”的大門。

研究團(tuán)隊(duì)以一種結(jié)構(gòu)化敘事增強(qiáng)框架為引擎,賦予了 LVLM 四項(xiàng)關(guān)鍵認(rèn)知能力。

  • 能看清(視覺外觀)
  • 能看懂(空間布局)
  • 能想通(功能抽象)
  • 能聽明白(句法語義)

更關(guān)鍵的是,他們沒有依賴特權(quán)反饋、輔助通道或任務(wù)提示,而是依靠純粹的視覺輸入與語言指令,訓(xùn)練出了在多步驟任務(wù)中展現(xiàn)連貫決策邏輯的模型。這使得 LVLM 首次在閉環(huán)環(huán)境中實(shí)現(xiàn)了“理解式行動(dòng)規(guī)劃”,而非模板匹配式反應(yīng)。

實(shí)驗(yàn)數(shù)據(jù)佐證一切:在 EB-ALFRED 的所有任務(wù)子集上,WAP 都大幅提升了成功率與任務(wù)泛化穩(wěn)定性,尤其在長(zhǎng)程、多步驟、模糊語言與復(fù)雜因果任務(wù)中,表現(xiàn)出逼近甚至超越閉源模型的統(tǒng)合能力。可以說,這是一場(chǎng)模型范式與訓(xùn)練理念的“雙重勝利”。

圖片圖片

圖2:復(fù)雜指令執(zhí)行的推理過程可視化。該圖顯示了我們的模型執(zhí)行“將冷藏蘋果放入垃圾桶”的指令。該模型成功地將這個(gè)看似簡(jiǎn)單的指令分解為三個(gè)階段的18個(gè)不同動(dòng)作,展示了強(qiáng)大的規(guī)劃能力。推理注釋強(qiáng)調(diào)了五種關(guān)鍵的認(rèn)知能力:任務(wù)分解、功能理解、情境意識(shí)、對(duì)象屬性推理和常識(shí)知識(shí)應(yīng)用。

這個(gè)例子說明了我們的模型如何在處理指令中未明確規(guī)定的隱含要求(例如,蘋果在處置前必須冷藏)的同時(shí),在很長(zhǎng)一段時(shí)間內(nèi)(18個(gè)步驟)保持連貫的規(guī)劃。

對(duì)具身智能與多模態(tài)規(guī)劃研究的啟示

這一研究無疑為具身智能研究注入了三劑“強(qiáng)心針”。

它重新強(qiáng)調(diào)了“世界模型”的必要性,在純視覺—語言對(duì)話系統(tǒng)中或許可以靠對(duì)齊數(shù)據(jù)完成任務(wù),但在需要真實(shí)互動(dòng)、狀態(tài)追蹤與目標(biāo)保持的具身環(huán)境中,沒有環(huán)境表征等于“盲人摸象”。

它印證了“認(rèn)知結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)”的有效性。過去大家普遍認(rèn)為大模型的泛化依賴大數(shù)據(jù),但本研究展示了:有結(jié)構(gòu)、有維度、有課程的認(rèn)知引導(dǎo)式樣本,更能塑造出有規(guī)劃能力的智能體。這給了教育式 AI 訓(xùn)練范式更多信心。

它為“閉環(huán)智能”提供了現(xiàn)實(shí)突破路徑。當(dāng)前很多系統(tǒng)仍嚴(yán)重依賴任務(wù)成功信號(hào)、指令分段提示等“外掛”,WAP 的閉環(huán)機(jī)制,證明了單靠圖像與語言,也能構(gòu)建穩(wěn)定的執(zhí)行策略。這對(duì)機(jī)器人導(dǎo)航、家庭助理等不具備輔助感知通道的真實(shí)部署系統(tǒng)尤為關(guān)鍵。

走向更強(qiáng)、更穩(wěn)、更可信賴的智能體

當(dāng)然,研究本身仍留下了令人期待的余地。

首先是自我監(jiān)督能力的增強(qiáng)。當(dāng)前的自主增強(qiáng)機(jī)制雖然已初具成效,但相比顯式課程機(jī)制仍有明顯差距。未來可探索讓模型主動(dòng)識(shí)別自身知識(shí)盲區(qū),并針對(duì)性生成認(rèn)知維度挑戰(zhàn),以實(shí)現(xiàn)真正的“學(xué)習(xí)型體感智能”。

其次是跨環(huán)境與跨任務(wù)的魯棒遷移。EB-ALFRED 是優(yōu)秀的起點(diǎn),但其結(jié)構(gòu)相對(duì)規(guī)整。能否將 WAP 應(yīng)用于更嘈雜、真實(shí)、多領(lǐng)域的環(huán)境中(如工廠、醫(yī)院、交通空間等)是下階段要邁出的關(guān)鍵一步。

最后不能忽視的,是倫理與安全議題。當(dāng)模型具備了越來越強(qiáng)的“世界建模”能力,其誤解、誤判或偏見也可能帶來“認(rèn)知層面”的風(fēng)險(xiǎn)。例如,在判斷任務(wù)目標(biāo)時(shí)是否尊重隱私?在推理“常識(shí)”時(shí)是否體現(xiàn)文化中立?這些問題都值得伴隨技術(shù)前進(jìn)同步思考。

參考資料:https://arxiv.org/pdf/2506.21230

責(zé)任編輯:武曉燕 來源: 獨(dú)角噬元獸
相關(guān)推薦

2024-12-03 09:11:45

2018-07-26 10:09:02

技術(shù)

2024-04-08 00:00:00

前端框架React

2017-04-05 14:23:59

互聯(lián)網(wǎng)

2010-08-16 13:28:51

2025-06-16 14:40:40

模型AI訓(xùn)練

2014-08-13 16:44:18

存儲(chǔ)華為

2014-08-22 09:44:27

OpenStackVMware

2025-04-21 09:20:00

2021-06-24 13:20:29

人工智能AI

2018-09-05 14:46:06

SSD主控芯片

2016-11-15 15:25:59

無線網(wǎng)狀網(wǎng)絡(luò)

2012-06-19 09:42:37

蘋果開發(fā)者iOS

2012-02-09 21:10:43

流行路由網(wǎng)絡(luò)

2022-03-17 14:03:36

人工智能數(shù)字化轉(zhuǎn)型數(shù)據(jù)

2023-06-15 14:06:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久精品福利视频 | 毛片免费看 | 久久精品免费一区二区三 | 欧美一级片在线 | 91精品久久久久久久久久入口 | 久草免费在线视频 | 久草网站| 精品久久亚洲 | 欧美黄色网 | www.五月天婷婷 | 久久精品欧美一区二区三区不卡 | 91青青草视频 | 一区二区三区播放 | 91www在线观看 | 日韩成人精品视频 | 夜夜夜夜夜夜曰天天天 | 91xxx在线观看 | 久久九九99 | 国产精品国产三级国产aⅴ原创 | 久久黄网 | 欧洲精品视频一区 | 欧美一级在线视频 | 国产精品一二区 | 一级做a爰片性色毛片 | 久久久久国产 | 日韩欧美在线观看 | 国产成人在线免费 | 看a网站 | 超碰免费在线观看 | 伊人网综合 | 日韩视频一区二区三区 | 国产午夜精品一区二区三区在线观看 | 91精品国产自产在线老师啪 | 国产男人的天堂 | 久久精品国产一区 | 国产视频精品视频 | 午夜www| 日本不卡一区 | 欧美激情综合五月色丁香小说 | 天天躁日日躁xxxxaaaa | 国产精品久久二区 |