成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI的"空間盲癥" 原創(chuàng)

發(fā)布于 2025-6-3 06:51
瀏覽
0收藏

當(dāng)我們看到一張照片時(shí),大腦會(huì)自動(dòng)分析其中的空間關(guān)系——哪個(gè)物體在前,哪個(gè)在后,左邊是什么,右邊是什么。但對(duì)于當(dāng)今最先進(jìn)的AI系統(tǒng)來(lái)說(shuō),這種看似簡(jiǎn)單的空間理解卻是一個(gè)巨大的挑戰(zhàn)。Meta FAIR和香港中文大學(xué)的研究團(tuán)隊(duì)最近發(fā)布的Multi-SpatialMLLM項(xiàng)目,正在試圖解決這個(gè)根本性問(wèn)題。

現(xiàn)有的多模態(tài)大語(yǔ)言模型雖然在圖像識(shí)別和文本理解方面表現(xiàn)出色,但在空間推理上卻存在嚴(yán)重缺陷。這些模型往往連最基本的左右區(qū)分都會(huì)出錯(cuò),更不用說(shuō)理解復(fù)雜的3D空間關(guān)系了。造成這種現(xiàn)象的根本原因在于,絕大多數(shù)AI訓(xùn)練都基于單張圖像,就像讓一個(gè)人只通過(guò)一扇窗戶觀察整個(gè)世界一樣,視野必然受限。

隨著AI在機(jī)器人技術(shù)、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的應(yīng)用需求日益增長(zhǎng),空間理解能力的缺失成為了制約其發(fā)展的關(guān)鍵瓶頸。機(jī)器人需要準(zhǔn)確理解環(huán)境中物體的位置關(guān)系才能有效執(zhí)行任務(wù),自動(dòng)駕駛系統(tǒng)必須精確判斷道路、車(chē)輛和行人的空間分布才能安全行駛。

1.空間理解的技術(shù)突破

Multi-SpatialMLLM的核心創(chuàng)新在于將AI的視覺(jué)理解從單張圖像擴(kuò)展到多張圖像的協(xié)同分析。這種方法模仿了人類(lèi)的視覺(jué)系統(tǒng)——我們通過(guò)雙眼產(chǎn)生立體視覺(jué),通過(guò)頭部和身體的移動(dòng)獲得不同視角,然后大腦整合這些信息形成完整的空間認(rèn)知。

  • 深度感知(Depth Perception):理解物體離鏡頭的遠(yuǎn)近;
  • 視覺(jué)對(duì)應(yīng)(Visual Correspondence):識(shí)別同一物體在不同圖像中的位置對(duì)應(yīng);
  • 動(dòng)態(tài)感知(Dynamic Perception):推斷相機(jī)或物體的運(yùn)動(dòng)方向和幅度。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)包含三個(gè)核心組件的框架:深度感知、視覺(jué)對(duì)應(yīng)和動(dòng)態(tài)感知。深度感知讓AI能夠判斷物體距離的遠(yuǎn)近,視覺(jué)對(duì)應(yīng)使AI能在不同視角間建立像素點(diǎn)的對(duì)應(yīng)關(guān)系,動(dòng)態(tài)感知?jiǎng)t賦予AI捕捉相機(jī)和物體運(yùn)動(dòng)信息的能力。這三個(gè)組件的協(xié)同工作,使AI首次具備了真正的多幀空間理解能力。

2.MultiSPA

為了訓(xùn)練AI系統(tǒng),團(tuán)隊(duì)構(gòu)建了MultiSPA數(shù)據(jù)集,這是一個(gè)包含超過(guò)2700萬(wàn)樣本的大規(guī)??臻g理解數(shù)據(jù)集。數(shù)據(jù)集的構(gòu)建過(guò)程體現(xiàn)了研究團(tuán)隊(duì)的匠心獨(dú)運(yùn)。

AI的"空間盲癥"-AI.x社區(qū)

  • 數(shù)據(jù)來(lái)自真實(shí)世界的3D/4D圖像集,不是合成或模擬數(shù)據(jù);
  • 自動(dòng)采樣圖像對(duì),確保畫(huà)面有足夠重疊與變化;
  • 利用點(diǎn)云反投影技術(shù)建立像素級(jí)別的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)空間和時(shí)間的精準(zhǔn)對(duì)齊;
  • 借助GPT-4o自動(dòng)生成問(wèn)題與答案模板,涵蓋定性描述與定量坐標(biāo)、向量等多種形式;
  • 支持用像素點(diǎn)、語(yǔ)義標(biāo)簽、坐標(biāo)等多種方式描述問(wèn)題答案。

AI的"空間盲癥"-AI.x社區(qū)

相機(jī)運(yùn)動(dòng)感知任務(wù)設(shè)計(jì)了從粗粒度到細(xì)粒度的九種不同難度級(jí)別,從簡(jiǎn)單的方向判斷到復(fù)雜的位移向量預(yù)測(cè)。物體運(yùn)動(dòng)感知任務(wù)則要求AI跟蹤特定物體在不同幀間的運(yùn)動(dòng)軌跡。最具挑戰(zhàn)性的物體尺寸感知任務(wù)需要AI整合多張圖像的信息來(lái)推斷物體的真實(shí)尺寸。

數(shù)據(jù)生成過(guò)程充分利用了真實(shí)世界的3D場(chǎng)景數(shù)據(jù),包括室內(nèi)場(chǎng)景數(shù)據(jù)集ScanNet和動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集ADT、Panoptic Studio等。通過(guò)精密的3D-2D投影算法,研究團(tuán)隊(duì)確保生成的訓(xùn)練數(shù)據(jù)符合真實(shí)的幾何約束。他們還設(shè)計(jì)了巧妙的圖像對(duì)選擇策略,選擇重疊度在6%到35%之間的圖像對(duì)進(jìn)行訓(xùn)練,既保證了足夠的空間關(guān)聯(lián)性,又維持了視角的多樣性。

3.精妙的技術(shù)架構(gòu)

Multi-SpatialMLLM基于InternVL2-8B模型構(gòu)建,這個(gè)選擇經(jīng)過(guò)了仔細(xì)考量。相比其他流行的多模態(tài)模型,InternVL2在遵從指令方面表現(xiàn)更為出色,為后續(xù)的空間理解訓(xùn)練奠定了良好基礎(chǔ)。

訓(xùn)練策略采用了高效的LoRA(Low-Rank Adaptation)微調(diào)方法,只更新語(yǔ)言模型骨干網(wǎng)絡(luò)的參數(shù),而保持圖像編碼器和投影層凍結(jié)。這種設(shè)計(jì)既減少了訓(xùn)練成本,又避免了災(zāi)難性遺忘問(wèn)題,確保模型在獲得空間理解能力的同時(shí)保持原有的通用視覺(jué)理解能力。

數(shù)據(jù)格式遵循標(biāo)準(zhǔn)的多模態(tài)大語(yǔ)言模型訓(xùn)練范式,采用問(wèn)答對(duì)的形式。為了處理多樣化的輸出格式,團(tuán)隊(duì)設(shè)計(jì)了統(tǒng)一的答案提取機(jī)制,支持從定性描述到精確坐標(biāo)的各種回答類(lèi)型。像素坐標(biāo)的歸一化處理解決了不同分辨率圖像的兼容性問(wèn)題,確保模型能夠處理各種尺寸的輸入圖像。

AI的"空間盲癥"-AI.x社區(qū)

Multi-SpatialMLLM在MultiSPA基準(zhǔn)測(cè)試中展現(xiàn)出了令人矚目的性能提升。相比基礎(chǔ)模型,該系統(tǒng)在所有空間理解任務(wù)上都實(shí)現(xiàn)了顯著改進(jìn),平均準(zhǔn)確率提升了36%。在相對(duì)簡(jiǎn)單的定性任務(wù)上,模型達(dá)到了80-90%的準(zhǔn)確率,而基礎(chǔ)模型僅能達(dá)到50%左右。

更為重要的是,在極具挑戰(zhàn)性的相機(jī)運(yùn)動(dòng)向量預(yù)測(cè)任務(wù)上,Multi-SpatialMLLM達(dá)到了18%的準(zhǔn)確率,而其他基線模型的表現(xiàn)幾乎為零。這種定量的空間推理能力對(duì)于實(shí)際應(yīng)用具有重要意義,為機(jī)器人導(dǎo)航、自動(dòng)駕駛等應(yīng)用提供了技術(shù)基礎(chǔ)。

為了驗(yàn)證模型的泛化能力,研究團(tuán)隊(duì)在外部基準(zhǔn)BLINK上進(jìn)行了零樣本評(píng)估。結(jié)果顯示,Multi-SpatialMLLM在從未見(jiàn)過(guò)的數(shù)據(jù)上仍然保持了優(yōu)異性能,平均準(zhǔn)確率比基礎(chǔ)模型提升26.4%,甚至超越了GPT-4o、Claude-3.5等大型商業(yè)模型。這表明模型學(xué)到的空間理解能力具有良好的可遷移性。

同時(shí),在標(biāo)準(zhǔn)的視覺(jué)問(wèn)答基準(zhǔn)測(cè)試中,Multi-SpatialMLLM保持了與原始模型相當(dāng)?shù)男阅?,證明專業(yè)化訓(xùn)練并沒(méi)有損害模型的通用能力。這種平衡對(duì)于實(shí)際部署至關(guān)重要,用戶既需要專業(yè)的空間理解能力,也需要保持AI助手的全面性。

4.可擴(kuò)展性與頓悟現(xiàn)象

研究團(tuán)隊(duì)通過(guò)系統(tǒng)性實(shí)驗(yàn)驗(yàn)證了Multi-SpatialMLLM的可擴(kuò)展性。隨著訓(xùn)練數(shù)據(jù)從50萬(wàn)樣本增加到250萬(wàn)樣本,26B參數(shù)模型在相機(jī)運(yùn)動(dòng)向量預(yù)測(cè)任務(wù)上的準(zhǔn)確率從0.67%大幅提升至44%。這種線性的性能提升表明,更大規(guī)模的數(shù)據(jù)訓(xùn)練有望帶來(lái)進(jìn)一步的性能改進(jìn)。

AI的"空間盲癥"-AI.x社區(qū)

更有趣的是,研究發(fā)現(xiàn)了類(lèi)似大語(yǔ)言模型的頓悟現(xiàn)象。在多選視覺(jué)對(duì)應(yīng)任務(wù)中,只有26B參數(shù)的大型模型能夠有效學(xué)習(xí)困難樣本,而8B和13B的模型即使在困難樣本上訓(xùn)練也無(wú)法獲得提升。這種現(xiàn)象表明,某些高級(jí)的空間推理能力可能需要足夠大的模型容量才能頓悟。

多任務(wù)學(xué)習(xí)的協(xié)同效應(yīng)也得到了驗(yàn)證。當(dāng)將相機(jī)運(yùn)動(dòng)任務(wù)與其他任務(wù)的數(shù)據(jù)混合訓(xùn)練時(shí),模型在相機(jī)運(yùn)動(dòng)預(yù)測(cè)上的表現(xiàn)從9.3%提升到18%。類(lèi)似地,物體運(yùn)動(dòng)預(yù)測(cè)任務(wù)在加入其他任務(wù)數(shù)據(jù)后,準(zhǔn)確率從17.5%提升到22.04%。這種跨任務(wù)的正向遷移表明,不同類(lèi)型的空間理解能力之間存在內(nèi)在聯(lián)系,多樣化的訓(xùn)練任務(wù)能夠相互促進(jìn)。

5.真實(shí)世界應(yīng)用驗(yàn)證

研究團(tuán)隊(duì)通過(guò)實(shí)際的機(jī)器人場(chǎng)景驗(yàn)證了Multi-SpatialMLLM的實(shí)用性。

AI的"空間盲癥"-AI.x社區(qū)

在一個(gè)涉及機(jī)械臂堆疊積木的任務(wù)中,當(dāng)被問(wèn)及靜態(tài)藍(lán)色積木的移動(dòng)情況時(shí),GPT-4o和基礎(chǔ)模型都給出了錯(cuò)誤答案,而Multi-SpatialMLLM準(zhǔn)確識(shí)別出積木并未移動(dòng)。這種準(zhǔn)確的空間感知能力對(duì)于機(jī)器人的安全操作至關(guān)重要。

Multi-SpatialMLLM的成功不僅僅是一個(gè)技術(shù)指標(biāo)的提升,更代表了AI理解世界方式的根本性變革。Multi-SpatialMLLM通過(guò)多幀協(xié)同分析,實(shí)現(xiàn)了從"看圖識(shí)物"到"立體思維"的跨越。這種技術(shù)突破的意義在于,它首次讓AI具備了類(lèi)似人類(lèi)的空間認(rèn)知能力。人類(lèi)的視覺(jué)系統(tǒng)天然具備整合多視角信息的能力,這種能力是我們?cè)?D世界中導(dǎo)航和操作的基礎(chǔ)。

Multi-SpatialMLLM通過(guò)技術(shù)手段復(fù)現(xiàn)了這種能力,為AI在現(xiàn)實(shí)世界的廣泛應(yīng)用鋪平了道路。在自動(dòng)駕駛領(lǐng)域,這種多幀空間理解能力對(duì)于環(huán)境感知和路徑規(guī)劃具有重要價(jià)值。傳統(tǒng)的自動(dòng)駕駛系統(tǒng)主要依賴激光雷達(dá)等專用傳感器獲取3D信息,而Multi-SpatialMLLM展示了僅通過(guò)攝像頭就能實(shí)現(xiàn)復(fù)雜空間理解的可能性,有望降低自動(dòng)駕駛系統(tǒng)的成本和復(fù)雜度。

在增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)應(yīng)用中,精確的空間理解能力是實(shí)現(xiàn)自然交互的關(guān)鍵。Multi-SpatialMLLM能夠幫助AR系統(tǒng)更準(zhǔn)確地在現(xiàn)實(shí)場(chǎng)景中放置虛擬物體,為VR系統(tǒng)提供更真實(shí)的空間感知。

醫(yī)療影像領(lǐng)域也是一個(gè)重要的應(yīng)用方向。Multi-SpatialMLLM的多視角整合能力可以幫助醫(yī)生從多個(gè)2D影像重建3D解剖結(jié)構(gòu),為手術(shù)規(guī)劃和導(dǎo)航提供更精確的空間信息。

本文轉(zhuǎn)載自?????魯班模錘?????,作者:龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 中文字幕中文字幕 | 久久高潮| 日韩欧美一区二区三区四区 | 国产精品久久久久久久久婷婷 | 日韩视频精品 | 亚洲国产精品一区二区三区 | 日韩在线h | 日韩视频一区二区 | 视频在线一区 | 97精品超碰一区二区三区 | 欧美日韩网站 | 国产精品精品视频一区二区三区 | 欧美综合精品 | 国产精品美女久久久久久免费 | 一本综合久久 | 欧美视频一区二区三区 | 欧美一级在线观看 | 欧美福利在线 | 精品国产一区二区在线 | 色女人天堂 | 美女久久久久 | 欧美成年黄网站色视频 | 波多野结衣一区二区三区在线观看 | 国产一区欧美一区 | 欧美高清dvd | 中文字幕一区在线观看视频 | 精品自拍视频在线观看 | 国产精品久久久久久久久久久久 | 亚洲国产精品视频 | 欧美不卡视频 | 日韩av一区二区在线观看 | 观看av | 日本高清在线一区 | 国产成人一区二区三区 | 日韩一区二区三区在线播放 | 亚洲一区二区三区在线播放 | 91av亚洲 | 区一区二区三在线观看 | 毛片一级片 | 一区二区成人 | 最近最新中文字幕 |