百萬(wàn)魯棒數(shù)據(jù)訓(xùn)練,3D場(chǎng)景大語(yǔ)言模型新SOTA!IIT等發(fā)布Robin3D
多模態(tài)大語(yǔ)言模型(Multi-modal Large Language Models, MLLMs)以文本模態(tài)為基礎(chǔ),將其它各種模態(tài)對(duì)齊至語(yǔ)言模型的語(yǔ)義空間,從而實(shí)現(xiàn)多模態(tài)的理解和對(duì)話能力。近來(lái),越來(lái)越多的研究聚焦于3D大語(yǔ)言模型(3DLLM),旨在實(shí)現(xiàn)對(duì)3D物體以及復(fù)雜場(chǎng)景的理解,推理和自由對(duì)話。
與2D MLLM所能接觸的廣泛的多模態(tài)數(shù)據(jù)不同,3DLLM的訓(xùn)練數(shù)據(jù)相對(duì)稀少。
即便過(guò)去有些工作嘗試生成更多的多模態(tài)指令數(shù)據(jù),但這類模型仍然在指令的魯棒性上存在兩點(diǎn)不足:
1. 絕大多數(shù)3D多模態(tài)指令數(shù)據(jù)對(duì)是正樣本對(duì),缺乏負(fù)樣本對(duì)或者對(duì)抗性樣本對(duì)。模型在這種數(shù)據(jù)上訓(xùn)練缺乏一定的辨識(shí)能力,因?yàn)闊o(wú)論被問(wèn)到什么問(wèn)題,模型只會(huì)輸出正面的回答。因此碰到問(wèn)題與場(chǎng)景無(wú)關(guān)時(shí),模型也更容易出現(xiàn)幻覺(jué)。這種模型有可能只是記住了正樣本對(duì),而非真正地理解被問(wèn)及的場(chǎng)景、物體、以及具體的指令。
2. 由于在造數(shù)據(jù)的過(guò)程中,人類標(biāo)注員或者生成式大語(yǔ)言模型是按照既定的規(guī)則去描述物體的,很多由這些描述所轉(zhuǎn)換而來(lái)的指令缺乏多樣性。甚至有的數(shù)據(jù)是直接按照模板生成的。
為了解決以上問(wèn)題,伊利諾伊理工大學(xué)、浙江大學(xué)、中佛羅里達(dá)大學(xué)、伊利諾伊大學(xué)芝加哥分校提出一個(gè)強(qiáng)大3DLLM——Robin3D,在大規(guī)模魯棒數(shù)據(jù)上進(jìn)行訓(xùn)練。
圖片
論文地址:https://arxiv.org/abs/2410.00255
文中提出了「魯棒指令數(shù)據(jù)生成引擎」(Robust Instruction Generation, RIG),可以生成兩種數(shù)據(jù):
1. 對(duì)抗性指令數(shù)據(jù)。該數(shù)據(jù)特點(diǎn)在于在訓(xùn)練集或者單個(gè)訓(xùn)練樣本中,混合了正樣本和負(fù)樣本對(duì)(或者對(duì)抗樣本對(duì)),從而使得模型在該類數(shù)據(jù)集訓(xùn)練能獲得更強(qiáng)的辨識(shí)能力,該數(shù)據(jù)包含了物體層面到場(chǎng)景層面的、基于類別的指令和基于表達(dá)的指令,最終形成了四種新的訓(xùn)練任務(wù),幫助模型解耦對(duì)正樣本對(duì)的記憶。
2. 多樣化指令數(shù)據(jù),首先全面收集現(xiàn)有研究中的各種指令類型,或?qū)⒁恍┤蝿?wù)轉(zhuǎn)化為指令跟隨的格式。為了充分利用大語(yǔ)言模型強(qiáng)大的上下文學(xué)習(xí)能力,研究人員使用ChatGPT,通過(guò)為每個(gè)任務(wù)定制的特定提示工程模板來(lái)多樣化指令的語(yǔ)言風(fēng)格。
將這些與現(xiàn)有基準(zhǔn)的原始訓(xùn)練集相結(jié)合,研究人員構(gòu)建了百萬(wàn)級(jí)指令跟隨樣本,其中約有34.4萬(wàn)個(gè)對(duì)抗性數(shù)據(jù)(34%)、50.8萬(wàn)個(gè)多樣化數(shù)據(jù)(50%)和16.5 萬(wàn)個(gè)基準(zhǔn)數(shù)據(jù)(16%),如圖1(右)所示。
圖片
圖1 Robin3D在構(gòu)建的百萬(wàn)級(jí)數(shù)據(jù)上訓(xùn)練(右),最終在所有3D多模態(tài)數(shù)據(jù)集上的性能超過(guò)之前的SOTA(左)
Robin3D在模型上與Chat-Scene類似:使用Mask3D,Uni3D來(lái)抽3D物體級(jí)別的特征,使用Dinov2來(lái)抽2D物體級(jí)別的特征,使用物體ID來(lái)指定和定位物體。
先前的方法在抽物體特征的時(shí)候,由于其物體級(jí)別的規(guī)范化(normalization),不可避免的丟失了物體間的3D空間關(guān)系。同時(shí)簡(jiǎn)單的物體ID和物體特征拼接缺乏對(duì)ID-特征的充分聯(lián)結(jié),使其在這種復(fù)雜的指令數(shù)據(jù)上面臨訓(xùn)練的困難,而Robin3D引入了關(guān)系增強(qiáng)投射器來(lái)增強(qiáng)物體的3D空間關(guān)系,并使用ID-特征捆綁來(lái)增強(qiáng)指代和定位物體時(shí)ID與特征之間的聯(lián)系。
最終Robin3D在所有的3D場(chǎng)景多模態(tài)數(shù)據(jù)集上達(dá)到一致的SOTA,并且不需要特定任務(wù)的微調(diào)。
方法
圖2 Robin3D的模型結(jié)構(gòu)
關(guān)系增強(qiáng)投射器
如圖2所示,關(guān)系增強(qiáng)投射器(Relation-Augmented Projector, RAP)考慮三種特征:
1. Mask3D所抽取的場(chǎng)景級(jí)別特征,這種特征經(jīng)過(guò)多層cross-attention充分交互了語(yǔ)意和位置關(guān)系;
2. Mask3D里的位置嵌入特征,這種特征由物體超點(diǎn)直接轉(zhuǎn)換而來(lái),代表了物體間的位置關(guān)系。
3. Uni3D抽取的統(tǒng)一物體級(jí)別特征,這種特征和語(yǔ)言進(jìn)行過(guò)大規(guī)模的對(duì)齊訓(xùn)練。
圖片
圖3 RAP公式
如圖3所示,通過(guò)MLP和短接的方式,對(duì)三種特征進(jìn)行高效的融合,最終實(shí)現(xiàn)了即保持強(qiáng)大的統(tǒng)一物體級(jí)別語(yǔ)意信息、又增強(qiáng)了物體之間的空間位置關(guān)系。
ID-特征捆綁
如圖1所示,的ID-特征捆綁(ID-Feature Bonding, IFB)主要包含兩個(gè)操作。首先,使用兩個(gè)相同的ID來(lái)包裹其物體特征。
由于LLM的因果注意力機(jī)制,這種方法通過(guò)第一個(gè)ID將ID信息與物體特征關(guān)聯(lián)起來(lái),并通過(guò)第二個(gè)ID將物體信息與其ID關(guān)聯(lián)起來(lái)。
其次,提出了一個(gè)后視覺(jué)順序,將視覺(jué)tokens放置在輸入序列的末尾,靠近模型生成的答案標(biāo)記。
該方法減少了由于tokens間的相對(duì)距離和LLM中旋轉(zhuǎn)位置嵌入所導(dǎo)致的從答案tokens到ID-特征tokens的注意力減弱問(wèn)題,同時(shí)增強(qiáng)了視覺(jué)信息對(duì)答案tokens的注意力影響,從而提升答案生成效果。
魯棒指令數(shù)據(jù)生成引擎
對(duì)抗性數(shù)據(jù)生成
圖片
圖4 對(duì)抗性數(shù)據(jù)的四種任務(wù)
如圖4,的對(duì)抗性數(shù)據(jù)形成了四種新的具備挑戰(zhàn)性的任務(wù)HOPE、HROC、PF-3DVG和3DFQA,包含了從物體到場(chǎng)景、從基于類比到基于表達(dá)的不同指令。
圖4左上:Hybrid Object Probing Evaluation (HOPE)
為了構(gòu)建一個(gè)場(chǎng)景級(jí)別的基于類別的任務(wù),引入了HOPE,靈感來(lái)自2D領(lǐng)域的POPE基準(zhǔn)。POPE通過(guò)詢問(wèn)關(guān)于單個(gè)物體存在與否的是/否問(wèn)題,評(píng)估2DMLLMs產(chǎn)生幻覺(jué)的傾向。在此基礎(chǔ)上,HOPE將這種幻覺(jué)挑戰(zhàn)擴(kuò)展到3D領(lǐng)域的訓(xùn)練階段,旨在讓模型更具辨別力。
此外,HOPE引入了一個(gè)混合場(chǎng)景,增加復(fù)雜性,進(jìn)一步推動(dòng)模型對(duì)記憶中的視覺(jué)與語(yǔ)言正樣本的解耦。
具體來(lái)說(shuō),在給定的3D場(chǎng)景中,要求模型判斷多個(gè)隨機(jī)指定的物體是否存在。物體可能存在或不存在,且每個(gè)存在的物體可能有一個(gè)或多個(gè)實(shí)例。
當(dāng)物體不存在時(shí),模型需回答「否」;當(dāng)物體存在時(shí),需回答「是」并提供每個(gè)實(shí)例的物體ID。這一設(shè)置結(jié)合了正負(fù)物體的混合識(shí)別與多實(shí)例物體定位,具有很高的挑戰(zhàn)性。
圖4右上:Hybrid Referring Object Classification (HROC)
指代物體分類任務(wù)旨在評(píng)估模型在2D域中識(shí)別指代區(qū)域的能力,使用「區(qū)域輸入,文本輸出」的形式。HROC將此任務(wù)擴(kuò)展到3D領(lǐng)域,創(chuàng)建了一個(gè)物體級(jí)別的基于類別的任務(wù),并結(jié)合了對(duì)抗性和混合挑戰(zhàn)。
在3D場(chǎng)景中,隨機(jī)生成混合的正負(fù)ID-類別樣本對(duì)來(lái)提出問(wèn)題。正樣本對(duì)包含一個(gè)有效的物體ID和對(duì)應(yīng)的真實(shí)類別,負(fù)對(duì)則包含一個(gè)有效的物體ID和隨機(jī)選擇的非真實(shí)類別,作為對(duì)抗性挑戰(zhàn)。模型需對(duì)正樣本對(duì)回答「是」,對(duì)負(fù)對(duì)回答「否」并給出正確類別。
圖4左下:Partial Factual 3D Visual Grounding (PF-3DVG)
PF-3DVG引入了一個(gè)場(chǎng)景級(jí)別的基于表達(dá)的任務(wù),涵蓋三種數(shù)據(jù)類型:非真實(shí)數(shù)據(jù)、部分真實(shí)數(shù)據(jù)和真實(shí)數(shù)據(jù)。
非真實(shí)數(shù)據(jù):在3D場(chǎng)景中,隨機(jī)選擇Sr3D+中的描述,其中所描述的物體不存在與當(dāng)前3D場(chǎng)景。模型需回答「否」。
部分真實(shí)數(shù)據(jù):給定Sr3D+的描述及對(duì)應(yīng)的3D場(chǎng)景,隨機(jī)修改描述中的空間關(guān)系。例如,將「沙發(fā)上的枕頭」改為「沙發(fā)下的枕頭」。
模型需糾正信息并回答「它是在『上面』」,同時(shí)提供物體ID。團(tuán)隊(duì)確保描述的目標(biāo)物體類別是當(dāng)前場(chǎng)景唯一的、無(wú)干擾項(xiàng),以避免歧義。真實(shí)數(shù)據(jù):隨機(jī)增強(qiáng)空間關(guān)系的同義詞以提高多樣性,例如,將「below」替換為「under」、「beneath」或「underneath」。
圖4右下:Faithful 3D Question Answering (3DFQA)
原始的3D問(wèn)答任務(wù)僅包含正樣本,可能導(dǎo)致模型記住固定的3D場(chǎng)景和問(wèn)答對(duì)。為了解決這一問(wèn)題,提出3DFQA,一個(gè)結(jié)合了負(fù)樣本和正樣本的場(chǎng)景級(jí)別的基于表達(dá)的QA任務(wù),其增加了定位的要求。
構(gòu)建負(fù)樣本時(shí),從ScanQA中抽取問(wèn)答對(duì),并收集問(wèn)題或答案中的相關(guān)物體,然后隨機(jī)選擇一個(gè)缺少這些物體的3D場(chǎng)景。在原來(lái)的問(wèn)題上,新增一個(gè)指令:「如果可以,請(qǐng)回答……并提供所有ID……」。
此時(shí),模型必須回答「否」,并且不提供任何物體ID,體現(xiàn)其對(duì)場(chǎng)景的依賴而不會(huì)胡言亂語(yǔ)總給出正面回復(fù)。正樣本直接取自ScanQA,模型需回答問(wèn)題并提供相關(guān)物體的ID作為答案的依據(jù)。
因此,訓(xùn)練在的3DFQA數(shù)據(jù)集上的模型不能依靠記憶,而是要學(xué)會(huì)對(duì)正負(fù)樣本做出忠實(shí)回應(yīng)并有理有據(jù)。
多樣化數(shù)據(jù)生成
多樣化數(shù)據(jù)旨在通過(guò)結(jié)合多種不同任務(wù)類型的指令數(shù)據(jù),并提高指令的語(yǔ)言多樣性,從而增強(qiáng)模型的泛化能力。首先從基準(zhǔn)數(shù)據(jù)集之外的不同任務(wù)中收集大規(guī)模數(shù)據(jù)。
具體而言,給定一個(gè)3D場(chǎng)景,收集以下任務(wù)的問(wèn)答對(duì):類別問(wèn)答任務(wù)(來(lái)自Chat-Scene),Nr3D描述生成任務(wù)(轉(zhuǎn)換自Nr3D),外觀描述生成任務(wù)(來(lái)自Grounded-3DLLM),區(qū)域描述生成任務(wù)(來(lái)自Grounded-3DLLM),端到端3D視覺(jué)定位(轉(zhuǎn)換自Nr3D),端到端3D視覺(jué)定位(轉(zhuǎn)換自Sr3D+)。
圖片
圖5 多樣化數(shù)據(jù)的生成流程和詳細(xì)的提示工程
為了豐富表述風(fēng)格,開(kāi)發(fā)了一個(gè)可擴(kuò)展的流程,利用ChatGPT的上下文學(xué)習(xí)能力對(duì)上述數(shù)據(jù)進(jìn)行重述。這通過(guò)一組示例和結(jié)構(gòu)化提示工程實(shí)現(xiàn),如圖5(上)所示。
具體而言,給定一個(gè)收集的指令數(shù)據(jù)集D_task(其中任務(wù)包括ScanRefer、Multi3DRefer、Nr3D、Sr3D+、Nr3D Captioning、ScanQA、SQA3D、PF-3DVG和3DFQA),構(gòu)建了一個(gè)系統(tǒng)提示P_system,以指示重述的要求和結(jié)構(gòu)化的輸出格式,同時(shí)提供一個(gè)示例提示P_eg,以幫助ChatGPT更好地理解要求。
還隨機(jī)選擇一個(gè)溫度參數(shù)T(從[1.1, 1.2, 1.3]中選取)以增加輸出的隨機(jī)性和多樣性。的重述輸出D_rephrase通過(guò)公式D_rephrase = M(P_system, P_eg, D_task, T)生成,其中M是ChatGPT的GPT-4o版本。
圖5(上)詳細(xì)說(shuō)明了P_system和P_eg的內(nèi)容,以ScanRefer數(shù)據(jù)為例。通過(guò)使用sentence=和rephrase=的結(jié)構(gòu)化提示,GPT-4o能夠輕松遵循要求,可以通過(guò)檢測(cè)rephrase=關(guān)鍵字方便地收集輸出。
圖5(下)提供了每個(gè)任務(wù)的示例提示的詳細(xì)信息。由于Nr3D Captioning源于Nr3D,PF-3DVG源于Sr3D+,而3DFQA源于ScanQA,因此不再為這些任務(wù)提供額外示例。
實(shí)驗(yàn)
主要結(jié)果
表1 性能對(duì)比結(jié)果
如表1所示,由于RIG生成的魯棒指令數(shù)據(jù),Robin3D在所有基準(zhǔn)測(cè)試中顯著超越了之前的模型。具體而言,Robin3D在Scan2Cap CIDEr@0.5上帶來(lái)了6.9%的提升,在ScanRefer Acc@0.25上帶來(lái)了5.3%的提升。值得注意的是,在包含零目標(biāo)案例的Multi3DRefer評(píng)估中,這些案例對(duì)模型的區(qū)分能力提出了挑戰(zhàn),并要求模型能夠回答「No」。的Robin3D在F1@0.25上實(shí)現(xiàn)了7.8%的提升,在F1@0.5上實(shí)現(xiàn)了7.3%的提升。
消融實(shí)驗(yàn)
表2和表3 消融實(shí)驗(yàn)結(jié)果
如表2和表3所示,對(duì)提出的對(duì)抗性數(shù)據(jù)和多樣化數(shù)據(jù)進(jìn)行了消融實(shí)驗(yàn),也對(duì)模型結(jié)構(gòu)上RAP和IFB的提出做了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果在所有benchmark上都證明了他們一致的有效性。
特別的,在表2中,對(duì)抗性數(shù)據(jù)對(duì)描述生成任務(wù)Scan2Cap帶來(lái)了8.9%的提升,然而對(duì)抗性數(shù)據(jù)是不存在描述生成任務(wù)的,并且也不存在同源的數(shù)據(jù)(Scan2Cap數(shù)據(jù)源自ScanRefer, 但對(duì)抗性數(shù)據(jù)無(wú)源自ScanRefer的數(shù)據(jù))。這種大幅的提升體現(xiàn)了對(duì)抗性數(shù)據(jù)對(duì)模型識(shí)別能力的提升。
參考資料:
https://arxiv.org/abs/2410.00255