大模型不再是路癡!空間推理的答案是RAG:旅游規(guī)劃、附近推薦全解鎖
近年來,大型語言模型(LLMs)的進展已經(jīng)在機器學(xué)習(xí)(ML)的許多領(lǐng)域帶來了變革,特別是在理解和生成類人文本方面,激發(fā)了人們通過直接從LLMs中提取空間知識來彌合空間問答與自然語言之間的差距,研究成果涵蓋了廣泛的應(yīng)用,包括地理百科全書問答、地理定位和自動高精度地圖生成等。
然而,當(dāng)涉及到空間推理任務(wù)時,LLMs的表現(xiàn)卻顯得力不從心,甚至在處理基本的空間任務(wù)時也遇到困難,例如地理解析和理解相對空間關(guān)系。這種差距在處理現(xiàn)實世界的空間推理任務(wù)時尤為明顯,例如圖1中所示的場景:
圖1 現(xiàn)實世界中空間推理問題示例。滿足空間約束的區(qū)域以藍色突出顯示
空間推理不僅要求模型理解復(fù)雜的空間關(guān)系,還需要結(jié)合地理數(shù)據(jù)和語義信息,生成準(zhǔn)確的回答。
傳統(tǒng)的空間問答系統(tǒng)依賴于專門的空間查詢語言(比如GeoSPARQL, Spatial SQL),這些語言與人類語言大相徑庭,使得普通用戶難以使用。更重要的是,這些系統(tǒng)缺乏從人類文本的豐富上下文中推斷復(fù)雜空間和語義關(guān)系的能力,限制了它們在現(xiàn)實世界問答場景中的適用性。
- 空間約束:圖1用戶的問題涉及復(fù)雜的空間關(guān)系:「沿某條路線推薦餐廳」。傳統(tǒng)的空間數(shù)據(jù)庫可以高效處理這些空間查詢,但它們無法理解用戶的語義需求:「要求肉食」。
- 語義理解:LLMs擅長理解自然語言中的語義信息,例如用戶對餐廳類型、價格或評分的偏好。然而,LLMs缺乏直接處理空間數(shù)據(jù)的能力,無法執(zhí)行復(fù)雜的空間計算(例如,計算兩個點之間的距離或判斷一個點是否位于某個區(qū)域內(nèi))。
為了解決這些挑戰(zhàn),增強LLMs的空間推理能力,埃默里大學(xué)和德州大學(xué)奧斯汀分校的研究人員推出了一個革命性的框架Spatial Retrieval-Augmented Generation (Spatial-RAG),將檢索增強生成(RAG)擴展到空間信息檢索和推理,彌合結(jié)構(gòu)化空間數(shù)據(jù)庫與非結(jié)構(gòu)化文本推理之間的差距,增強了LLMs在空間推理任務(wù)中的能力。
圖片
論文鏈接:https://www.researchgate.net/publication/388656403_Spatial-RAG_Spatial_Retrieval_Augmented_Generation_for_Real-World_Spatial_Reasoning_Questions
空間RAG
RAG在知識密集型任務(wù)(如問答)中已經(jīng)展示了其有效性,通過檢索特定領(lǐng)域的文檔來增強LLM的響應(yīng)。
然而,現(xiàn)有的RAG系統(tǒng)主要專注于檢索和生成文本內(nèi)容,缺乏空間推理任務(wù)所需的空間智能,尤其是涉及理解和計算幾何體(如點、多段線和多邊形)之間復(fù)雜空間關(guān)系的任務(wù)。
如圖1中的例子,回答問題需要LLM從用戶的文本請求中提取并形式化問題為「找到靠近多段線的點」,并基于空間地圖(數(shù)據(jù)庫)解決該問題。然后,它還需要推斷用戶偏好,以選擇空間和語義上更優(yōu)的候選對象。
因此,系統(tǒng)必須無縫集成結(jié)構(gòu)化空間檢索與非結(jié)構(gòu)化文本推理,確保空間準(zhǔn)確性和上下文理解。
為了實現(xiàn)這一目標(biāo),研究人員引入了空間檢索增強生成(Spatial-RAG),這是一個新穎的框架,將文本引導(dǎo)的空間檢索與空間感知的文本生成相結(jié)合。
具體來說,為了識別空間相關(guān)的候選答案,研究人員提出了一種新穎的空間混合檢索模塊,結(jié)合了稀疏和密集檢索器。
為了對候選答案進行排序并生成最終答案,研究人員提出基于空間和語義聯(lián)合排序策略的Pareto前沿檢索結(jié)果來驅(qū)動生成器。該研究貢獻總結(jié)如下:
- 通用的Spatial-RAG框架:Spatial-RAG是第一個將RAG擴展到空間問答的框架,能夠處理廣泛的空間推理任務(wù),如地理推薦、空間約束搜索和上下文路徑規(guī)劃。無縫集成了空間數(shù)據(jù)庫、LLMs和基于檢索的增強,使得能夠在LLMs的熟悉操作范式內(nèi)有效處理復(fù)雜的空間推理問題。
- 稀疏-密集空間混合檢索器:提出了一種混合檢索機制,結(jié)合了稀疏檢索(基于SQL的結(jié)構(gòu)化查詢)和密集檢索(基于LLM的語義匹配)。這種雙重方法確保檢索結(jié)果在空間和語義上與用戶查詢一致,顯著提高了空間上下文中的檢索準(zhǔn)確性。
- 多目標(biāo)引導(dǎo)的空間文本生成器:為了處理空間問答任務(wù)中的空間約束和文本推理,引入了一個多目標(biāo)優(yōu)化框架,動態(tài)平衡空間和語義相關(guān)性之間的權(quán)衡。這確保了生成的響應(yīng)既幾何準(zhǔn)確又語言連貫。
- 真實世界評估:在從旅游網(wǎng)站收集的真實世界數(shù)據(jù)集上評估了方法,該數(shù)據(jù)集包含用戶對不同空間實體的問題和評論。在該數(shù)據(jù)集上的實驗揭示了處理現(xiàn)實世界空間推理問題的能力。
通過這些創(chuàng)新,Spatial-RAG顯著增強了LLMs的空間推理能力,彌合了結(jié)構(gòu)化空間數(shù)據(jù)庫與自然語言問答之間的差距。
方法簡介
圖2 Spatial-RAG框架
對于一個空間推理問題q, Spatial-RAG將生成答案y, 形式上,該研究定義:
圖片
其中包含三個待解決的關(guān)鍵階段:
- 構(gòu)建空間候選集Cs:系統(tǒng)必須精確定義空間約束,然后檢索滿足這些約束的空間對象。如圖2 sparse spatial retrieval(稀疏空間檢索)所示,通過將輸入的自然語言問題解析為空間SQL查詢來實現(xiàn)這一點,該查詢將在空間數(shù)據(jù)庫上執(zhí)行,以高效地從數(shù)據(jù)庫中檢索相關(guān)的空間對象。
- 計算空間相關(guān)性fs(q,y):為了在集成文本信息的同時有效計算空間相關(guān)性,研究人員提出了一種混合空間檢索方案。如圖2所示,該方法結(jié)合了來自數(shù)據(jù)庫的稀疏空間相關(guān)性分?jǐn)?shù)和來自文本嵌入的密集語義相似性分?jǐn)?shù),使得系統(tǒng)能夠根據(jù)輸入問題的空間相關(guān)性對檢索到的空間對象進行排序。
- 多目標(biāo)優(yōu)化生成:在給定空間和語義約束的情況下,研究人員提出了一個多目標(biāo)優(yōu)化問題來平衡這些因素。系統(tǒng)計算候選答案的Pareto前沿,LLM動態(tài)在這些解決方案之間進行權(quán)衡,以生成最優(yōu)響應(yīng)。
稀疏空間檢索
空間推理問題的答案必須滿足特定的空間約束。空間候選集Cs(q)由滿足一組空間約束Cs(q)的所有可能答案y組成。形式上,該研究定義:
圖片
其中cs(y,q)表示編碼空間條件的約束函數(shù)(例如,拓?fù)洹⒎较蚧蚓嚯x約束),Cs(q)是與問題q相關(guān)的所有空間約束的集合。
例如,如果空間約束要求y與參考位置lq的距離不超過?,則可能的約束函數(shù)為:
圖片
這種公式確保只有空間上有效的答案才會被包含在Cs(q)中。
處理空間約束需要在空間數(shù)據(jù)庫中執(zhí)行定義良好的空間SQL查詢。此過程涉及識別適當(dāng)?shù)牟樵兒瘮?shù)、參考空間對象、目標(biāo)空間對象以及任何必要的數(shù)值參數(shù)。形式上,空間SQL查詢可以表示為:
圖片
其中Fs是確定對象之間關(guān)系的空間查詢函數(shù),Gr表示從問題中提取的參考對象集合,Gt表示作為潛在答案的目標(biāo)對象集合,?是控制空間約束的數(shù)值參數(shù)。
鑒于這些約束的多樣性和潛在的復(fù)雜性,大型語言模型(LLMs)通常難以直接從用戶輸入中構(gòu)建完整且可執(zhí)行的空間查詢。為了彌合這一差距,研究人員逐步構(gòu)建空間查詢,允許LLM系統(tǒng)地填充所需的組件。
方法遵循三個關(guān)鍵步驟:
- 幾何識別:從用戶輸入中識別并提取參考空間對象Gr和候選目標(biāo)空間對象Gt,并提取它們的空間幾何體。
- 查詢函數(shù)選擇:根據(jù)預(yù)期的空間關(guān)系(例如,包含、接近)確定適當(dāng)?shù)目臻g函數(shù)Fs。
- 參數(shù)估計:分配數(shù)值約束?以確保精確的空間過濾(例如,緩沖區(qū)半徑)。
通過形式化這一結(jié)構(gòu)化過程,研究人員增強了LLM生成準(zhǔn)確且可執(zhí)行的空間SQL查詢的能力,從而提高了系統(tǒng)處理復(fù)雜空間推理問題的能力。
幾何識別
在空間推理任務(wù)中,準(zhǔn)確識別空間對象并提取其空間幾何體對于將問題解析為空間查詢至關(guān)重要。空間對象g∈G通常可以分為三種基本類型:點、多段線和多邊形。形式上,研究人員定義這些類別如下:
- 點:此類別包括單個點和多點,表示面積可忽略的位置。例如,停車標(biāo)志、地址點和用戶的當(dāng)前位置。在空間數(shù)據(jù)庫中,這些實體通常表示為「點」幾何類型。
圖片
- 多段線(包括多段線組):表示寬度可忽略的線性一維對象。常見的例子包括街道、河流、公交路線和電力線。在空間數(shù)據(jù)庫中,這些幾何體抽象為「線串」類型。
圖片
- 多邊形(包括多邊組):表示定義封閉區(qū)域的二維對象。這些幾何體對于描繪區(qū)域(如人口普查區(qū)、地塊、縣、社區(qū)和分區(qū)區(qū)域)至關(guān)重要。
圖片
空間查詢的復(fù)雜性取決于所涉及對象的類型。對于較簡單的查詢,例如「從給定位置找到最近的公交站」,只需要點幾何體,空間候選集為:
圖片
其中g(shù)point?Gpoint表示點對象(例如,給定位置),?是距離閾值。對于更復(fù)雜的查詢,例如「我將從家沿著第7街和瓊斯街步行到大學(xué)校園;請推薦一家我可以在步行途中購買早餐的咖啡館。」,必須考慮多種幾何類型,空間候選集為:
圖片
其中表示多段線對象(例如,路線),
表示多邊形區(qū)域(例如,大學(xué)校園),B是多段線周圍的緩沖區(qū),?是緩沖區(qū)大小。
通過以這種方式構(gòu)建空間查詢,研究人員確保了精確的幾何表示,促進了強大的空間推理和查詢執(zhí)行。
查詢函數(shù)識別和參數(shù)估計
在識別了空間查詢中涉及的幾何體之后,下一步是確定處理各種幾何交互所需的適當(dāng)空間查詢函數(shù)Fs
盡管幾何體之間的交互不同,但它們可以通過距離函數(shù)d(gr,gt)統(tǒng)一處理,該函數(shù)計算兩個幾何實體gr,gt∈G之間的最短距離。
形式上,給定參考幾何體集合Gr?G和目標(biāo)幾何體集合Gt?G,空間候選集Cs可以定義為:
圖片
參數(shù)如搜索半徑或緩沖區(qū)距離?由LLM自主確定,通常基于上下文理解(例如,估計的步行距離或感興趣區(qū)域)。參數(shù)?可以表示為:?=?(q),其中?是將查詢q的上下文映射到適當(dāng)數(shù)值的函數(shù)。
一旦幾何體Gr,Gt函數(shù)Fs和參數(shù)?被確定,系統(tǒng)將構(gòu)建精確的空間查詢Qs,確保了從空間數(shù)據(jù)庫中進行精確檢索,保持結(jié)果的準(zhǔn)確性和相關(guān)性。
通過利用這些數(shù)學(xué)公式,系統(tǒng)有效地將空間推理任務(wù)轉(zhuǎn)化為可執(zhí)行的查詢,促進了LLM框架內(nèi)的強大空間智能。
混合空間對象排序
空間相關(guān)性分?jǐn)?shù)fs由兩個部分組成:一個來自空間數(shù)據(jù)庫的稀疏空間檢索分?jǐn)?shù),另一個來自基于問題和候選對象空間描述之間的文本相似性的密集空間檢索分?jǐn)?shù)。
形式上,研究人員定義:
圖片
其中λs和λd是控制每個分?jǐn)?shù)貢獻的權(quán)重系數(shù)。
稀疏空間相關(guān)性評分
稀疏空間相關(guān)性直接從空間數(shù)據(jù)庫中使用顯式空間關(guān)系計算。分?jǐn)?shù)由空間查詢函數(shù) FsFs 確定,該函數(shù)計算參考對象和目標(biāo)對象之間的距離。形式上,研究人員定義:
圖片
其中g(shù)r和gt分別是參考和目標(biāo)空間對象。
是測量空間數(shù)據(jù)庫中接近度的距離函數(shù)。如果gt與gr重疊,分配一個完美的相關(guān)性分?jǐn)?shù)1,確保了區(qū)域內(nèi)的對象具有最大的相關(guān)性,而區(qū)域外的對象隨著距離的增加,其分?jǐn)?shù)逐漸衰減。
密集空間相關(guān)性評分
與稀疏評分不同,密集空間相關(guān)性是從與空間對象相關(guān)的文本描述中推斷出來的。研究人員利用LLM從用戶查詢中提取關(guān)鍵空間屬性,并將其與候選對象的描述進行比較。
提取空間需求:給定用戶查詢q和一組空間對象Gt的文本描述dt,研究人員通過基于注意力的掩碼函數(shù)提取相關(guān)的空間內(nèi)容:
圖片
其中vq,s和vt,s是空間特征的密集向量表示,M是將輸入文本映射到空間相關(guān)文本的提取函數(shù),E是文本編碼器。
通過余弦相似性排序:相關(guān)性分?jǐn)?shù)通過余弦相似性計算:
圖片
混合排序作為廣義模型
混合排序泛化了稀疏和密集排序方法:
- 僅稀疏情況:如果 λd=0λd=0,則 fs=λsfssparsefs=λsfssparse,簡化為純基于距離的排序。
- 僅密集情況:如果 λs=0λs=0,則 fs=λdfsdensefs=λdfsdense,簡化為純基于語義的排序。
- 混合情況:如果兩個權(quán)重都非零,混合排序受益于顯式空間約束和隱式語義相關(guān)性,從而形成更全面的排序機制。
這種公式確保混合排序通過捕捉空間接近度和語義對齊,優(yōu)于任何單一排序方法。
多目標(biāo)生成
語義候選集Ck和語義相關(guān)性分?jǐn)?shù)fk基于密集向量相似性計算。在獲得所有分?jǐn)?shù)和候選集后,問題變?yōu)槎嗄繕?biāo)優(yōu)化問題,因為每個視角(空間和語義)都獨立貢獻。
Pareto前沿計算
給定空間和語義相關(guān)性分?jǐn)?shù),目標(biāo)是識別在空間和語義相關(guān)性之間實現(xiàn)最佳權(quán)衡的Pareto最優(yōu)候選。
一個候選y是Pareto最優(yōu)的,如果沒有其他候選在空間和語義相關(guān)性上都優(yōu)于它。
形式上,Pareto前沿P(q)定義為:
圖片
確保了P(q)中的每個候選都是非支配的,意味著沒有其他候選在空間和語義相關(guān)性上都嚴(yán)格優(yōu)于它。
基于LLM的權(quán)衡決策
一旦確定了Pareto前沿P(q),研究人員使用LLM根據(jù)用戶查詢的上下文動態(tài)平衡空間約束和語義偏好之間的權(quán)衡。
具體來說,LLM接收用戶查詢、稀疏空間相關(guān)性分?jǐn)?shù)和空間對象描述作為輸入:
圖片
基于上下文信息的動態(tài)加權(quán)函數(shù)從輸入中提取,調(diào)整空間與語義相關(guān)性的重要性,其中h是捕捉查詢特定權(quán)衡的學(xué)習(xí)函數(shù)。
LLM選擇排名最高的候選y?:
圖片
并生成自然語言響應(yīng)。
系統(tǒng)適應(yīng)不同的查詢上下文,而不是使用固定的加權(quán)方案。
通過將決策過程結(jié)構(gòu)化為離散步驟(候選過濾 →→ Pareto選擇 →→ 權(quán)衡平衡 →→ 響應(yīng)生成),LLM避免了生成不可行或不合理的結(jié)果。這種結(jié)構(gòu)化方法最大限度地提高了準(zhǔn)確性和可用性,確保系統(tǒng)的最終響應(yīng)與用戶的原始意圖緊密一致。
實驗部分
研究人員在紐約市和邁阿密的旅游數(shù)據(jù)集上對Spatial-RAG進行了評估,展示了其在處理真實世界空間推理問題上的顯著優(yōu)勢。
數(shù)據(jù)集與評估指標(biāo)
- 數(shù)據(jù)集:使用了來自TripAdvisor的用戶問題和評論數(shù)據(jù),涵蓋紐約市的9,470個興趣點(POIs)和邁阿密的2,640個POIs。
- 評估指標(biāo):
交付率:評估方法是否能夠成功生成結(jié)果。
空間稀疏通過率:評估解析的空間查詢是否正確。
空間密集通過率:評估答案是否滿足問題中的空間相關(guān)語義約束。
語義通過率:評估答案是否符合問題中的語義約束。
對比方法
為了評估LLM(GPT-3.5-Turbo和GPT-4-Turbo)在此框架下的表現(xiàn),研究團隊對比了以下基線方法:
- Sort-by-distance(SD):按照空間問題中的參考對象距離排序候選空間對象。
- Text embedding(TE):基于文本描述的嵌入向量,計算目標(biāo)對象與參考對象的向量距離,并選擇最近的對象。
- Spatial-text(ST):基于用戶問題的嵌入向量計算與目標(biāo)對象文本描述的相似度,并結(jié)合目標(biāo)對象的距離得分進行加權(quán)求和后決策。
- Naive RAG:使用向量數(shù)據(jù)庫存儲所有空間對象描述,并基于向量相似性檢索最相關(guān)的對象。
- GeoLLM:對空間對象進行編碼,并通過添加附近對象的空間信息豐富上下文。
實驗結(jié)果
圖片
紐約(NYC)
- Spatial-RAG(GPT-3.5-Turbo 和 GPT-4-Turbo)在交付率上與其他基線方法存在一定差距,大約 86.1% 的問題被成功處理。
- 失敗的 12.9% 的情況是由于 無法從空間數(shù)據(jù)庫檢索到任何空間對象(可能由于多邊形識別錯誤或SQL查詢指定區(qū)域內(nèi)無相關(guān)對象)。
- 另 0.9% 的情況是 LLM在重新排序(reranking)過程中未能正確排列檢索結(jié)果。
- Spatial-RAG(GPT-4-Turbo)比 GPT-3.5-Turbo 在 Spatial Dense Pass Rate 上高 7%,在 Semantic Pass Rate 上也稍有優(yōu)勢。
- SD 方法由于僅基于距離返回最近的對象,其 Spatial Dense Pass Rate 較高,但其他指標(biāo)表現(xiàn)較差。
- GeoLLM 方法僅基于對象名稱和距離,因此在 Spatial Dense Pass Rate 方面表現(xiàn)尚可。
- TE 和 ST 方法考慮了語義信息,在 Semantic Pass Rate 方面表現(xiàn)較優(yōu)。
- Naive RAG 和 ST 共同優(yōu)化了空間密集檢索和用戶語義檢索,因此兩者在這兩個方面表現(xiàn)接近。
邁阿密(Miami)
- Spatial-RAG 在邁阿密數(shù)據(jù)集上的表現(xiàn)也較好。
- 基線方法的表現(xiàn)模式與紐約數(shù)據(jù)集基本一致,但由于邁阿密的數(shù)據(jù)量較小(QA 對數(shù)量僅為 133),模型表現(xiàn)的穩(wěn)定性可能受到影響。
消融實驗
研究人員通過移除稀疏空間模塊、密集空間模塊和密集語義模塊進行了消融實驗。結(jié)果表明:
- 移除稀疏空間模塊后,交付率顯著提高,但空間得分下降。
- 移除密集語義模塊后,空間密集通過率最高,但語義通過率顯著降低。
案例研究
圖3和圖4(b)展示了一個典型的多段線搜索案例。
Spatial-RAG成功識別了用戶意圖,推薦了沿路線的餐廳,展示了其在復(fù)雜空間推理任務(wù)中的強大能力。
圖片
圖3 Spatial-RAG 運行方式的示例:給定一個問題,1) 稀疏空間檢索:LLM 將自然語言問題解析為空間數(shù)據(jù)庫的空間 SQL 查詢,檢索滿足空間約束和稀疏空間相關(guān)性分?jǐn)?shù)的空間對象。2) 問題分解和密集檢索:同時,Spatial-RAG 將問題分解為空間和語義組件,并將它們與空間對象的描述進行比較以執(zhí)行密集檢索,過濾掉不相關(guān)的內(nèi)容。3) LLM 重新排序:語言代理平衡空間和語義方面以重新排序候選并生成最終答案。
圖4 (a) 查詢? km半徑內(nèi)的點 (b) 查詢路徑周圍的點 (c) 查詢多邊形內(nèi)的點
結(jié)論
Spatial-RAG通過結(jié)合空間數(shù)據(jù)庫和LLM的語義理解能力,顯著提升了空間推理任務(wù)的性能。實驗表明,Spatial-RAG在真實世界數(shù)據(jù)集上表現(xiàn)優(yōu)異,能夠有效處理復(fù)雜的空間推理問題,為旅游推薦、路徑規(guī)劃等應(yīng)用提供了強大的支持。