成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

表格增強生成TAG登場:解鎖AI自然語言與數據庫的完美結合

人工智能 新聞
與 Text2SQL 或 RAG 不同,TAG 充分利用了數據庫系統和 LLM 的功能。

人工智能已經改變了人們的工作方式和與數據交互的方式。回想幾年前,研究人員必須編寫 SQL 查詢和代碼才能從大量數據中提取有用信息。如今,他們只需輸入問題,由語言模型驅動的底層系統會完成其余工作,讓用戶只需與數據對話即可立即獲得答案。

這些新系統向數據庫提供自然語言交互,這種轉變取得了豐碩成果,但仍存在一些問題。從本質上講,這些系統仍然無法處理各種查詢。

本文,來自 UC 伯克利和斯坦福大學的研究人員現在正努力用一種名為表格增強生成 (TAG,Table-Augmented Generation) 的新方法來解決這一問題。

圖片


  • 論文地址:https://arxiv.org/pdf/2408.14717
  • 項目地址:https://github.com/TAG-Research/TAG-Bench
  • 論文標題:Text2SQL is Not Enough: Unifying AI and Databases with TAG

TAG 是一種統一且通用的范式,用于回答數據庫中的自然語言問題。TAG 模型代表了 LM 和數據庫之間未曾探索過的廣泛交互。

TAG 是如何工作的

目前,當用戶對自定義數據源提出自然語言問題時,主要采用兩種方法:文本到 SQL 或檢索增強生成 (RAG)

雖然這兩種方法都能很好地完成工作,但當問題變得復雜并超出系統能力時,用戶就會遇到問題。

舉例來說,文本到 SQL 的方法(這是一種將文本提示轉換為數據庫可以執行的 SQL 查詢)僅關注可以用關系代數表達的自然語言問題,但只能查詢用戶可能想要詢問的一小部分問題。

相似的,RAG 只能通過對數據庫中的一個或幾個數據記錄的點查找來回答相關的查詢。這種方法專注于直接從數據庫中檢索特定信息點,而不涉及更復雜的數據處理或分析。 

然而,對于商業用戶來說,他們的問題通常需要復雜的領域知識、世界知識、精確計算和語義推理的組合。

為了解決這一問題,該研究提出了 TAG 系統,其實現主要包含三個步驟:查詢合成、查詢執行和答案生成

圖片

TAG 模型很簡單,但功能強大,由以下三個方程定義:

圖片

值得注意的是,TAG 模型統一了之前的方法,包括 Text2SQL 和 RAG,它們僅代表了 TAG 的特殊情況并且僅能解決有限的用戶問題子集。

查詢合成

首先,LM 推斷哪些數據與回答問題相關,并將輸入轉換為該數據庫的可執行查詢(不僅僅是 SQL) 。

其中,syn 函數接受自然語言請求 ?? 并生成要由數據庫系統執行的查詢 ??。對于給定的用戶請求,此步驟負責 (a) 推斷哪些數據與回答請求相關,以及 (b) 執行語義解析以將用戶請求轉換為可由數據庫系統執行的查詢。此查詢可以使用任何查詢語言。論文示例中使用了 SQL。

如圖 1 所示,該查詢的問題是「總結票房最高的被認為是經典的愛情電影的評論」。在這里,數據源包含有關每部電影的名字、收入、類型和相關評論的信息。在此步驟中,系統利用 LM 的語義推理能力來生成 SQL 查詢,該查詢使用來自數據源的電影標題、評論、收入和類型的屬性。

查詢執行

在查詢執行階段,exec 函數在數據庫系統中執行查詢??,獲取表??。此步驟利用數據庫查詢引擎對大量存儲的數據進行有效地查詢。

如圖 1 所示,數據庫查詢是用 SQL 編寫的 selection 和 ranking 查詢,它返回包含相關行的表。查詢使用 LM 執行選擇,根據電影名字評估哪些電影是經典電影,并使用標準類型過濾器查找愛情電影。查詢還根據收入對結果進行排名,以查找票房最高的電影。如圖所示,結果表包含電影泰坦尼克號的評論。

答案生成

在這一步中,gen 函數使用 LM 生成用戶自然語言請求 R 的答案 A。

還是以圖 1 為例,在 TAG pipeline 最后階段,輸出有關泰坦尼克號的評論摘要作為對原始用戶請求的回答。在示例中,相關數據 ?? 被編碼為字符串,供模型處理。編碼表與原始用戶請求 ?? 一起傳遞給 LM。為了獲得答案,此步驟利用模型對評論列的語義推理能力來總結評論。

實驗及結果

表 1 顯示了每種方法的精確匹配準確率和執行時間。如表所示,在選定的 BIRD (一個數據集,用于測試 LMs 的文本到 sql 的能力)查詢類型中,研究者發現手寫 TAG(hand-written TAG)基線始終能達到 40% 或更高的精確匹配準確率,而其他基線的準確率均未超過 20%。

圖片

具體而言,Text2SQL 在所有基線上的表現都不佳,執行準確率不超過 20%,但在 Ranking 查詢上的表現尤其糟糕,準確率只有 10%,因為許多 Ranking 查詢需要對文本進行推理。Text2SQL + LM 在各個基線上的表現都同樣糟糕,但在基于匹配和比較的查詢上表現更差,準確率只有 10%。

對于 RAG,可以看到它在所有查詢類型中都不能正確回答單個查詢,這表明 RAG 不適合這個領域的查詢。

手寫 TAG 總體上正確回答了 55% 的查詢,在比較查詢中表現最佳,精確匹配準確率為 65%。由于精確排序商品的難度較高,該基線在所有查詢類型(排名查詢除外)中的表現始終良好,準確率超過 50%。總體而言,與標準基線相比,此方法的準確率提高了 20% 至 65%。

表 2 表明,由于省略了答案生成步驟,vanilla Text2SQL 在需要 LM 推理的查詢上表現較差,精確匹配準確率為 10%。與此同時,RAG 基線和 Retrieval + LM Rank 基線在所有查詢類型上都表現不好,只能正確回答一個查詢。相比之下,手寫 TAG 基線在需要知識的查詢和需要推理的查詢上都實現了超過 50% 的準確率。

圖片

值得注意的是,除了提供卓越的準確率外,手寫 TAG 方法還提供了高效的實現,與其他基線相比,執行時間少用了 1/3。手寫基線對所有查詢的平均耗時為 2.94 秒。

最后,該研究定性分析了每個基線在聚合查詢上的結果。圖 2 為一個示例展示,查詢的內容為「提供有關雪邦國際賽車場的比賽資料」。

結果顯示,RAG 基線只能提供有關部分比賽的信息,因為大多數相關比賽都無法被檢索到。另一方面,Text2SQL + LM 基線無法利用 DBMS 中的任何信息,僅依賴于參數知識并且不提供進一步的分析。

相比較來說,手寫基線提供了 1999 年至 2017 年在雪邦國際賽道舉行的所有比賽的詳盡摘要。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-03 16:15:36

2023-08-03 09:56:47

自然語言AI

2024-12-23 11:31:05

大模型檢索人工智能

2023-11-08 16:18:32

人工智能矢量數據庫

2024-09-10 08:31:20

2021-05-13 07:17:13

Snownlp自然語言處理庫

2025-01-07 07:00:00

2025-02-11 08:00:00

大語言模型檢索增強生成CAG

2025-03-07 09:00:00

2023-09-20 12:13:47

開發模型

2023-10-14 17:46:17

RAG提示工程GPT-3

2024-05-20 08:31:33

檢索增強生成LLM大型語言模型

2025-01-23 16:23:30

2024-06-18 15:36:50

2025-05-28 01:25:00

RAG人工智能語言模型

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2025-01-26 12:34:46

AI運維配置

2021-01-19 22:38:59

人工智能語言人臉識別
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产精品成人综合久久久 | 日韩精品一区二区三区视频播放 | 亚洲视频在线一区 | 欧美一区二区三区四区视频 | 亚洲国产一区二区三区在线观看 | 婷婷中文在线 | 久视频在线观看 | 欧美激情一区二区三区 | 成人深夜福利网站 | 日韩精品一区二区三区中文字幕 | 日韩国产欧美 | 精品久久久久久久人人人人传媒 | 丁香婷婷综合激情五月色 | 中文字幕一级毛片 | 欧美特级黄色 | 国内久久 | 中文字幕国产视频 | 亚洲免费人成在线视频观看 | 日韩中文字幕在线视频观看 | 永久看片 | 皇色视频在线 | 久草视频2 | 久久99精品久久久97夜夜嗨 | 亚洲欧美高清 | 亚洲国产成人久久综合一区,久久久国产99 | 又爽又黄axxx片免费观看 | 成人免费看 | 综合久久av| 亚洲精品电影网在线观看 | 手机看片1 | 国产视频一区二区 | 北条麻妃av一区二区三区 | 热久久久| www.国产视频| 国产精品乱码一区二三区小蝌蚪 | 国产精品亚洲一区二区三区在线观看 | www.成人久久 | 国产高清一区二区 | 不卡一区二区在线观看 | 国产一区二区不卡 | 欧美高清视频一区 |