阿里云數據庫NL2SQL技術獲國際權威評測第一名
日前,阿里云數據庫參加耶魯大學Spider數據集評測,以78分的成績排名榜單第一。這一成績證明了阿里云數據庫在NL2SQL技術上的國際領先性。據了解,Spider是業(yè)界公認的大規(guī)模跨領域復雜NL2SQL轉換效果的評測榜單。
NL2SQL(Natural Language to SQL)是一項將用戶的自然語句轉為數據庫可執(zhí)行 SQL 語句的技術,對改善用戶與數據庫之間的交互方式有很大意義。Spider數據集是耶魯大學提出的一個較大規(guī)模的NL2SQL數據集,包含了10000多條自然語言問句,內容覆蓋了100多個不同的領域,貼近真實場景,難度非常高。
日前,阿里云數據庫團隊研發(fā)的CatSQL技術參加評測,并獲得Spider數據集評測第一名的好成績。78分的成績,顯著超過第二名0.4分,尤其是模型規(guī)模僅為第二名的1/7,且計算速度提升10倍以上。
達摩院智能數據庫實驗室負責人譚劍介紹:為提升NL2SQL轉換效果,現階段業(yè)界的一個趨勢是使用越來越大的模型,而在這次測評中,阿里云數據庫團隊另辟蹊徑,采用了小模型,在獲得了幾乎一個數量級的吞吐率提升的同時,還取得了更好的準確率;該方法也開辟了NL2SQL的一個新思路,即把自然語言技術與數據庫領域知識緊密結合,從SQL語義的角度提升NL2SQL的準確性,也更加保證了在實際商用場景中的有效性。
譚劍表示,“最新的成績說明,NL2SQL技術已經日臻成熟,在準確性和實用性上逐漸達到了部分復雜場景的商用要求。”
據透露,阿里云數據庫團隊在NL2SQL方向上已經進行了兩年多的自研工作,并已經把這些前沿技術在相關數據庫產品中落地使用,有效的簡化了用戶查詢數據庫的方式。比如,阿里云數據庫的一站式數據管理平臺DMS上,就采用了自研CatSQL技術,通過自然語言交互的方式幫助客戶更高效的進行數據資產管理。
據了解,阿里云自成立以來就十分重視數據庫前沿技術研究,并為此成立專門的研究機構——達摩院數據庫與存儲實驗室。過去幾年,阿里云數據庫團隊有50多篇論文被國際頂級會議和期刊收錄,獲得了近千項國內外專利,并實現自研數據庫擁有存儲計算分離、三層解耦、多主架構、HTAP、Serverless、一體化分布式、全加密、智能與自治化等創(chuàng)新能力。
公開資料顯示,阿里云擁有國內最豐富的云數據庫產品家族,云數據庫市場份額位居國內第一。據國際權威機構Gartner年度全球云數據庫魔力象限評估報告,阿里云作為中國唯一的科技公司代表,于2020年和2021年連續(xù)兩年進入領導者(LEADERS)象限。這標志著中國數據庫40年來首次進入全球頂級數據庫行列。