麻省理工研究人員引入新的人工智能驅動的SQL數據庫分析
在當今數據驅動的世界中,對表格數據進行復雜統計分析的能力對于從原始數據中獲得有意義的見解至關重要。然而,數據的復雜性和龐大量使得個人和組織越來越難以有效地處理和解釋信息。
現在出現了一個突破,徹底改變了我們與數據交互的方式。麻省理工學院的研究人員推出了GenSQL,這是一種概率編程系統,旨在為數據庫用戶簡化復雜表格數據的分析。
使用GenSQL,用戶可以預測和檢測異常,修復錯誤,猜測缺失值,并以最小的努力生成合成數據。開發GenSQL的一個關鍵目標是為用戶提供一種可訪問的方式來處理數據,而不需要對底層流程有深入的技術知識。
由于GenSQL可用于創建和分析模擬數據庫中真實數據的合成數據,因此該工具對于無法共享敏感數據的應用程序(例如患者數據或金融交易)非常有用。
傳統的SQL允許用戶直接從數據庫中查詢數據,但很難結合復雜的概率模型,而這些模型可以更深入地了解數據依賴關系和相關性。GenSQL通過集成傳統SQL查詢和獨立概率建模方法來解決它們的局限性。
“我們認為,當我們從僅僅查詢數據轉向詢問模型和數據問題時,將需要一種類似的語言來教授人們可以向具有數據概率模型的計算機提出的連貫問題,”Vikash Mansinghka說,他是一篇介紹GenSQL的論文的高級作者,也是麻省理工學院腦與認知科學系概率計算項目的首席研究科學家和負責人。
根據麻省理工學院研究人員進行的內部測試,GenSQL不僅提供更快的結果,而且更準確。此外,GenSQL的輸出是可解釋的,因此用戶可以理解人工智能模型是如何得出結論的。這有助于用戶理解推理過程,并據此做出明智的決策。
研究人員通過將GenSQL的性能與使用神經網絡的流行基線方法進行比較來測試GenSQL。結果顯示,GenSQL的速度要快1.7到6.8倍,并且提供更準確的結果。
為了測試GenSQL在大規模建模中的性能,研究人員應用該工具從包含人口數據的大型數據集中生成見解。GenSQL能夠得出關于數據集中個人的健康和工資的有用推斷。
GenSQL在研究人員進行的案例研究中也表現出色。該工具成功地識別了錯誤標記的臨床試驗數據,并且還能夠捕獲基因組學案例研究中的復雜關系。
麻省理工學院的研究人員計劃增加新的優化和自動化,使GenSQL更強大,更容易使用。他們還希望用戶能夠在GenSQL中使用自然語言查詢,使更廣泛的受眾更容易接近復雜的數據。