關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別

發布于 2025-6-16 08:36

瀏覽

0收藏

“ 人工智能做數據分析的原理是生成相對應的分析語句或代碼，而不是直接讓大模型對數據進行處理。”

最近在研究基于人工智能進行數據分析，主要研究了基于langchain集成Pandas的數據分析智能體；以及數據分析開源項目Vanna，一個基于大模型做數據分析的框架。

而在對比兩者實現原理的過程中就發現了一個問題，基于SQL做數據分析和基于Pandas做數據分析的區別以及優劣勢是什么。

基于人工智能的數據分析

在傳統的數據分析過程中主要采用的也是SQL和Pandas兩種方式進行數據處理；記憶SQL的優點是結構化處理功能強大，借助于SQL引擎能夠處理大批量數據；而Pandas則主要基于內存進行處理，雖然可以進行分批加載，但在某些場景下會存在一些問題。

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

而現在基于大模型做數據分析，其本質上還是利用SQL和Pandas的處理能力，并不是讓大模型直接對數據進行分析；不管是Langchain的Pandas數據處理還是Vanna的數據分析，都是讓大模型理解人類的自然語言，然后生成相應的SQL語句或Pandas代碼，然后調用執行引擎獲取結果。

只不過在這里大模型取代了人類的工作，在之前進行數據分析時，DBA工程師需要根據需求編寫SQL或其它代碼，然后獲得結果；而有了大模型之后，就可以讓大模型自己理解需求，然后生成相對應的代碼，這樣就大大提升了數據分析的效率。

所以大模型做數據分析的本質，其實是代碼生成；其核心是基于自然語言理解和代碼生成的結合。

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

那么使用SQL和Pandas各有什么優劣勢呢？

Pandas由于是依靠內存進行處理，因此Pandas在處理大批量數據有天生的缺陷；而SQL依靠SQL引擎，在處理大批量數據時有一定的優勢；但如果是基于傳統的關系型數據庫，當數據量達到一定程度時，SQL依然會存在各種各樣的問題。

因此，如果數據量非常大的情況下，需要使用一些數倉中間件，比如說flink，hive等。

但SQL相對于Pandas還有一個優點就是，SQL是完全結構化的數據，沒有那么多亂七八糟的格式；而Pandas雖然也擅長處理格式化數據，但有些數據并不是完全格式化的，或者說是完全標準的二維表關系。

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

比如說，在csv和excel表中，雖然也是格式化的數據；但可以對其單元格進行合并，特別是excel表，雖然看起來數據格式很簡單，但實際場景中其數據結構非常復雜；有合并行，也有合并列，而且可以在不同的地方進行合并，這就對Pandas的數據處理產生很大的影響。

所以，在借助大模型做數據分析時，我們需要根據自己的需求以及數據格式和數據量，選擇適合自己的處理方式；而且有些時候可以把兩種方式結合起來。

畢竟，在不同的數據庫引擎中，其SQL也有一定的差別；而Pandas卻可以統一成固定的df對象進行處理，這一點屏蔽了不同數據源之間的區別，對后續處理來說更加的方便。

本文轉載自???AI探索時代??? 作者：DFires

標簽

贊

回復

舉報

回復

相關推薦

大模型與數據分析：探索Text-to-SQL

pangguiyu ? 9326瀏覽 ? 0回復
打破壁壘：生成式人工智能如何重塑數據分析場景

51CTO內容精選 ? 2918瀏覽 ? 0回復
神器Pandas AI: 一款智能做數據分析的工具！

開發者阿橙 ? 4867瀏覽 ? 0回復
企業或個人構建人工智能上層應用的幾種方式，以及每種方式的優劣

AI探索時代 ? 2575瀏覽 ? 0回復
再次提升RAG性能：兩種高效的Rerank模型實踐指南

AIGC觀察者 ? 2.2w瀏覽 ? 0回復
揭開危險的面紗：人工智能可能失控的十種方式以及如何識別

51CTO內容精選 ? 2881瀏覽 ? 1回復
關于人工智能(大模型)泡沫即將破裂言論分析

AI探索時代 ? 2985瀏覽 ? 0回復
Pandas AI: 一款可以智能做數據分析的工具！

Halo咯咯 ? 3984瀏覽 ? 0回復
數據分析自動化：LIDA智能可視化的魔法！

Halo咯咯 ? 2913瀏覽 ? 0回復
【AI開源項目】FastGPT - 快速部署FastGPT以及使用知識庫的兩種方式！

唐克 ? 9298瀏覽 ? 0回復
關于戰略人工智能的深度綜述

51CTO內容精選 ? 2652瀏覽 ? 0回復
提升人工智能性能的三種關鍵的LLM壓縮策略

51CTO內容精選 ? 2331瀏覽 ? 0回復
AI驅動的基于意圖的網絡（IBN）：人工智能助力網絡管理的未來

51CTO內容精選 ? 3041瀏覽 ? 0回復
人工智能的未來——AI Agent和Agentic AI的區別與聯系

AI探索時代 ? 2905瀏覽 ? 0回復
關于生成式人工智能訓練的綜合指南

51CTO內容精選 ? 2761瀏覽 ? 0回復
大模型除了聊天還能做什么？關于大模型的分類和應用

AI探索時代 ? 2346瀏覽 ? 0回復
人工智能中的數據重要性與數據預處理

parson2000 ? 1486瀏覽 ? 0回復
關于工作流在人工智能領域內的應用分析

AI探索時代 ? 1309瀏覽 ? 0回復
關于人工智能應用場景中前期數據處理的業務場景和技術分析——包括結構化數據和非結構化數據

AI探索時代 ? 791瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別

基于人工智能的數據分析

目錄