成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別

發布于 2025-6-16 08:36
瀏覽
0收藏

“ 人工智能做數據分析的原理是生成相對應的分析語句或代碼,而不是直接讓大模型對數據進行處理。”

最近在研究基于人工智能進行數據分析,主要研究了基于langchain集成Pandas的數據分析智能體;以及數據分析開源項目Vanna,一個基于大模型做數據分析的框架。

而在對比兩者實現原理的過程中就發現了一個問題,基于SQL做數據分析和基于Pandas做數據分析的區別以及優劣勢是什么。

基于人工智能的數據分析

在傳統的數據分析過程中主要采用的也是SQL和Pandas兩種方式進行數據處理;記憶SQL的優點是結構化處理功能強大,借助于SQL引擎能夠處理大批量數據;而Pandas則主要基于內存進行處理,雖然可以進行分批加載,但在某些場景下會存在一些問題。

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

而現在基于大模型做數據分析,其本質上還是利用SQL和Pandas的處理能力,并不是讓大模型直接對數據進行分析;不管是Langchain的Pandas數據處理還是Vanna的數據分析,都是讓大模型理解人類的自然語言,然后生成相應的SQL語句或Pandas代碼,然后調用執行引擎獲取結果。

只不過在這里大模型取代了人類的工作,在之前進行數據分析時,DBA工程師需要根據需求編寫SQL或其它代碼,然后獲得結果;而有了大模型之后,就可以讓大模型自己理解需求,然后生成相對應的代碼,這樣就大大提升了數據分析的效率。

所以大模型做數據分析的本質,其實是代碼生成;其核心是基于自然語言理解和代碼生成的結合。

關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

那么使用SQL和Pandas各有什么優劣勢呢?

Pandas由于是依靠內存進行處理,因此Pandas在處理大批量數據有天生的缺陷;而SQL依靠SQL引擎,在處理大批量數據時有一定的優勢;但如果是基于傳統的關系型數據庫,當數據量達到一定程度時,SQL依然會存在各種各樣的問題。

因此,如果數據量非常大的情況下,需要使用一些數倉中間件,比如說flink,hive等。

但SQL相對于Pandas還有一個優點就是,SQL是完全結構化的數據,沒有那么多亂七八糟的格式;而Pandas雖然也擅長處理格式化數據,但有些數據并不是完全格式化的,或者說是完全標準的二維表關系。


關于基于人工智能做數據分析的兩種方式——SQL和Pandas的區別-AI.x社區

比如說,在csv和excel表中,雖然也是格式化的數據;但可以對其單元格進行合并,特別是excel表,雖然看起來數據格式很簡單,但實際場景中其數據結構非常復雜;有合并行,也有合并列,而且可以在不同的地方進行合并,這就對Pandas的數據處理產生很大的影響。

所以,在借助大模型做數據分析時,我們需要根據自己的需求以及數據格式和數據量,選擇適合自己的處理方式;而且有些時候可以把兩種方式結合起來。

畢竟,在不同的數據庫引擎中,其SQL也有一定的差別;而Pandas卻可以統一成固定的df對象進行處理,這一點屏蔽了不同數據源之間的區別,對后續處理來說更加的方便。


本文轉載自???AI探索時代??? 作者:DFires

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品久久久久久一区二区 | 一级做a爰片性色毛片视频停止 | 天天干天天干 | 日韩精品成人免费观看视频 | 国产特级毛片 | 国外成人在线视频 | 日韩成人免费视频 | 日韩乱码av| 欧美精品欧美精品系列 | 免费一级欧美在线观看视频 | 国产精品久久久久久久久久久免费看 | 亚洲精品免费在线观看 | 九色网址 | 色婷婷av99xx | 范冰冰一级做a爰片久久毛片 | 久久久亚洲综合 | 免费成人av网站 | 国产精品久久久久一区二区三区 | 国产精品色 | 韩日免费视频 | 午夜小视频在线播放 | 亚洲午夜精品 | 欧美在线一二三 | 91精品国产91久久综合桃花 | 国产精品综合久久 | 精品久久久久久久久久久久久 | 国产91av视频在线观看 | 亚洲高清一区二区三区 | 国产乱精品一区二区三区 | 看a网站 | 国产精品久久久久久一级毛片 | 午夜看片网站 | 免费中文字幕 | 91国内精品久久 | 亚洲成av| 日本不卡免费新一二三区 | 国产精品视频一区二区三区四区国 | 免费观看黄a一级视频 | 天堂色| 99精品欧美一区二区蜜桃免费 | 久久久精品黄色 |