成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多款OLAP數據庫大比拼,誰更勝一籌?

數據庫 其他數據庫
昨天又使用最新版本作了對比, 這次chdb卡在了Query08和Query09上, 為了確認Query09很耗時,我在我的筆記本(mac M2Max 32GB內存)上做了測試,耗時158s多。

昨天在群里聊到多款OLAP數據庫的性能對比,想到之前網上找到的一個benchmark, TPCH_Python_SQL_Engines.ipynb(出處已不可考), 并且為了4月26日的演講,特意在4月24日跑了一遍,這個是2024年4月24日的對比結果。

圖片圖片

圖片圖片

從上面的截圖可以看到, 這里參加評比的有:

HyPer:HyPer 是一種高性能、混合事務和分析處理(HTAP)數據庫,專為實時數據分析和事務處理而設計。

DuckDB:DuckDB 是一款輕量級的嵌入式分析數據庫,專注于高效處理SQL查詢和分析任務。

GlareDB:GlareDB 是一種新型數據庫,專注于高性能和擴展性,以滿足現代數據密集型應用的需求。

Databend(國產):Databend 是一款國產云原生數據倉庫,支持彈性擴展和高效的數據分析。

DataFusion:DataFusion 是 Apache Arrow 的一個子項目,用于構建高性能的數據處理引擎和分布式 SQL 查詢執行。

CHDB:CHDB 是 ClickHouse 的嵌入式版本,適用于需要在進程內高效處理列存儲數據的場景。

Apache Spark:Apache Spark 是一個開源的分布式計算系統,支持大規模數據處理和并行計算。

本次還將加入

Polars:Polars 是一個基于 Rust 的高性能 DataFrame 庫,專為高效的數據處理和分析而設計。

本次測試結果

當時的chdb雖然墊底,但至少還可以跑通

昨天又使用最新版本作了對比, 這次chdb卡在了Query08和Query09上, 為了確認Query09很耗時,我在我的筆記本(mac M2Max 32GB內存)上做了測試,耗時158s多。

圖片圖片

? chdb的結果是query08、query09 卡死,放棄后繼續后面的查詢。08 和09 的結果比這里看到的數據還要糟糕

? 因為Polars對SQL的支持有限, Polars 根據官方的TPCH[1]做的修改, 另外Query 17的結果是錯誤的,問題放在后面描述。

? 對比4月份,性能都下降了,難道是Google Colab縮水了?

圖片圖片

圖片圖片

去掉墊底的chdb和pyspark

為了方便比較,去掉了兩個墊底的:chdb和pyspark

圖片圖片

圖片圖片

Polars的奇怪bug

import pandas as pd
import duckdb
import polars as pl

duckdb.sql("select x, y::decimal(15,2) y from df").to_parquet('decimal.pq')
decimal = pl.scan_parquet('decimal.pq')

? 結果錯誤

pl.sql("""
select x,
avg(y) as avg_y
from decimal
group by 1
""").collect()

圖片圖片

? 這樣OK

# 結果正確
pl.sql("""
select x,
sum(y) as sum_y
from decimal
group by 1
""").collect()

圖片圖片

? 這樣也可以

pl.sql("""
select x,
sum(y)/count(*) as avg_y
from decimal
group by 1
""").collect()

查找手冊的時候發現。

圖片圖片

好吧, 該類型仍不穩定。

優雅的代碼

你覺得這樣寫優雅。

import pandas as pd
duck_import    = pd.read_csv('./result/duckdb.csv')
hyper          = pd.read_csv('./result/hyper.csv')
databend       = pd.read_csv('./result/databend.csv')
datafusion     = pd.read_csv('./result/datafusion.csv')
glaredb        = pd.read_csv('./result/glaredb.csv')
chdb           = pd.read_csv('./result/chdb.csv')
apachespark    = pd.read_csv('./result/apachespark.csv')
polars    = pd.read_csv('./result/polars.csv')

concat = duckdb.sql('''select duck_import.query  as query,
duck_import.dur as DuckDB , hyper.dur as hyper ,
databend.dur as databend , datafusion.dur as datafusion,
glaredb.dur as glaredb,chdb.dur as chdb,
apachespark.dur as apachespark,ploars.dur as polars
from duck_import
left join hyper
on duck_import.query=hyper.query
left join databend
on duck_import.query=databend.query
left join datafusion
on duck_import.query=datafusion.query
left join glaredb
on duck_import.query=glaredb.query
left join chdb
on duck_import.query=chdb.query
left join apachespark
on duck_import.query=apachespark.query
left join polars
on duck_import.query=polars.query
''').df()
concat

還是這樣寫優雅。

import duckdb
concat = duckdb.sql("""
WITH aa AS (
    SELECT * 
    FROM read_csv('result/*.csv', filename=true)
),
bb AS (
    SELECT 
        * EXCLUDE (filename), 
        REPLACE(REPLACE(filename, '.csv', ''), 'result/', '') AS engine 
    FROM aa
)
PIVOT bb
ON engine
USING max(dur)
ORDER BY query;
""").df()
concat

以上兩段代碼結果一樣。

圖片圖片

結論

從上面的粗淺測試來看, 開源的DuckDB和Databend非常值得關注, Polars對SQL支持有限,對Decimal支持有限,入坑請慎重。

Google Colab 到底是不是縮水了?如何驗證?

責任編輯:武曉燕 來源: alitrack
相關推薦

2025-01-16 10:34:18

2017-06-08 15:38:41

2024-07-31 09:39:33

2014-03-06 15:07:41

青橙小米

2022-07-20 08:16:54

Lombokjava工具

2018-06-12 10:09:41

編程語言PythonJava

2020-03-06 09:21:28

PWA原生應用Web

2010-05-28 11:21:17

2020-01-18 14:55:03

架構運維技術

2020-02-02 15:42:22

PythonC++編程語言

2023-08-09 18:08:35

ChatGPTStackOverflow

2017-11-13 15:38:03

VMwareOpenStack混合云

2017-01-11 14:38:39

編程語言Java

2015-12-08 13:48:50

大數據工具R語言Spark

2010-07-27 14:36:31

Flex Array

2010-05-21 16:36:09

GoogleCode

2013-02-19 13:13:33

SurfaceiPad

2019-01-04 09:59:14

KafkaRabbitMQMQ

2018-10-12 13:54:26

2025-01-03 09:27:14

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区av | 日日天天| 欧美一区二区三区国产精品 | 蜜桃视频在线观看免费视频网站www | 九七午夜剧场福利写真 | 国产欧美一区二区三区在线看 | 中文字幕色站 | 免费黄色录像视频 | 亚洲精品一区二区三区在线 | 欧美国产日韩一区二区三区 | 一级a性色生活片久久毛片波多野 | 人人九九精 | 亚洲视频免费在线观看 | 久久久久久久久久久久久久国产 | 欧美一区免费 | 国产成人一区二区三区精 | 欧美极品在线视频 | 欧美国产精品一区二区 | av毛片在线免费观看 | 亚洲一区久久久 | 免费成人高清 | 亚洲国产精品久久久久 | 草草网| 日韩成人精品 | 成人性生交大片免费看r链接 | 亚州春色 | 青青草在线播放 | 久久久久久高潮国产精品视 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 欧美激情综合 | 国产黄色网 | 日本午夜在线视频 | 欧美视频在线播放 | 亚洲一区二区电影网 | 国产精品视频一区二区三区不卡 | 操视频网站 | 国产999精品久久久 精品三级在线观看 | 一区二区精品电影 | 国产精品久久久久久久久久久久午夜片 | 影音先锋中文字幕在线观看 | 欧美午夜影院 |