Apache Doris剛剛 "畢業":這個SQL數據倉庫有什么不一樣?
譯文這個開源的大規模并行處理(MPP)分析數據庫將與ClickHouse、MariaDB、Apache Druid、Apache Pinot以及Google BigQuery、Amazon RedShift和Microsoft Synapse等大規模服務競爭。
Doris,原名 Palo,是一個開源的、基于SQL的大規模并行處理 (MPP) 分析數據倉庫,誕生于中國互聯網搜索巨頭百度,作為其廣告業務的數據倉庫系統,2017 年開源,2018 年進入 Apache 孵化器。
不久前,Doris獲得了頂級項目的地位,根據Apache軟件基金會(ASF)的說法,這意味著 "它已經證明了它有能力進行適當的自治"。
數據倉庫最近發布了 1.0 版,這 是它在孵化器中進行開發的第八個版本(以及六個連接器版本)。它旨在支持在線分析處理 (OLAP)工作負載,通常用于數據科學場景。
Doris 植根于 Apache Impala 和 Google Mesa
根據 Apache 軟件基金會的說法,Doris 是基于Google Mesa和 Apache Impala 的集成,Apache Impala 是 2012 年開發的開源 MPP SQL 查詢引擎,基于 Google F1 的基礎。
Mesa 在 2014 年左右被設計成一個高度可擴展的分析數據倉庫系統,用于存儲與谷歌互聯網廣告業務相關的關鍵測量數據。
據百度和 Apache 孵化器的開發人員稱,Doris 提供了簡單的設計架構,同時提供了高可用性、可靠性、容錯性和可擴展性。
“在單一系統中(開發、部署和使用)的簡單性和滿足許多數據服務需求是 Doris 的主要特點,”Apache 軟件基金會在一份聲明中表示,并補充說數據倉庫支持多維報告、用戶畫像、臨時查詢和實時儀表板。
Doris 的其他一些功能包括列存儲、并行執行、矢量化技術、查詢優化、ANSI SQL,以及通過 Apache Flink、Apache Hive、Apache Hudi、Apache Iceberg、Apache Spark 和 Elasticsearch 的連接器與其他大數據生態系統集成。
開源數據庫的使用量預計將增長
對企業級開源數據庫的接受程度一直在增長。在Gartner的《2019年開源DBMS市場狀況》報告中,該咨詢公司預測,到2022年底,超過70%的新內部應用將在開源數據庫管理系統(OSDBMS)或基于OSDBMS的數據庫平臺即服務(dbPaaS)上開發。
此外,隨著數據的激增和企業對實時分析的需求的增長,一個簡單但同時也是開源的大規模并行處理數據庫似乎成為了當下的需要。
“隨著數據量的增長,MPP 數據庫成為能夠以足夠快或足夠便宜的方式處理數據以滿足組織需求的唯一現實方法,”Ventana Research 研究總監 David Menninger 說。
云架構激發了人們對 MPP 數據庫的興趣
Menninger 說,推動 MPP 數據庫的其他趨勢是相對便宜的基于云的服務器實例的可用性,這些實例可以用作 MPP 配置的一部分,從而消除了采購和安裝這些系統使用的物理硬件的需要。
Menninger 為 Doris 提供了一個案例,他說雖然有許多 MPP 數據庫選項,其中一些是開源的,但實際上并沒有開源 MPP MySQL 替代方案。
“MySQL 本身和MariaDB已被擴展以支持更大的分析工作負載,但它們最初是為事務處理而設計的,”Menninger 說,并補充說開源 PostreSQL 數據庫Greenplum和 Google BigQuery、Amazon RedShift 和 Microsoft Synapse 等超大規模服務可能是被視為多麗絲的競爭對手。
此外,Gartner 前大數據和分析研究副總裁 Sanjeev Mohan 表示,ClickHouse、Apache Druid 和 Apache Pinot 也可以被視為競爭對手。
根據 Apache 基金會的說法,使用 Doris 可能具有多種優勢,例如架構簡單和更快的查詢時間。
Doris 簡單的原因之一是它不依賴于多個組件來執行諸如類管理、同步和通信等任務。其快速查詢時間可歸因于矢量化,該過程允許程序或算法一次對多個值集合而不是單個值進行操作。
據 Apache 基金會的開發人員稱,數據倉庫的另一個好處是 Doris 的超高并發支持,這意味著它可以同時處理來自數萬用戶的處理數據和從數據庫中獲取洞察力的請求。
對高并發性的需求已經增加,因為大多數組織都允許其員工訪問數據,以推動數據驅動的洞察力,而只有 C 級高管才能訪問分析。
原文標題:??Apache Doris just 'graduated': Why care about this SQL data warehouse??