番外篇:國產(chǎn)數(shù)據(jù)庫直方圖能力對比
原創(chuàng)近期看到某群里關(guān)于數(shù)據(jù)庫直方圖的討論,不禁回想起剛學(xué)習(xí) Oracle 的時候,為直方圖的設(shè)計而感嘆。直方圖可以說是優(yōu)化器的基礎(chǔ),對于數(shù)據(jù)分布不均衡的場景下制定出合理的執(zhí)行計劃至關(guān)重要。那么國產(chǎn)數(shù)據(jù)庫這方面又如何呢?這里針對幾種常見的國產(chǎn)數(shù)據(jù)庫的直方圖能力看看能力如何。
1. 直方圖的前世今生
在開始說明國產(chǎn)數(shù)據(jù)庫直方圖能力之前,先來回顧下直方圖的概念,并以經(jīng)典數(shù)據(jù)庫Oracle為代表進行說明下。
1)直方圖概念
直方圖是數(shù)據(jù)庫用來判斷列中數(shù)據(jù)分布情況的一種統(tǒng)計信息,屬于列的統(tǒng)計信息。如果數(shù)據(jù)分布不均勻,查詢優(yōu)化器需要額外的信息才能做出正確的估算。直方圖正是數(shù)據(jù)庫為查詢優(yōu)化器提供更精確的成本估計而設(shè)計的一種直方圖數(shù)據(jù)。其原理是假定存在n個桶(buckets),每個桶代表一個取值或者一個取值范圍,將列中不同的值放入與之對應(yīng)的桶中,通過這些桶的統(tǒng)計來得到列上數(shù)據(jù)分布的情況。
2)直方圖分類
基于頻率的直方圖(frequency histogram)
當列的唯一值數(shù)量小于或等于桶允許的最大值(254)時,數(shù)據(jù)庫會使用基于頻率的直方圖。每個值將會占據(jù)一個桶。每個桶的高低代表每個值出現(xiàn)的次數(shù)。
1.png
基于高度的直方圖(height-balanced histogram)
當列的唯一值數(shù)量大于桶數(shù)時,數(shù)據(jù)庫會采用基于高度的直方圖反映數(shù)據(jù)分布,每個bucket容納相同數(shù)量的值。
2.png
其他變體
處理上述直方圖類型外,還有為了反饋更“大眾”數(shù)據(jù)的TopN直方圖,滿足更準確數(shù)據(jù)的混合直方圖等等。
3)Oracle 直方圖發(fā)展
Oracle 最早在7.3版本引入直方圖,但直到 Oracle 8i 版本后才逐漸成熟并廣泛使用。下表以作為常見的11g版本為分界,對比總結(jié)了之前與之后直方圖的功能演進。從下面這一表格中可見直方圖的發(fā)展策略,一方面是支持更為多樣的直方圖類型,一方面是增加桶數(shù),滿足更為精準的數(shù)據(jù)描述,還有就是在文本處理、生成策略等方面的改進。這些也指導(dǎo)了國產(chǎn)數(shù)據(jù)庫對直方圖能力的支持。
3.png
2. 國產(chǎn)數(shù)據(jù)庫直方圖能力總結(jié)
下面列舉了幾種常見的國產(chǎn)數(shù)據(jù)庫直方圖的能力,并與Oracle、MySQL加以比較。初步感覺,各國產(chǎn)數(shù)據(jù)庫都支持了直方圖能力,但支持范圍不同,有些支持更全面些。此外,很多國產(chǎn)數(shù)據(jù)庫都將直方圖能力作為缺省的統(tǒng)計信息來收集,這點與Oracle 11g不同。
1)各數(shù)據(jù)庫直方圖直方圖能力
MySQL
MySQL 從8.0.19版本開始引入了直方圖功能,主要用于優(yōu)化查詢性能,特別是在無索引列或數(shù)據(jù)分布不均勻的場景下。MySQL支持兩種直方圖類型,由系統(tǒng)自動選擇:一是等寬直方圖, 每個桶存儲單個值及其頻率,適用于離散值較少的列(如枚舉類型);一是等高直方圖,每個桶存儲值的范圍、頻率和累積分布,適用于連續(xù)值或分布范圍較大的列。當桶數(shù)量(WITH N BUCKETS)不小于列的唯一值數(shù)量時,生成等寬直方圖;否則生成等高直方圖。
DM
5.png
KingBase
6.png
YashanDB
7.png
OceanBase
8.png
2)測試:是否采集直方圖對基數(shù)評估影響
下面針對部分國產(chǎn)數(shù)據(jù)庫做了直方圖的測試。這里構(gòu)造了一張表,包含10000條記錄,兩個字段FNUM、HNUM分別對應(yīng)100個和1000個不同值。為了構(gòu)造傾斜,還將500條數(shù)據(jù)修改為9999來表示大基數(shù)的數(shù)值。在收集直方圖時,統(tǒng)一使用200個桶來進行測試。下面表格標題欄[]里為實際記錄數(shù),單元格內(nèi)為執(zhí)行計劃中反饋預(yù)估行數(shù)。從各家執(zhí)行情況來看,收集直方圖后的評估還是很準確的。
9.png