分布式數據庫架構及發展
數據庫的發展階段劃分數據庫(Database)是指長期保存在計算機的存儲設備上并按照某種模型組織起來的,可以被各種用戶或應用共享的數據的集合。
數據庫管理系統(Database Management Systems)是指提供各種數據管理服務的計算機軟件系統,這種服務包括數據對象的定義、數據存儲與備份、數據訪問與更新、數據統計與分析、數據安全保護、數據庫運行管理以及數據庫的建立和維護等。數據模型是數據庫系統的核心和基礎,各種數據庫管理軟件都是基于不同的數據模型而生的,對數據庫技術發展階段的劃分基本按照數據模型的發展演變作為主要依據和標志。
數據庫設計流程:數據庫設計理論正在尋求更有效的語義表達關系,并在各設計階段提供自動或半自動的設計工具和集成化的開發環境。
數據庫設計:對于給定的應用環境,構造最優的數據庫模式,建立數據庫及其應用系統,使之能夠有效地存儲數據,并滿足各種用戶對信息分類與處理等應用要求。數據庫設計理論正在尋求更有效的語義表達關系,并在各設計階段提供自動或半自動的設計工具和集成化的開發環境。
中國數據庫產品圖譜:中國數據庫廠商分為傳統數據庫廠商、新興數據庫廠商、云廠商、ICT跨界廠商四類,各家提供不同的集中式數據庫與分布式數據庫產品中國數據庫廠商及代表數據庫產品。
數據庫架構維度:數據庫技術架構整體包括管理模塊、計算模塊和存儲模塊,物理資源層是為數據庫提供基礎支撐環境。四個模塊中分別具有不同的前沿創新技術。
數據庫架構維度:物理資源層是為數據庫及上層業務系統提供包括物理基礎設施的基礎支撐環境。
計算模塊負責解析應用程序查詢請求、生成查詢計劃,并將查詢計劃自動分配到各計算節點并行執行。
存儲模塊負責執行計算層數據操作請求,并實現數據在硬件層面的持久化保存,確保數據不丟失。管理模塊負責協調分布式時鐘和維護元數據,并提供數據庫參數配置和運行監控接口。
HTAP混合事務和分析處理:目前HTAP有兩種方案∶分離架構和統一架構,分離架構是目前的主流方案。趨勢中,云原生架構環境與HTAP系統的融合將衍生新的HTAP產品方案和技術特征。
HTAP混合事務和分析處理:HTAP描述的是消除OLTP和OLAP之間的間隔,使一個分布式數據庫系統既可以應用于事務型數據庫場景,又可以應用于分析型數據庫場景,從而滿足實時業務決策的需求。
HTAP能讓數據產生后馬上就可以進入分析場景,但它面臨最大的問題是如何把OLTP和OLAP兩類互斥的工作負載更好放在一個系統上運行,并且實現資源干擾小、數據可見度高、延時短。
HTAP的應用場景:HTAP保證一定的實時性能的同時也能充分提升響應速度、吞吐量、并發訪問量、事務大小、數據訪問量及索引規模,為以下兩個場景帶來了業務與架構的創新和提升∶
- 數據密集型業務:將分析能力內嵌進傳統的OLTP業務系統。物聯網、醫療、風控、個性化推薦營銷等數據密集型業務可以在交易側完成實時的分析,且不會影響交易的性能與數據一致性。
- 以“用”為核心的實時數據服務平臺:在現有的數據平臺以"用"為核心,以"管"為基礎的數據中臺,將成為企業數字化規劃與實施的重點創新與升級。讓全企業用戶能自由選擇與應用數據資產,實時變現數據紅利。
壓縮存儲技術:Zstd的壓縮比最高,且壓縮/解壓效率表現較高,適用于冷存儲場景。Iz4對比當前流行的壓縮工具,盡管壓縮比一般,卻具有最快的壓縮和解壓速度,適用于OLAP查詢場景。
數據壓縮的目的是為了減少數據傳輸或者轉移過程中的數據。數據壓縮存儲技術需要在不丟失信息的前提下,縮減數據量以減少存儲空間,提高傳輸、存儲和處理效率,或者是按照一定的算法對數據進行重新組織,減少數據的冗余和存儲的空間。
目前流行的壓縮算法有Snappy、Terark、zlib、bz2、lz4、lz77、zstd、brotli、B-tree、RLE、Delta Value Encoding、Deflate、Dictionary等。
存儲索引結構:在存儲系統的設計中,存儲引擎屬于底層數據結構,直接決定了存儲系統所能夠提供的性能和功能。常見存儲算法結構涵蓋∶哈希存儲,B、B+、B*樹存儲,LSM樹存儲引擎,R樹,倒排索引,矩陣存儲,對象與塊,圖結構存儲等等。
在存儲系統的設計中,存儲引擎屬于底層數據結構,直接決定了存儲系統所能夠提供的性能和功能。在數據庫產品中以Hash、B+tree、LSM-tree為存儲引擎的主流索引架構。
數據庫智能自治:數據庫的治理是保障數據庫安全可控的重要方式。隨著業務信息化的發展,數據庫面對的數據規模及復雜度井噴式增長,傳統的基于經驗的數據庫優化工具已不能滿足負載調優等高性能要求,需要基于學習的數據庫優化工具∶Al4DB。
數據庫治理模式亟需基于云平臺的操作自動化與基于Al的自動的調參優化、由數據驅動的自監控自運維、智能化自診斷自設計,來減輕甚至取消對DBA的依賴。
智能參數調優∶通過結合深度強化學習和全局搜索算法等Al技術,實現在無需人工干預的情況下,獲取最佳數據庫參數配置。支持智能參數調優的廠商有∶華為云、騰訊云、Oceanbase、百度智能云、易鯨捷、星云科技、天云數據、阿里云等。
部署模式:數據庫的部署模式分為傳統本地部署(on-premise)與云部署。傳統的線下部署數據庫架構依賴于高端硬件,難以支持新業務的擴展需求。而云上部署數據庫可以橫跨多服務器和虛擬機實現大規模擴展能力。
云部署數據庫產品已經進入了成熟商用階段,各大數據庫廠商都提供了不同形態的云部署數據庫產品及服務,主要分為云托管、云服務及云原生三種形態的數據庫。