Data Fabric,又名數(shù)據(jù)經(jīng)緯,是近期橫空出世的一個概念。之前對其了解甚少,近期做了個小調(diào)研,對這一概念內(nèi)涵與外延、產(chǎn)品及定位、業(yè)務(wù)與前景、未來及趨勢等做了簡單整理總結(jié),分享給大家。
1、什么是Data Fabric
前世今生
Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 類別。從2019 年 Data Fabric 開始入選 Gartner 各年度的技術(shù)趨勢。
Gartner發(fā)布的《2021年十大數(shù)據(jù)和分析技術(shù)趨勢》中,加速變革被列在了首位(Accelerating Change),其中Data Fabric作為數(shù)據(jù)基礎(chǔ)能力被再次強調(diào)。
2022 年 Gartner 公布的頂級戰(zhàn)略技術(shù)趨勢中,Date Fabric 入選工程信任主題的關(guān)鍵技術(shù)趨勢。
基本概念
我們?nèi)绾卫斫狻癉ata Fabric”?Fabric這個詞的本意是“織物、布、構(gòu)造“。可以想象,數(shù)據(jù)將在縱橫交錯的、像織物那樣的云網(wǎng)絡(luò)中自由流動,沒有任何限制。不管是哪種計算模式,還是什么的網(wǎng)絡(luò),針對批數(shù)據(jù)、流數(shù)據(jù)都可以自由交換、共享和處理,那就是數(shù)據(jù)經(jīng)緯-Data Fabric帶來的新體驗。目前對Data Fabric,還沒有特別統(tǒng)一的認識,各家對其有著自己的解讀。
- Forrester 認為 Data Fabric“是以一種智能和安全的并且是自服務(wù)的方式,動態(tài)地協(xié)調(diào)分布式的數(shù)據(jù)源,跨數(shù)據(jù)平臺地提供集成和可信賴的數(shù)據(jù),支持廣泛的不同應(yīng)用的分析和使用場景。”其專注于對數(shù)據(jù)集成、轉(zhuǎn)換、準備、策展、安全、治理和編排的自動化,從而實現(xiàn)了快速的數(shù)據(jù)分析和洞察,幫助業(yè)務(wù)獲得成功。
- Gartner 將 Data Fabric 定義為一種新興的數(shù)據(jù)管理設(shè)計理念,可實現(xiàn)跨異構(gòu)數(shù)據(jù)源的增強數(shù)據(jù)集成和共享,通過對現(xiàn)有的、可發(fā)現(xiàn)和可推斷的元數(shù)據(jù)資產(chǎn)進行持續(xù)分析,來支持數(shù)據(jù)系統(tǒng)跨平臺的設(shè)計、部署和使用,從而實現(xiàn)靈活的數(shù)據(jù)交付。Gartner 強調(diào),通過 Data Fabric,散落各處的數(shù)據(jù)孤島都能被統(tǒng)一發(fā)現(xiàn)和使用,并基于主動元數(shù)據(jù)進行建設(shè)和持續(xù)分析,認為數(shù)據(jù)編織的真正價值在于它能夠通過內(nèi)置的分析技術(shù)動態(tài)改進數(shù)據(jù)的使用,同時通過將自動化能力添加到整體數(shù)據(jù)管理中,使數(shù)據(jù)管理工作量減少 70% 并加快價值實現(xiàn)速度。
發(fā)展背景
一項新技術(shù)的出現(xiàn),必然有其背景及規(guī)律,Data Fabric的出現(xiàn)也是為解決當(dāng)前數(shù)據(jù)場景的問題。簡單梳理下,可羅列為幾個痛點(下列數(shù)據(jù)來自Gartner的調(diào)查報告):
- 激增的暗數(shù)據(jù)&數(shù)據(jù)孤島
隨著企業(yè)數(shù)據(jù)量激增和數(shù)據(jù)需求日趨復(fù)雜,越來越多數(shù)據(jù)技術(shù) (如數(shù)據(jù)倉庫、數(shù)據(jù)湖、NoSQL 數(shù)據(jù)庫、OLAP 數(shù)據(jù)庫、實時數(shù)據(jù)源等) 被引入,企業(yè)數(shù)據(jù)在物理上支離破碎,尤其是采用混合云&多云架構(gòu)后更是加劇了這一問題。只有 45% 的結(jié)構(gòu)化數(shù)據(jù)應(yīng)用于業(yè)務(wù),只有不到 1% 的非結(jié)構(gòu)化數(shù)據(jù)被分析或使用,多達 68% 的數(shù)據(jù)沒有被分析,多達 82% 的企業(yè)受到數(shù)據(jù)孤島的阻礙。
- 低效的數(shù)據(jù)交付方式
激增的企業(yè)數(shù)據(jù)、爆炸的業(yè)務(wù)需求、復(fù)雜的數(shù)據(jù)工程,讓業(yè)務(wù)自助找數(shù)、用數(shù)變得日趨困難:分析師 80% 的時間用于發(fā)現(xiàn)和準備數(shù)據(jù),知識型員工將 50% 的時間浪費在尋找數(shù)據(jù)、發(fā)現(xiàn)和糾正錯誤以及確認不信任的數(shù)據(jù)來源上、數(shù)據(jù)科學(xué)家花 60% 的時間清理和組織數(shù)據(jù)。
- 日益嚴峻的數(shù)據(jù)質(zhì)量問題
企業(yè)中 55% 的數(shù)據(jù)無法用于決策,47% 新創(chuàng)建的數(shù)據(jù)記錄至少有一個嚴重錯誤,數(shù)據(jù)質(zhì)量差導(dǎo)致了巨額的財務(wù)損失;為解決不同數(shù)據(jù)計算和存儲需求,企業(yè)開始采用越來越多的數(shù)據(jù)技術(shù) (如數(shù)據(jù)倉庫、數(shù)據(jù)湖、NoSQL 數(shù)據(jù)庫、OLAP 數(shù)據(jù)庫、實時數(shù)據(jù)源等) ,讓實現(xiàn)“單一事實來源的數(shù)據(jù)”變得十分困難。
- 不斷擴大的安全合規(guī)風(fēng)險
超過 70% 的用戶可以訪問他們不應(yīng)該訪問的數(shù)據(jù)。而隨著網(wǎng)安法、數(shù)安法、個保法、GDPR、CCPA 等數(shù)據(jù)安全和隱私保護法律的出臺和外部安全威脅越來越大,企業(yè)必須在合規(guī)和治理方面表現(xiàn)出更高的標準,更難的是,企業(yè)還需同時兼顧業(yè)務(wù)的用數(shù)效率。
Gartner稱:“在過去的十年里,數(shù)據(jù)和應(yīng)用孤島的數(shù)量激增,而數(shù)據(jù)和分析(D&A)團隊的技能型人才數(shù)量卻保持不變,甚至下降。作為一種跨平臺和業(yè)務(wù)用戶的靈活、彈性數(shù)據(jù)整合方式,Data Fabric能夠簡化企業(yè)機構(gòu)的數(shù)據(jù)整合基礎(chǔ)設(shè)施并創(chuàng)建一個可擴展架構(gòu),減少大多數(shù)數(shù)據(jù)和分析團隊因整合難度上升而出現(xiàn)的技術(shù)債務(wù)。其真正價值在于:通過內(nèi)置的分析技術(shù)動態(tài)改進數(shù)據(jù)的使用,使數(shù)據(jù)管理工作量減少70%并加快價值實現(xiàn)時間。Gartner最新預(yù)測顯示,至2024年,Data Fabric可減少50%人力數(shù)據(jù)管理成本,與此同時,數(shù)據(jù)使用效率會因Data Fabric的部署使用伴隨著數(shù)據(jù)類型日益多樣化、數(shù)據(jù)孤島不斷林立、數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜,企業(yè)在分布式數(shù)據(jù)環(huán)境中高效管理和利用多維數(shù)據(jù)成為亟待解決的難題。與此同時,企業(yè)上云成為一大趨勢,混合數(shù)據(jù)環(huán)境下企業(yè)該如何跨平臺、跨環(huán)境,以實時的速度收集、訪問、管理、共享數(shù)據(jù),從不斷變化、高度關(guān)聯(lián)、卻又四處分散的數(shù)據(jù)中獲得可執(zhí)行洞見,實現(xiàn)智能化決策?面對上述數(shù)據(jù)管理難題,Data Fabric提出了一套治理“良方”。Data Fabric是一種新興的數(shù)據(jù)集成和管理理念,意在獨立于部署平臺、數(shù)據(jù)流程、地理位置和架構(gòu)方法,在不移動數(shù)據(jù)位置的前提下,為企業(yè)內(nèi)的所有數(shù)據(jù)提供單一訪問點,保證數(shù)據(jù)使用端在正確的時間、正確的地點以實時的速度拿到正確的數(shù)據(jù)。
架構(gòu)定位
Data Fabric這一概念,尤其鮮明的架構(gòu)特點,這也是有別于其他技術(shù)的重要區(qū)別。其實質(zhì)上是一種數(shù)據(jù)管理架構(gòu)思想,其主要目標是打破企業(yè)內(nèi)部的數(shù)據(jù)孤島、最大化釋放數(shù)據(jù)價值。其核心理念是通過優(yōu)化跨源異構(gòu)數(shù)據(jù)的發(fā)現(xiàn)與訪問,將可信數(shù)據(jù)從所有數(shù)據(jù)源中以靈活且業(yè)務(wù)可理解的方式交付給所有相關(guān)數(shù)據(jù)消費者,讓數(shù)據(jù)消費者自助服務(wù)和高效協(xié)作,實現(xiàn)極致敏捷的數(shù)據(jù)交付,同時通過主動、智能、持續(xù)的數(shù)據(jù)治理讓數(shù)據(jù)架構(gòu)持續(xù)健康,從而提供比傳統(tǒng)數(shù)據(jù)管理更多的價值。其具備以下特點:
- 連接數(shù)據(jù),而非集中數(shù)據(jù)
Data Fabric 的一個關(guān)鍵原則是數(shù)據(jù)集成方法的靈活性,以支持分布式生態(tài)系統(tǒng)中的數(shù)據(jù)管理。也就是說,根據(jù)場景的性質(zhì)及其需求,系統(tǒng)能為用戶自動匹配最佳集成策略和數(shù)據(jù)技術(shù),而無需用戶人工搭建數(shù)據(jù)管道、選型計算存儲方案。這樣做一方面讓用戶可以專注于業(yè)務(wù)實現(xiàn)而無需關(guān)心技術(shù)細節(jié),另一方面也免去了數(shù)據(jù)搬運帶來的漫長等待,并節(jié)省了大量任務(wù)運維投入和重復(fù)存儲成本,極大加速了數(shù)據(jù)價值實現(xiàn)。
- 自助服務(wù),而非專家服務(wù)
數(shù)據(jù)需求指數(shù)級增長,而企業(yè)數(shù)據(jù)工程團隊增長卻非常緩慢,甚至有所縮減,在集中式的數(shù)據(jù)供給模式下,數(shù)據(jù)工程團隊成為影響數(shù)據(jù)化運營效率的最大瓶頸,唯有讓分析師和業(yè)務(wù)人員自服務(wù)才有可能將生產(chǎn)力解放出來,以滿足業(yè)務(wù)旺盛的數(shù)據(jù)化運營需求。Data Fabric 的最佳解決方案是實現(xiàn)數(shù)據(jù)民主化,允許業(yè)務(wù)用戶輕松發(fā)現(xiàn)并使用數(shù)據(jù)資產(chǎn),從而實現(xiàn)敏捷的數(shù)據(jù)交付。
- 主動智能,而非被動人工
傳統(tǒng)數(shù)據(jù)治理往往在問題發(fā)生后才開始啟動,且需要從上到下推動并通過運動式人工治理,這種方式難以持續(xù)且越來越無法應(yīng)對快速膨脹、錯綜復(fù)雜的數(shù)據(jù)依賴網(wǎng)絡(luò)。而 Data Fabric 則強調(diào)數(shù)據(jù)治理應(yīng)更主動和智能,即基于主動元數(shù)據(jù)構(gòu)建智能治理能力,融入到數(shù)據(jù)全生命周期的每個環(huán)節(jié)里去,實現(xiàn)主動、智能的數(shù)據(jù)治理。Gartner 將 Data Fabric 比喻成數(shù)據(jù)管理的'自動駕駛":駕駛員由于某些原因注意力不集中,有點兒走神,汽車則主動、及時地切換至半自動駕駛模式,進行必要的路線修正。即Data Fabric 以最佳的方式將數(shù)據(jù)源頭傳送到目的地,并不斷的監(jiān)控數(shù)據(jù) pipeline,提出建議,最終在速度更快、成本更低的情況下采用替代方案,就如自動駕駛汽車一樣。
- 萬物鏈接,而非簡單替代
Fabric是一種架構(gòu)方法,該方法在各個節(jié)點之間提供完整的點對點連接,這些節(jié)點可以是數(shù)據(jù)源、存儲、內(nèi)部/外部應(yīng)用程序、用戶等任何訪問數(shù)據(jù)或與數(shù)據(jù)相關(guān)的信息。Data Fabric將現(xiàn)有的數(shù)據(jù)管理系統(tǒng)和應(yīng)用程序編織在一起,提供可重用的服務(wù),涵蓋數(shù)據(jù)集成、訪問、轉(zhuǎn)換、建模、可視化、治理和交付。為了在所有這些不同的服務(wù)之間提供連接,Data Fabric包括了連接到數(shù)據(jù)生態(tài)系統(tǒng)工具的連接器。
Data Fabric 的“真正價值在于它能夠通過其內(nèi)置分析能力來動態(tài)改善數(shù)據(jù)的使用,從而加快實現(xiàn)數(shù)據(jù)價值的速度”,其支持全面的集成數(shù)據(jù)管理功能,包括發(fā)現(xiàn)、治理、管理和編排,并使用 AI 能力進行語義探索、分析和推薦,從而從被動的數(shù)據(jù)策略轉(zhuǎn)變?yōu)橹鲃禹憫?yīng)性的數(shù)據(jù)策略,實現(xiàn)更快速的適應(yīng)業(yè)務(wù)、更敏捷的數(shù)據(jù)洞察、更有效地消除孤島、更低的成本和風(fēng)險、更高效的業(yè)務(wù)協(xié)作以及更安全的數(shù)據(jù)使用。
關(guān)聯(lián)對比
作為一種新生概念,有時會與其他概念和產(chǎn)品有所混淆,那么我們來看看Data Fabric與常用一些概念的區(qū)別。
- Data Mesh
Data Mesh由ThoughtWorks提出,其借鑒了微服務(wù)和 Service Mesh 的分布式架構(gòu)思想,是一種領(lǐng)域驅(qū)動和自服務(wù)的數(shù)據(jù)架構(gòu)設(shè)計新模式,基于面向領(lǐng)域去中心化的數(shù)據(jù)所有權(quán)和架構(gòu)、數(shù)據(jù)作為產(chǎn)品、平臺化自助數(shù)據(jù)基礎(chǔ)設(shè)施以及聯(lián)邦計算治理等四個基本原則進行建設(shè), 通過將系統(tǒng)劃分為由較小的跨職能團隊管理的離散域來解決大型、復(fù)雜、單體數(shù)據(jù)架構(gòu)的問題,如缺乏數(shù)據(jù)所有權(quán)、缺乏數(shù)據(jù)質(zhì)量管理、組織難以擴展。其核心目標是將數(shù)據(jù)視為一種產(chǎn)品,通過利用面向領(lǐng)域的自助設(shè)計來實現(xiàn)日益龐大、多樣化且無處不在的數(shù)據(jù)集的跨域訪問需求,使數(shù)據(jù)消費者能夠發(fā)現(xiàn)、理解、信任和使用數(shù)據(jù)/數(shù)據(jù)產(chǎn)品(分布在不同領(lǐng)域)來推動數(shù)據(jù)驅(qū)動的決策和計劃。
- API 的訪問方式不同。Data Mesh是面向開發(fā)同學(xué)、API驅(qū)動的解決方案,需要為API編寫實現(xiàn)代碼,而Data Fabric相反,其通過低代碼、無代碼的方式進行設(shè)計,API集成在架構(gòu)內(nèi)進行實現(xiàn),而不是直接使用它。
- 思想不同。雖然Data Fabric和Data Mesh 都提供了跨技術(shù)、跨平臺的使用數(shù)據(jù)的架構(gòu),但前者以技術(shù)為中心,是將多種技術(shù)進行組合使用,由 AI/ML 驅(qū)動的增強和自動化、智能元數(shù)據(jù)基礎(chǔ)和強大的技術(shù)骨干(即云原生、基于微服務(wù)、API 驅(qū)動、可互操作和彈性)支持,更多的是關(guān)于管理數(shù)據(jù)技術(shù)(集成架構(gòu)),而后者則側(cè)重于組織結(jié)構(gòu)和文化變革來實現(xiàn)敏捷性,可以在于技術(shù)無關(guān)的框架內(nèi)指導(dǎo)方案設(shè)計,各數(shù)據(jù)領(lǐng)域團隊可以在更理解其所管理的數(shù)據(jù)的基礎(chǔ)下實現(xiàn)相應(yīng)的數(shù)據(jù)產(chǎn)品的交付,更多的是管理人員和流程。
- 數(shù)據(jù)產(chǎn)品的實現(xiàn)思路不同。Data Mesh 將數(shù)據(jù)的產(chǎn)品思維作為核心設(shè)計原則,其數(shù)據(jù)是分布式的,每類數(shù)據(jù)都是一個獨立的域(即數(shù)據(jù)產(chǎn)品),存儲在對應(yīng)的組織中,而Data Fabric所有的數(shù)據(jù)都會集中在一個位置(物理集中或虛擬集中),對外提供能力。其實,基于數(shù)據(jù)虛擬化集成技術(shù)的Data Fabric,其數(shù)據(jù)也是分布式的,通過虛擬邏輯數(shù)據(jù)模型對外統(tǒng)一提供數(shù)據(jù)使用。
- 數(shù)據(jù)資產(chǎn)的自動化方式不同。Data Fabric利用基于豐富的企業(yè)元數(shù)據(jù)基礎(chǔ)(例如知識圖)來發(fā)現(xiàn)、連接、識別、建議和向數(shù)據(jù)消費者提供數(shù)據(jù)資產(chǎn)的自動化,而Data Mesh則依賴于數(shù)據(jù)產(chǎn)品/域所有者來推動數(shù)據(jù)需求。
- 依賴關(guān)系不同。Data Fabric無需依賴Data Mesh的實踐即可實施,而Data Mesh則必須利用Data Fabric來支持數(shù)據(jù)對象和產(chǎn)品的驗證。
- 自動化程度不同。Data Fabric鼓勵增強數(shù)據(jù)管理和跨平臺編排,以最大限度地減少人工設(shè)計、部署和維護工作。Data Mesh則傾向于對現(xiàn)有系統(tǒng)的手動設(shè)計和編排,由業(yè)務(wù)領(lǐng)域執(zhí)行持續(xù)維護。
- 解決方案的成熟度不同。成熟度上看,Data Fabric目前被廣泛應(yīng)用于各種數(shù)據(jù)應(yīng)用場景,而Data Mesh仍然處在一個未開發(fā)的階段。
實際上,不同的公司基于自身的數(shù)據(jù)特點(數(shù)據(jù)量、數(shù)據(jù)速度、數(shù)據(jù)類型等)、安全策略、技術(shù)儲備、性能要求、資金成本等, 對于Data Fabric或Data Mesh會有不同的具體落地方案。總之,Data Mesh更多地是關(guān)注于人和過程而不是技術(shù)架構(gòu),而Data Fabric是一種技術(shù)架構(gòu)方法,它以一種智能的方式來應(yīng)對數(shù)據(jù)和元數(shù)據(jù)的復(fù)雜性。
- 數(shù)據(jù)虛擬化&數(shù)據(jù)集成
- 數(shù)據(jù)虛擬化技術(shù),作為一種被市場充分驗證的成熟技術(shù)出現(xiàn)在Gartner 發(fā)布的《2021 數(shù)據(jù)管理技術(shù)成熟度曲線報告》中,它是一種將可用數(shù)據(jù)轉(zhuǎn)換成分析和報告所需形式的可選擇技術(shù),其存在于數(shù)據(jù)使用者以及數(shù)據(jù)存儲之間,數(shù)據(jù)使用者通過數(shù)據(jù)虛擬層訪問數(shù)據(jù),數(shù)據(jù)虛擬化層隱藏數(shù)據(jù)存儲。數(shù)據(jù)虛擬化技術(shù)幫助數(shù)據(jù)工程師無需移動、復(fù)制數(shù)據(jù)即可集成多個數(shù)據(jù)源,在內(nèi)存中進行數(shù)據(jù)的組合、準備和轉(zhuǎn)換,并以需要的格式呈現(xiàn)數(shù)據(jù)。數(shù)據(jù)虛擬化方法可以幫助企業(yè)從數(shù)據(jù)中獲得更多的見解以及更快的響應(yīng)不斷變化的商業(yè)分析需求,同時,與數(shù)據(jù)復(fù)制、移動相比,數(shù)據(jù)虛擬化可節(jié)省50-75%的成本。
- 數(shù)據(jù)集成是融合異構(gòu)存儲集合的數(shù)據(jù)并構(gòu)造統(tǒng)一數(shù)據(jù)視圖的過程,包括了數(shù)據(jù)合并、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗等。傳統(tǒng)的數(shù)據(jù)集成專注于復(fù)制、移動數(shù)據(jù),如ETL加工、數(shù)據(jù)同步等。數(shù)據(jù)虛擬化則是一種經(jīng)濟高效的現(xiàn)代數(shù)據(jù)集成技術(shù),直接連接源數(shù)據(jù),不依賴復(fù)雜和繁瑣的ETL系統(tǒng),減少了多次復(fù)制、移動和存儲數(shù)據(jù)的時間和成本,同時也減少了產(chǎn)生數(shù)據(jù)錯誤的概率。另外,數(shù)據(jù)虛擬化不僅可以做數(shù)據(jù)層面的集成,也包括接口層面的集成。因此,數(shù)據(jù)虛擬化是一種更穩(wěn)定的技術(shù)和增長最快的數(shù)據(jù)集成方式。
數(shù)據(jù)虛擬化與Data Fabric的關(guān)系上,數(shù)據(jù)虛擬化是Data Fabric架構(gòu)中的關(guān)鍵技術(shù)之一,可以在不移動數(shù)據(jù)的情況下從源頭訪問數(shù)據(jù),通過更快、更準確的查詢幫助縮短實現(xiàn)業(yè)務(wù)價值的時間。Data Fabric 的數(shù)據(jù)虛擬化層提供了跨平臺敏捷集成、統(tǒng)一語義、低代碼創(chuàng)建數(shù)據(jù)API(支持SQL、REST、OData和GraphQL等技術(shù))、智能緩存加速等功能,在數(shù)據(jù)處理引擎和數(shù)據(jù)消費者之間架起了橋梁。
- 數(shù)據(jù)湖
Data Fabric不是數(shù)據(jù)湖或者數(shù)據(jù)倉庫的替代方案,數(shù)據(jù)湖是其異構(gòu)數(shù)據(jù)源之一(數(shù)據(jù)源可以是數(shù)據(jù)倉庫、數(shù)據(jù)湖,也可以是業(yè)務(wù)數(shù)據(jù)庫等其他數(shù)據(jù)存儲),Data Fabric將應(yīng)用程序與數(shù)據(jù)湖(或者數(shù)據(jù)倉庫)進行連接,通過統(tǒng)一的數(shù)據(jù)管理框架支持在分布式的環(huán)境中進行數(shù)據(jù)消費。Data Fabric 可以為數(shù)據(jù)湖或數(shù)據(jù)倉庫提供可信的數(shù)據(jù),同時,基于數(shù)據(jù)湖(或者數(shù)據(jù)倉庫)的Data Fabric 為業(yè)務(wù)提供更精準的洞察能力。
- 知識圖譜
知識圖譜是Data Fabric重要的組成部分。如果將Data Fabric翻譯成數(shù)據(jù)經(jīng)緯的話,那么知識圖譜則是經(jīng)紗和緯紗,其使得Data Fabric支持動態(tài)集成以及數(shù)據(jù)應(yīng)用編排,而作為基石的數(shù)據(jù)目錄也是基于知識圖譜進行實現(xiàn)的。知識圖譜使得Data Fabric在良性循環(huán)中進行持續(xù)運營和發(fā)展,如靈活性(可以表達任何數(shù)據(jù)和元數(shù)據(jù))、可組合性(易于增量進化)、連接性(連接所有數(shù)據(jù)和元數(shù)據(jù)“孤島”)、無縫數(shù)據(jù)治理、面向未來(基于標準)、表現(xiàn)力(最全面的“開箱即用” 模型)、可集成性(最完整、開放和靈活的 APIs)、智能(集成推理和機器學(xué)習(xí))等。
- 數(shù)據(jù)中臺
數(shù)據(jù)中臺方法的本質(zhì)思想是通過對數(shù)據(jù)進行集中式建設(shè)、集中式管理和集中式服務(wù),以提供單一事實來源的數(shù)據(jù)(single source of truth)。這就決定了數(shù)據(jù)中臺只有在數(shù)據(jù)需求較為固定、用數(shù)人群比較集中、決策頻率相對較低的情況下是比較有效的。伴隨企業(yè)數(shù)據(jù)需求日趨復(fù)雜、用數(shù)人群占比越來越大,決策頻率越來越高,業(yè)務(wù)對用數(shù)的敏捷性和靈活性要求越來越高,數(shù)據(jù)中臺這種集中的數(shù)據(jù)管理方式無法實現(xiàn)數(shù)據(jù)的敏捷性和靈活性。Data Fabric旨在提供對創(chuàng)新深度、速度要求更高的創(chuàng)新型業(yè)務(wù)更為合適。
2、Data Fabric 價值及能力
產(chǎn)品價值
Data Fabric的真正價值在于它能夠通過其內(nèi)置分析能力來動態(tài)改善數(shù)據(jù)的使用,從而加快實現(xiàn)數(shù)據(jù)價值的速度,其支持全面的集成數(shù)據(jù)管理功能,包括發(fā)現(xiàn)、治理、管理和編排,并使用AI能力進行語義探索、分析和推薦,從而從被動的數(shù)據(jù)策略轉(zhuǎn)變?yōu)橹鲃禹憫?yīng)性的數(shù)據(jù)策略,產(chǎn)生:
- 更快地適應(yīng)業(yè)務(wù)。Data Fabric通過強大的查詢、搜索以及學(xué)習(xí)能力可以回答意料之外的問題以及適應(yīng)新的業(yè)務(wù)需求。其提供了一個動態(tài)的、可查詢的數(shù)據(jù)能力,從多個數(shù)據(jù)來源進行數(shù)據(jù)的收集和分析,且可以充分復(fù)用數(shù)據(jù)模型(之前需要依賴創(chuàng)建新的數(shù)據(jù)模型和數(shù)據(jù)轉(zhuǎn)移復(fù)制來支持新的業(yè)務(wù)需求),因此可以快速回答和解決新的問題和訴求。
- 更好的洞察力。Data Fabric表達數(shù)據(jù)的業(yè)務(wù)意義(而不僅僅是通過數(shù)據(jù)改變現(xiàn)狀),從而產(chǎn)生更好的業(yè)務(wù)洞察能力。其融合多種數(shù)據(jù)來源(如數(shù)據(jù)&元數(shù)據(jù)、司內(nèi)&司外、業(yè)務(wù)內(nèi)&業(yè)務(wù)外、云端&本地等),建設(shè)可擴展的、知識圖譜驅(qū)動的數(shù)據(jù)模型,使得每個數(shù)據(jù)資產(chǎn)的所有上下文都可以以可理解的形式進行使用和呈現(xiàn),幫助決策者和算法做出更優(yōu)的決策(更容易地獲得高質(zhì)量的數(shù)據(jù),從而能更快和更精確地獲得業(yè)務(wù)數(shù)據(jù)洞察),同時降低數(shù)據(jù)被濫用或者誤解的可能性和風(fēng)險。
- 更有效地消除孤島。Data Fabric通過數(shù)據(jù)聯(lián)邦、數(shù)據(jù)虛擬化、語義豐富、基于AI的主動元數(shù)據(jù)、知識圖譜以及圖存儲等數(shù)據(jù)技術(shù),進行數(shù)據(jù)的連接、跨數(shù)據(jù)源的訪問和數(shù)據(jù)交付,從而減少數(shù)據(jù)孤島,尤其是數(shù)據(jù)虛擬化技術(shù)在計算層而非存儲層進行數(shù)據(jù)連接,“在數(shù)據(jù)處理引擎和數(shù)據(jù)消費者之間架起了橋梁”,這種數(shù)據(jù)的連接方式還避免了不斷產(chǎn)生新的數(shù)據(jù)孤島。DAMA認為,消除孤島和完全問責(zé)應(yīng)該是任何數(shù)據(jù)項目的核心。
- 更低的成本和實施風(fēng)險。Data Fabric的實現(xiàn)思想是是對原有技術(shù)的重新組合(技術(shù)的本質(zhì)是利用現(xiàn)象,對現(xiàn)有技術(shù)進行重新組合,并基于目的性的機會利基進行不斷的自我進化),而非全新的技術(shù),通過支持組裝式數(shù)據(jù)分析及其各種組件,對數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)計算、數(shù)據(jù)分析等現(xiàn)有的技術(shù)和能力進重新的組合和使用,并引入了新的方法、工具和平臺。另外虛擬數(shù)據(jù)集成技術(shù)的應(yīng)用,減少了數(shù)據(jù)復(fù)制、轉(zhuǎn)移的次數(shù)和數(shù)量,降低了數(shù)據(jù)質(zhì)量的風(fēng)險和運維成本,也節(jié)省了計算和存儲的開銷。
- 更高效的業(yè)務(wù)協(xié)作。Data Fabric是為協(xié)作、利用和鏈接現(xiàn)有資產(chǎn)和推動跨智能的數(shù)據(jù)管理項目而創(chuàng)建的。通過將現(xiàn)有的數(shù)據(jù)、數(shù)據(jù)能力、應(yīng)用程序進行自動化關(guān)聯(lián)、編排,并創(chuàng)建全域數(shù)據(jù)的單一視圖(catalog),從而支持跨業(yè)務(wù)數(shù)據(jù)的即時有效訪問,實現(xiàn)業(yè)務(wù)間有效協(xié)作, 創(chuàng)建和維護業(yè)務(wù)的競爭優(yōu)勢。
- 更安全的業(yè)務(wù)。Data Fabric可以實現(xiàn)自動治理、數(shù)據(jù)保護和安全保障。其為所有的數(shù)據(jù)計劃建立分布式的數(shù)據(jù)治理層,減少合規(guī)性和監(jiān)管風(fēng)險,以及在平臺安全能力下防止數(shù)據(jù)泄露,并通過AI能力提升自動化水平(如根據(jù)監(jiān)管文檔中的語言和定義自動提取數(shù)據(jù)治理規(guī)則、發(fā)現(xiàn)和治理個人身份信息PII和關(guān)鍵數(shù)據(jù)元素),使得業(yè)務(wù)可以在幾分鐘內(nèi)發(fā)現(xiàn)并應(yīng)用數(shù)據(jù)治理規(guī)則,避免產(chǎn)生不良社會影響或高昂的罰款,確保所有的數(shù)據(jù)都能以合規(guī)的方式進行存儲和使用,而這在當(dāng)前社會背景下尤為重要。
能力要求
針對Data Fabric,需要具備什么能力,目前還沒有行業(yè)統(tǒng)一標準。我們可以通過Forrester和Gartner對能力有個大致的了解。
Forrester 定義的能力要求
- 數(shù)據(jù)管理。數(shù)據(jù)管理是Data Fabric的關(guān)鍵能力,包括了數(shù)據(jù)安全、數(shù)據(jù)治理、元數(shù)據(jù)&數(shù)據(jù)目錄、數(shù)據(jù)搜索、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣等,并與其他5種能力交織在一起,保障數(shù)據(jù)的可靠性、安全性、完整性、合規(guī)性、可集成等,確保數(shù)據(jù)的信任度、數(shù)據(jù)流編排以及跨平臺的數(shù)據(jù)轉(zhuǎn)換。同時數(shù)據(jù)管理集成了AI能力,自動化實現(xiàn)基于語義和知識的分析,理解數(shù)據(jù)及其業(yè)務(wù)含義,構(gòu)建知識圖譜形式的數(shù)據(jù)目錄,從而使得數(shù)據(jù)目錄更加智能化和自動化。
- 數(shù)據(jù)攝取和流式傳輸。數(shù)據(jù)攝取是Data Fabric的數(shù)據(jù)基礎(chǔ),處理數(shù)據(jù)連接、攝取、流式傳輸?shù)龋瑢?shù)據(jù)加載到大數(shù)據(jù)存儲中。數(shù)據(jù)攝取需要能覆蓋所有潛在的數(shù)據(jù)類型(結(jié)構(gòu)化、非結(jié)構(gòu)化等)和數(shù)據(jù)來源(設(shè)備、日志、數(shù)據(jù)庫、點擊、應(yīng)用程序等),并通過多種優(yōu)化方法縮短數(shù)據(jù)的加載時間(如單個、大批量、小批量等)。
- 數(shù)據(jù)處理和持久化。該層利用數(shù)據(jù)湖、數(shù)據(jù)中心、數(shù)據(jù)倉庫、NoSQL 和其他數(shù)據(jù)組件(如數(shù)據(jù)管道)來處理和保存數(shù)據(jù)以供使用。Data Fabric可以將處理下推到各種數(shù)據(jù)存儲上,例如數(shù)據(jù)湖、對象存儲、NoSQL 或數(shù)據(jù)倉庫,以便在與其他來源進一步集成之前僅獲取部分的相關(guān)數(shù)據(jù),提升數(shù)據(jù)的查詢性能。
- 數(shù)據(jù)編排。數(shù)據(jù)編排通過轉(zhuǎn)換、集成和清洗數(shù)據(jù),實時或即時的支持各種數(shù)據(jù)使用場景。其通過一些技術(shù)完成跨源數(shù)據(jù)的集成訪問,并通過統(tǒng)一的、標準化的API的方式將集成轉(zhuǎn)化后的數(shù)據(jù)對外提供。
- 數(shù)據(jù)發(fā)現(xiàn)。數(shù)據(jù)發(fā)現(xiàn)能力直接解決或者弱化了數(shù)據(jù)孤島問題,自動發(fā)現(xiàn)跨場景的數(shù)據(jù),通過數(shù)據(jù)建模、數(shù)據(jù)準備以及虛擬化等技術(shù)組件為數(shù)據(jù)使用者準備好可用的數(shù)據(jù)資產(chǎn),并以圖的呈現(xiàn)方式進行數(shù)據(jù)發(fā)現(xiàn)和使用。其中數(shù)據(jù)虛擬化技術(shù)比較關(guān)鍵,其用于創(chuàng)建可以實時訪問的數(shù)據(jù)虛擬視圖,進行跨島查詢[25]。
- 數(shù)據(jù)訪問。用戶通過自服務(wù)的方式進行數(shù)據(jù)訪問(如應(yīng)用程序、工具、儀表盤、解決方案等),并通過高性能緩存以及其他持久化存儲技術(shù)保障數(shù)據(jù)的訪問性能。
- Gartner 定義能力要求
- 增強數(shù)據(jù)目錄。數(shù)據(jù)目錄是整個架構(gòu)的基礎(chǔ),其通過元數(shù)據(jù)對數(shù)據(jù)資產(chǎn)進行組織和管理。在數(shù)據(jù)目錄上,使用 AI/ML進行自動化收集和分析所有形式的元數(shù)據(jù)以及數(shù)據(jù)上下文,包括技術(shù)元數(shù)據(jù)(如數(shù)據(jù)類型、數(shù)據(jù)模型等)、業(yè)務(wù)元數(shù)據(jù)(如業(yè)務(wù)標記、業(yè)務(wù)策略、業(yè)務(wù)關(guān)系等)、操作元數(shù)據(jù)(如數(shù)據(jù)操作、數(shù)據(jù)血緣、數(shù)據(jù)性能等)、社會元數(shù)據(jù)(如實體關(guān)系、UGC、評價等)等等,為形成語義知識圖譜以及主動元數(shù)據(jù)做數(shù)據(jù)內(nèi)容上的準備。
- 語義知識圖譜。創(chuàng)建和管理知識圖譜,并使用 AI/ML 算法進行實體連接以及連接關(guān)系的量化,以識別或者添加豐富數(shù)據(jù)間的關(guān)系(包括多個數(shù)據(jù)孤島間的數(shù)據(jù)關(guān)系,數(shù)據(jù)上下文以及語義相關(guān)性)用于數(shù)據(jù)洞察分析,同時也可以實現(xiàn)自動化的機器理解和數(shù)據(jù)推理。產(chǎn)生的語義化數(shù)據(jù)也可用于機器學(xué)習(xí)的模型訓(xùn)練上,提升預(yù)測的精準度。
- 主動元數(shù)據(jù)。主動元數(shù)據(jù)是相對于靜態(tài)的被動元數(shù)據(jù)而言的。通過AI/ML輔助生成的主動元數(shù)據(jù)是支持自動化數(shù)據(jù)集成和數(shù)據(jù)交付的基礎(chǔ)能力,主動元數(shù)據(jù)的形成依賴于發(fā)現(xiàn)并連接所有形式的元數(shù)據(jù),形成獨特并不斷變化的關(guān)系,并以圖這種易于理解的方式鏈接和呈現(xiàn)元數(shù)據(jù)間的關(guān)系。通過對元數(shù)據(jù)關(guān)系圖的持續(xù)訪問和分析,不斷發(fā)現(xiàn)和形成關(guān)鍵指標、統(tǒng)計數(shù)據(jù)等新的關(guān)系。如訪問頻次、數(shù)據(jù)血緣、數(shù)據(jù)性能、數(shù)據(jù)質(zhì)量等。將元數(shù)據(jù)關(guān)系數(shù)據(jù)作為特征去訓(xùn)練和豐富AI算法,同時這些算法可以產(chǎn)生或者迭代元數(shù)據(jù)的語義,以及改進數(shù)據(jù)集成的設(shè)計、自動化流程。
- 推薦引擎。推薦引擎與業(yè)務(wù)相關(guān),將基于專家經(jīng)驗形成的規(guī)則或者機器模型學(xué)習(xí)的結(jié)果,以及結(jié)合主動元數(shù)據(jù),用在數(shù)據(jù)質(zhì)量監(jiān)控以及優(yōu)化改進數(shù)據(jù)的準備過程(如集成流程或者引擎優(yōu)化),如元數(shù)據(jù)推薦、流程推薦、資產(chǎn)推薦、建議推薦、執(zhí)行計劃推薦、計算引擎推薦等。
- 數(shù)據(jù)準備和數(shù)據(jù)交付。Data Fabric的數(shù)據(jù)準備和交付是在數(shù)據(jù)pipline中進行數(shù)據(jù)的轉(zhuǎn)化和集成。數(shù)據(jù)集成對于Data Fabric至關(guān)重要, 通過批處理、數(shù)據(jù)復(fù)制、數(shù)據(jù)同步、流數(shù)據(jù)集成以及數(shù)據(jù)虛擬化(在數(shù)據(jù)查詢時完成數(shù)據(jù)轉(zhuǎn)化)等方式進行跨源、跨環(huán)境(如多云、混合云、供應(yīng)商)的數(shù)據(jù)集成,將數(shù)據(jù)準備折疊到數(shù)據(jù)交付層(將準備好的數(shù)據(jù)進行交付)。
- 數(shù)據(jù)編排和DataOps。數(shù)據(jù)編排是用于驅(qū)動數(shù)據(jù)準備工作流的流程,用來集成、轉(zhuǎn)換和交付各種數(shù)據(jù)和分析用例的數(shù)據(jù)。DataOps是將類似于DevOps的持續(xù)集成、持續(xù)部署的原則應(yīng)用于數(shù)據(jù)pipeline,更加敏捷和嚴格的進行數(shù)據(jù)交付。基于AI的自動化數(shù)據(jù)編排是Data Fabric架構(gòu)設(shè)計以及落地的關(guān)鍵,通過組合和重用集成組件,快速支持當(dāng)下以及未來需求。存儲和計算分離是未來數(shù)據(jù)管理的趨勢,Data Fabric通過自動化來管理和編排跨組織、跨平臺的的數(shù)據(jù)pipeline,包括數(shù)據(jù)流協(xié)調(diào)、維護、操作、性能優(yōu)化、集成負載調(diào)度等,大幅提高數(shù)據(jù)管理團隊的工作效率。
3、Data Fabric 廠商實踐
Data Fabric (數(shù)據(jù)經(jīng)緯)目前是一個IT熱點,眾多國內(nèi)外公司均推出了針對 Data Fabric 的解決方案。下面看看幾個典型廠商的產(chǎn)品及方案。
IBM - Cloud Park for Data
IBM 公司的Cloud Pak for Data針對上述Data Fabric (數(shù)據(jù)經(jīng)緯)擁有四個 AI賦能的自動化能力。
- AutoCatalog:元數(shù)據(jù)的管理是挖掘數(shù)據(jù)價值,把各個不同來源的數(shù)據(jù)很好利用起來的重要技術(shù)環(huán)節(jié)。AutoCatalog 可以看成是 IBM 研發(fā) AI 賦能的分類大腦,可以根據(jù)發(fā)現(xiàn)數(shù)據(jù)和分類的流程實現(xiàn)自動化,進行自動分類之后建立自動化目錄,維護來自不同數(shù)據(jù)環(huán)境數(shù)據(jù)資產(chǎn)的 Dynamic 的實時目錄。
- AutoAI:AutoAI 的主要功能是盡量降低 AI 模型開發(fā)、模型校正、模型自我重新培訓(xùn)的技術(shù)門檻和人力付出,從而對動態(tài)的數(shù)據(jù)和整個 AI 本身算法生命的周期進行自動化。
- AutoPrivacy:實際上 AutoPrivacy 主要是通過數(shù)據(jù)隱私框架當(dāng)中的關(guān)鍵能力,使用 AI 的能力智能化地識別企業(yè)內(nèi)部的敏感數(shù)據(jù),當(dāng)被調(diào)用的時候系統(tǒng)能夠識別到、監(jiān)控到,甚至在后續(xù)當(dāng)定義敏感數(shù)據(jù)的使用和保護時,就可以為企業(yè)內(nèi)部的政策實施自動化提供了技術(shù)和智能化的保障。
- AutoSQL:因為我們現(xiàn)在要解決的問題是跨混合多云環(huán)境實現(xiàn)數(shù)據(jù)訪問的自動化,當(dāng)寫一個傳統(tǒng) SQL 的時候,首先要知道這個數(shù)據(jù)在什么地方。我們通過 AutoSQL 的技術(shù)來實現(xiàn)訪問數(shù)據(jù)的自動化,無須物理地移動這些數(shù)據(jù),從而提高了數(shù)據(jù)查詢的速度,也降低了使用數(shù)據(jù)的人對數(shù)據(jù)來源所需要的了解。
Aloudata NoETL
- 主動元數(shù)據(jù)。主動元數(shù)據(jù)是實現(xiàn) Data Fabric 的基石,它類似于智能駕駛汽車的傳感器及信號解析處理模塊,為推薦引擎、DataOps、數(shù)據(jù)虛擬化和主動數(shù)據(jù)治理提供了數(shù)據(jù)支撐。數(shù)據(jù)管理策略的有效性絕大部分取決于主動元數(shù)據(jù)建設(shè)的好壞,企業(yè)落地 Data Fabric 的首要任務(wù),就是構(gòu)建全面、準確、實時的主動元數(shù)據(jù),并持續(xù)優(yōu)化以獲得更好的數(shù)據(jù)管理效果。其具備如下能力:快速發(fā)現(xiàn)全鏈路元數(shù)據(jù)、實時、精細、準確的全鏈路血緣、采集數(shù)據(jù)生態(tài)的所有元數(shù)據(jù)、以知識圖譜方式組織元數(shù)據(jù)、實時、高效、易擴展的數(shù)據(jù)畫像打標等。
- 推薦引擎。推薦引擎將基于專家經(jīng)驗形成的規(guī)則或者機器學(xué)習(xí)模型,用于 DataOps、數(shù)據(jù)管理以及數(shù)據(jù)準備及服務(wù) (如數(shù)據(jù)集成方案或者引擎性能優(yōu)化) ,其推薦范圍可以涵蓋數(shù)據(jù)全生命周期各個階段,如數(shù)據(jù)資產(chǎn)推薦、數(shù)據(jù)用法推薦、數(shù)據(jù)集成方案推薦、執(zhí)行計劃推薦、計算引擎推薦、數(shù)據(jù)分類建議、數(shù)據(jù)時效提升建議、數(shù)據(jù)安全風(fēng)控建議、成本治理建議等。其具備如下能力:數(shù)據(jù)資產(chǎn)業(yè)務(wù)分類推薦、智能 SQL 用法聯(lián)想、智能查詢加速、智能資產(chǎn)推薦等。
- 增強數(shù)據(jù)目錄。Aloudata 增強數(shù)據(jù)目錄 (Aloudata BIG Catalog) 以主動元數(shù)據(jù)為核心,將 AI 和機器學(xué)習(xí)用于元數(shù)據(jù)收集、語義推理和分類打標,自動對數(shù)據(jù)進行編目,從而最大限度減少手工維護元數(shù)據(jù)的工作,從而為業(yè)務(wù)人員提供以下關(guān)鍵特性和體驗:語義化數(shù)據(jù)搜索、全景數(shù)據(jù)畫像、可視化血緣分析、全域數(shù)據(jù)探索等。
- 數(shù)據(jù)虛擬化。數(shù)據(jù)虛擬化是實現(xiàn) Data Fabric 的核心,它承擔(dān)了業(yè)務(wù)人員自助完成數(shù)據(jù)集成、準備和交付的關(guān)鍵職責(zé),它在數(shù)據(jù)源與數(shù)據(jù)消費端之間提供了一個連接、整合以及消費數(shù)據(jù)的虛擬語義層,用戶可以通過定義數(shù)據(jù)查詢來完成數(shù)據(jù)轉(zhuǎn)換,從而實現(xiàn)對跨源、跨環(huán)境 (如多云、混合云、Saas 軟件供應(yīng)商) 的數(shù)據(jù)進行透明集成、自助準備以及高性能服務(wù)。其具備如下能力:高性能聯(lián)邦查詢、全場景智能加速、全鏈路數(shù)據(jù)編排、零運維數(shù)據(jù)更新、標準化協(xié)議接入、精細化安全管控等。
- DataOps。DataOps 理念被提出,它的核心內(nèi)涵是將類似于 DevOps 的敏捷研發(fā)、持續(xù)集成、持續(xù)部署等原則應(yīng)用于數(shù)據(jù)研發(fā)和管理過程,以實現(xiàn)更加敏捷和高質(zhì)的數(shù)據(jù)交付,通常來說,落地 DataOps 必須具備以下關(guān)鍵能力:一站式數(shù)據(jù)研發(fā)、數(shù)據(jù)變更 CI/CD、嵌入式治理管控、數(shù)據(jù)質(zhì)量可觀測等。
極數(shù)云舟-DTark
北京極數(shù)云舟科技有限公司( Cloud-ark )是一家致力于數(shù)據(jù)處理基礎(chǔ)技術(shù)研發(fā)的高新技術(shù)企業(yè),結(jié)合數(shù)據(jù)處理領(lǐng)域最前沿的Data Fabric理論,創(chuàng)造性地提出廣義數(shù)據(jù)庫系統(tǒng),并自主實現(xiàn)內(nèi)核層多引擎融合技術(shù),打造核心產(chǎn)品:云舟數(shù)據(jù)經(jīng)緯平臺(DTark),助力用戶打造簡單、高效、便捷與可持續(xù)發(fā)展的企業(yè)數(shù)據(jù)基座。
DTark核心技術(shù)本質(zhì)是實現(xiàn)了多引擎融合數(shù)據(jù)處理,同時也實現(xiàn)了數(shù)據(jù)多副本、水平彈性伸縮、數(shù)據(jù)一致性、透明高可用、分層解耦等能力,基于成熟開源組件,并兼容開源協(xié)議和技術(shù)生態(tài)體系,穩(wěn)定可靠,簡單易用,軟件核心源代碼及關(guān)鍵技術(shù)自主研發(fā),產(chǎn)品安全可控。極數(shù)云舟基于DTark產(chǎn)品,服務(wù)能力覆蓋復(fù)雜企業(yè)數(shù)據(jù)管理、數(shù)據(jù)平臺建設(shè)、數(shù)據(jù)庫系統(tǒng)及管理,助力客戶數(shù)字化、智慧化等基于數(shù)據(jù)融合服務(wù)的數(shù)據(jù)基座建設(shè),也為數(shù)據(jù)中臺、大數(shù)據(jù)平臺建設(shè)提供了新動力,在提高性能、降低成本、減少定制化、降低系統(tǒng)復(fù)雜度、提升系統(tǒng)可持續(xù)發(fā)展能力等方面獨具優(yōu)勢:
- 數(shù)據(jù)接入的融合:基于成熟開源組件,穩(wěn)定可靠,兼容MySQL協(xié)議和技術(shù)生態(tài)體系。
- 數(shù)據(jù)存儲的融合:可實現(xiàn)數(shù)據(jù)多副本、水平彈性伸縮、數(shù)據(jù)一致性、透明高可用、分層解耦融合。
- 數(shù)據(jù)引擎融合:多引擎融合解決數(shù)據(jù)多樣性存儲的橫向打通。
- 數(shù)據(jù)接入的擴展:支持信息系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)時序數(shù)據(jù)、科學(xué)引擎接口數(shù)據(jù)的可擴展接入。
- 數(shù)據(jù)輸出的擴展:數(shù)據(jù)服務(wù)化要作為數(shù)據(jù)庫的標準能力。
- 數(shù)據(jù)引擎的擴展:針對數(shù)據(jù)類型與計算需求可擴展至 在線事務(wù)處理、在線分析處理、時序數(shù)據(jù)處理、全文檢索、知識庫等多種引擎。
作者介紹
韓鋒,51CTO社區(qū)編輯,CCIA(中國計算機協(xié)會)常務(wù)理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創(chuàng)始人或?qū)<覉F成員。有著豐富的一線數(shù)據(jù)庫架構(gòu)、軟件研發(fā)、產(chǎn)品設(shè)計、團隊管理經(jīng)驗。曾擔(dān)任多家公司首席DBA、數(shù)據(jù)庫架構(gòu)師等職。在云、電商、金融、互聯(lián)網(wǎng)等行業(yè)均有涉獵,精通多種關(guān)系型數(shù)據(jù)庫,對NoSQL及大數(shù)據(jù)相關(guān)技術(shù)也有涉足,實踐經(jīng)驗豐富。曾著有數(shù)據(jù)庫相關(guān)著作《SQL優(yōu)化最佳實踐》、《數(shù)據(jù)庫高效優(yōu)化》。