Data Fabric:下一個IT的風口?
作者: IBM 大中華區 云計算與認知軟件事業部 數據與人工智能 信息架構產品總監,王積杰
IT世界,每隔10年,就會出現一個IT的風口。20年前是數據倉庫,10年前是大數據和數據湖,今天,一個名為Data Fabric 的數據架構浮出水面,開始引發人們的關注。
我們首先來看,當今的IT數據架構和十多年前有什么不同了。在數據倉庫時代,企業的數據量還不算大,一般幾十個TB, 數據倉庫的建設一般采用中心化的方式,將各個應用系統的數據,從各個系統抽取出來,清洗轉換后,加載到數據倉庫里。由于架構相對簡單,數據模型直觀,相關的數據集成的工具軟件及元數據管理的重要性并不突出,很多客戶選擇了忽視這一部分。而到了大數據時代,由于非結構化數據的導入,數據量大了,企業擁有上百個TB的數據成為了日常。但數據架構還是集中式,工具軟件及元數據還是沒有被廣泛地應用。
今天已經到了一個云的時代。在企業內部,除了有各種本地應用系統,還有數據倉庫(Data Warehouse)和很多數據集市(Data Mart),大數據平臺( Big Data Platform)和數據湖(Data Lake)往往也是不可缺少,除了本地私有云平臺,往往很多應用也會放到公有云平臺之上。在這樣一個分布式的數據架構中,如果為了獲取數據,還要把數據搬移復制,集中到某一個地方去,其成本將會非常之大。因此,是否有辦法既不需要搬動數據,允許數據還是保留在各個應用系統里,又能讓數數據科學家們在需要的時候能夠非常方便地獲取這些數據呢?于是,一個名為Data Fabric 的數據架構因此而誕生了。
有關Data Fabric, Gartner和Forrester 都有明確的定義,其中,Forrester寫到:“Data Fabric 是以一種智能和安全的并且是自服務的方式,動態地協調分布式的數據源,跨數據平臺地提供集成和可信賴的數據,支持廣泛的不同應用的分析和使用場景”。這些語句也許有些拗口,我們可以用更通俗的語言來描述,那就是,”使需要用數據的人,隨時能夠了解到他要的數據在哪里,數據質量如何,他可以如何方便地獲取他需要的數據。“ Data Fabric 的主要功能就是,把正確的數據,在正確的時間,傳送給正確的人。通過 Data Fabric , 對的人可以從對的地點,在對的時間,獲取對的數據。
我們可以把Data Fabric 想象成一張虛擬的網,網上的每個節點就是一個 IT系統。人的大腦里有成萬上億個神經元,他們連接在一起,以非??斓乃俣忍幚砗蛡鬟f信息?,F代醫學還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里Data Fabric 也一樣,這張網并不能理解為一種點對點的連接,而是一種虛擬的連接,可以使數據在網上迅速流動。
要實現Data Fabric 這樣的架構,有時候阻礙不是來自技術,而是人。很多時候,不同的業務部門把持著各自的數據,不愿共享,怕共享數據會降低本部門的權威。亞馬遜的 CEO 貝索斯就曾經在一個內部的高層會議上,對一眾高管發火,他說:“你們要么共享數據,要么離開公司!” 因為,貝索斯清楚地知道,發揮數據價值,給公司帶來業務上的回報,是一家互聯網公司的命脈。如果任由個別高管阻礙這種數據的共享,帶來的后果將是毀滅性的。雖然有的人擔心,數據共享會帶來數據安全和隱私保護的問題,但這些問題都有相應的技術手段來解決,并不能成為阻礙數據共享的理由。
Data Fabric 可以同時給業務和技術團隊帶來明確的價值。從業務層面來看,由于企業能更容易地獲得高質量的數據,從而能更快和更精確地獲得企業數據洞察。數據科學家和業務人員能夠花更多時間在數據分析上,而不是去尋找和準備數據,可以給數據使用者提供完美的自我服務的數據消費體驗。優質和全面的數據,可以避免由于數據訪問的限制而造成的數據分析偏差,從而可以提升企業數據的合規性和安全性。 從技術層面來說,由于較少的數據復制的次數和數量,從而減少了數據集成的工作,方便維護數據質量和標準,也減少了硬件架構和存儲的開銷。 由于減少了數據復制和大大優化了數據流程,加快并簡化了數據處理過程,從而通過實施自動化的整體數據策略,減少了數據訪問管理的工作。
要實現上述的Data Fabric 的目標,至少需要四個方面的基本能力:
Data Fabric 目前是一個IT熱點,眾多國際著名的 IT公司包括IBM、informatica和 Telend等,均推出了針對 Data Fabric 的解決方案。其中,IBM 公司的Cloud Pak for Data針對上述Data Fabric 必須具備的四個基本能力,都能給予很好的支持。IBM早在十多年前,就已經推出了有關數據虛擬化的方案Data Virtualization, 目前這個方案的功能日趨豐富。IBM的數據目錄Watson Knowledge Catalog是業界最強大的智能數據目錄解決方案,其中大量使用了IBM企業級 AI和機器學習的技術,使數據目錄智能化和自動化,并具有知識圖譜的能力,方便業務用戶使用。IBM數據目錄方案內嵌了數據安全和數據隱私保護的功能,確保在數據共享的過程中能符合GDPR的數據隱私保護要求。同時,IBM作為一個老牌的專業數據集成的供應商,其數據復制和數據集成的自服務能力也日趨完善。IBM Cloud Pak for Data 應該是目前業界應對 Data Fabric 功能最為完善的數據平臺。
Data Fabric 這個概念在國際上已經熱起來了,但目前國內的IT用戶知道的人還不多。20年前數據倉庫在國外興起后,用了6到8年才傳到中國。10年前大數據的概念在國外興起后,不到三年就被中國用戶廣泛接受。目前這個 Data Fabric 概念,中國可以用多快的速度接受并加以應用呢?我們拭目以待!
原文鏈接:https://mp.weixin.qq.com/s/Sk_b4teW1jQ6hk1V8skKYA
了解更多IBM相關:http://cloud.51cto.com/act/ibm2021q3/cloud#p3
任何問題,歡迎撥打免費咨詢熱線:4006690260 (工作日9:00-17:00)