近期,就在2月15日,國內IT界有搞出個大瓜,Teradata以對中國當前及未來商業環境的不確定性,慎重考慮后決定退出中國運營,后續將進入中國公司關閉程序。Teradata是一家有著40多年歷史的數據倉庫企業,被業界專業人事稱為“數倉人才的黃埔軍校”, 在大數據領域一直保持全球領先的地位。它在1997年正式進入中國,并率先在金融、電信領域推出自己的數倉產品,由于當時國內軟硬件基礎不太好,信息化行業又面臨著迅速數據膨脹等因素,使Tearadata很快在中國鋪開市場,直到近期的退出,在國內還保留著眾多的使用單位及市場。下面談談對這一事件的看法及國產數據倉庫產品的機會。
1、Teradata 退出,個中緣由
賣的好好的,為啥退?筆者不是啥國際局勢專家,感覺無外乎幾個原因:一是國家間的國際關系影響;二是某些國家的做法令人不爽,如監聽門事件等;三是國內眾多替代產品慢慢趨向成熟穩定并蠶食Teradata的市場。個人感覺最大的原因還是第三點國產數據庫的崛起萎縮了海外廠商的市場,國內數倉產品很多,與Teradata等同的有南大通用的GBase 8a、華為的GaussDB 200、阿里的ADB等等。此外,Teradata是以一體機的形式多外銷售,最大的特點就是昂貴,但不缺錢的企業多了去了,仍在中國賺得盆滿缽滿。但隨著持續發展,國內的客戶發現Teradata也存在很多的問題,就算沒有國際局勢、沒有監聽門事件也萌發換掉它的想法。試探著找出可以替代Teradata架構、使用相似的產品,下文也將從幾個方面對比國內數倉產品與Teradata的異同。
2、Teradata 退出,如何填補
(1)Teradata 技術架構
Teradata是Shared Nothing的MPP架構,主要包括解析引擎、BYNET和訪問控制處理器(AMP),Teradata以節點為系統的基本單元,一體機中每臺服務器都稱為節點,高級架構圖如下:
(2)主流數倉架構
當前主流國產數倉產品主要有三種架構。
有Master
第一種有Master的架構,主要產品是PG系的產品,比如GreenPlum等通過PostgreSQL改過來的產品,其典型架構圖如下
無Master
第二種是無Master的計算、存儲、管理一體化的架構,其架構圖如下
多Master
第三種架構是聯邦架構,也可叫多Master。跟第一種非常相似,唯一差別的放就是原來的Master-Slave模式變成了集群模式,架構圖如下
該架構使集群對外服務能力更強,因其連接應用的管理節點是集群模式,可實現多管理節點的高可用、不像Master-Slave模式,在掉了Master后,到Slave切換的RTO過大及數據丟失的風險。目前這個架構國內唯一家數據庫支持,就是GBase 8a MPP V9,國外有HDP 2.0。
(3)數倉全球概況
Gartner作為全球最具權威的IT市場研究與顧問咨詢公司,定期會推出IT行業的各種報告以及著名的Gartner魔力象限。Gartner魔力象限通常從兩個方面來評價供應商:前瞻性和執行能力。涵蓋的公司包括:領導者、挑戰者、有遠見者、細分領域主導者。前者考量該廠商提供產品底層技術基礎的能力、市場領導能力、創新能力、外部投資等, 后者考量產品的易用程度和價格、服務的完善程度和技 術支持能力、管理團隊的經驗和能力等。象限圖的橫軸表示發前瞻性,縱軸表示執行能力。國產數倉也在Gartner中進行過評估,過去幾年中曾經出現兩個國內廠家進入了該魔力象限,比如2017年,共有22家廠商被選入魔力象限。其中,亞太地區入圍的三家全部來自中國,包括GBase、阿里云和華為,這也是該象限首次有三家中國廠商進入。除了Micro Focus和SAP兩家歐洲公司外,其余17家均為美國公司。
華為的GaussDB產品與南大通用的GBase產品在全球排上了名,與Oracle、Teradata知名數據庫同時出現在一幅圖中。雖然不在同一象限,但也代表了這些廠商在全球的認可度。從這一角度來看,Teradata退出后原有市場填補及新市場空間可從上述受到權威認可的廠商中選擇,如上面的南大的GBase 8a和華為的GaussDB為主。
(4)國內典型產品
GBase 8a
GBase 8a是南大通用公司自主研發的一款分析型數據庫,而南大通用本身也是一家專注做數據庫的公司,其產品覆蓋分析型、事務型、另一維度,分集中式和分布式,有8a分析型數據,8s集中式事務庫,8c分布式多模數據庫。而對應Teradata數倉產品的則是南大通用8a產品,產品名字GBase 8a MPP Cluster,最新版本是V953,據說性能在OLAP場景下非常強勁,且該產品在2010年就研發并投入市場,在國內的OLAP領域可以說資格最老、最穩定、市場占有最大的一家公司產品。
GaussDB DWS
GaussDB是華為旗下的一系列數據庫產品,包括100、200、300,其中GaussDB 100現在已經開源叫openGauss,是偏事務的一款產品,GaussDB 200現在叫DWS,是可以對標Teradata的一款分析型數倉產品,GaussDB300是HTAP產品,并未正式上市。
(5)關注遷移能力
作為產品替代的一個重要考量因素,是否具備完備的遷移能力至關重要。上面談到的兩款產品都有對應的從Teradata到本產品的遷移工具,包括DDL、視圖、SQL、數據的遷移。
GaussDB
GaussDB的遷移工具從官網可以查到其語法,命令以.sh結尾,本人猜測很可能是用shell腳本編寫的SQL轉換遷移程序,但該工具不能遷移數據。
GBase 8a
GBase 8a MPP也有遷移工具,網上查叫GBase MTK,可以實現從Oracle、SQL Server、PostgreSQL、Teradata到GBase 8a的數據遷移,但好像只能實現DDL的自動轉換并進行數據的倒換遷移。
而對于Teradata的SQL遷移,目前在網上沒有查到其對應的工具,咨詢過南大通用公司的前同事,好像GBase也有Teradata SQL轉換工具,且據說轉換效率非常高,準確率也不錯。使用Python語言編寫,根據客戶實際SQL風格靈活定制化。從工具的語言上感覺南大通用的工具會更強大點,畢竟Python比Shell腳本的Coding靈活度要大的多。
3、Teradata 退出,引發思考
Teradata 公司的退出,為我們敲響了警鐘。單純依賴國外產品的路線是不長久的,只有立足國內,保持充分技術自由度才是最佳選擇。至于TD數倉在國內的替換、以及未來市場,相信以GBase 8a、華為GaussDB DWS為代表的國產廠商產品,應可擔當大任;也更希望并期待有更多國產數據庫不斷涌現,壯大國內的數據庫生態。
作者介紹
韓鋒,51CTO社區編輯,CCIA(中國計算機協會)常務理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創始人或專家團成員。有著豐富的一線數據庫架構、軟件研發、產品設計、團隊管理經驗。曾擔任多家公司首席DBA、數據庫架構師等職。在云、電商、金融、互聯網等行業均有涉獵,精通多種關系型數據庫,對NoSQL及大數據相關技術也有涉足,實踐經驗豐富。曾著有數據庫相關著作《SQL優化最佳實踐》、《數據庫高效優化》。