巨杉數(shù)據(jù)庫聯(lián)合創(chuàng)始人&CTO王濤:企業(yè)級NewSQL加速企業(yè)大數(shù)據(jù)落地
原創(chuàng)【51CTO.com原創(chuàng)稿件】2016年11月25-26日,WOT2016大數(shù)據(jù)峰會在北京粵財JW萬豪酒店召開,50多位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者齊聚現(xiàn)場,在圍繞數(shù)據(jù)智能、大數(shù)據(jù)商業(yè)、區(qū)塊鏈、實時計算、系統(tǒng)架構(gòu)、NoSQL等前沿技術(shù)話題展開深度交流和溝通探討的同時,分享大數(shù)據(jù)領(lǐng)域***實踐和最熱門的行業(yè)應(yīng)用。
在WOT2016大數(shù)據(jù)技術(shù)峰會NoSQL技術(shù)實踐主題專場,SequoiaDB巨杉數(shù)據(jù)庫 聯(lián)合創(chuàng)始人&CTO,王濤先生帶來了《企業(yè)級NewSQL技術(shù)解析與應(yīng)用案例》的演講,會后記者對他進(jìn)行了采訪。
王濤,此前在IBM DB2北美實驗室工作,負(fù)責(zé)數(shù)據(jù)庫內(nèi)核研發(fā)和下一代大數(shù)據(jù)架構(gòu)的規(guī)劃。是DB2,DPF等的專家。
一、交互是巨杉數(shù)據(jù)庫主要發(fā)展方向
SequoiaDB巨杉數(shù)據(jù)庫是一款企業(yè)級分布式NewSQL數(shù)據(jù)庫,自主研發(fā)并擁有完全自主知識產(chǎn)權(quán),沒有基于任何其他外部的開源數(shù)據(jù)庫源代碼。SequoiaDB支持標(biāo)準(zhǔn)SQL、事務(wù)操作、高并發(fā)、分布式、可擴(kuò)展、與雙引擎存儲等特性,并已經(jīng)作為商業(yè)化的數(shù)據(jù)庫產(chǎn)品開源。
談到分布式NewSQL數(shù)據(jù)庫技術(shù)架構(gòu)特點(diǎn),王濤先生表示,分布式NewSQL***的特點(diǎn)有兩個方面。
首先,跟傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,分布式NewSQL數(shù)據(jù)據(jù)***特點(diǎn)就是分布式,原本存在一個節(jié)點(diǎn)里面的數(shù)據(jù),現(xiàn)在可以把它分布到幾千個節(jié)點(diǎn)里面,這樣可以提升它的存儲能力和技術(shù)能力。其次,跟同樣新型的NoSQL數(shù)據(jù)庫來比,分布式NewSQL***的區(qū)別在于對SQL的支持,大部分的NoSQL數(shù)據(jù)庫都是以互聯(lián)網(wǎng)起家的,而在金融、政府這樣的傳統(tǒng)行業(yè)數(shù)據(jù)庫應(yīng)用中,很多企業(yè)需要仍然強(qiáng)大的SQL支持的能力,這些也是NoSQL跟NewSQL相比***的區(qū)別。
對于巨杉數(shù)據(jù)庫跟其他的NoSQL數(shù)據(jù)庫對比有哪些特點(diǎn)?王濤先生表示,SequoiaDB從對企業(yè)級最重要的特性方面來講,首先是對于SQL的支持,這也是所有企業(yè)在使用新型分布式數(shù)據(jù)庫的時候***個想到的問題。而巨杉數(shù)據(jù)庫是支持標(biāo)準(zhǔn)SQL兼容的,巨杉數(shù)據(jù)庫能夠讓傳統(tǒng)企業(yè)的應(yīng)用系統(tǒng)不需要過多的調(diào)整就可以***使用新一代分布式數(shù)據(jù)庫,做到SQL的兼容。其次,巨杉數(shù)據(jù)庫的雙存儲引擎機(jī)制、Spark深度整合等都是對企業(yè)級數(shù)據(jù)庫非常重要的東西。
王濤先生表示,從業(yè)務(wù)場景上來看,大數(shù)據(jù)業(yè)務(wù)目前主要分為分析類和交互類,巨杉數(shù)據(jù)庫大的發(fā)展方向是以實時交互類為主。在交互類這塊,對于近線數(shù)據(jù)管理和查詢、非結(jié)構(gòu)化數(shù)據(jù)和影像數(shù)據(jù)管理、用戶畫像、數(shù)據(jù)湖平臺等都非常適合用巨杉數(shù)據(jù)庫。
二、巨杉數(shù)據(jù)庫雙引擎技術(shù)以及Spark 2.0深度集成
巨杉的雙引擎,一個是記錄引擎,一個存非結(jié)構(gòu)化文件引擎,類似于軟件定義存儲的概念。目前,大家在用分布式結(jié)構(gòu)數(shù)據(jù)庫的時候,很多用戶希望把圖片、照片或者影像也存到這個地方,因為數(shù)據(jù)量很大。這就需要能夠既支持記錄級別的存儲,也能夠支持圖像塊結(jié)構(gòu)的存儲,這兩者使用的機(jī)制是完全不一樣的,其中一個是記錄的存儲引擎,一個是塊存儲引擎。塊存儲引擎可以把它理解成軟件定義存儲,它可以把一個大的文件切成很多碎塊,通過散列的方式,散列在不同的機(jī)器里面,這是兩個本質(zhì)的區(qū)別。
巨杉數(shù)據(jù)庫就通過雙引擎的機(jī)制,讓用戶將結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)同時存儲,大大提升了效率。
Spark2.0深度集成則是巨杉數(shù)據(jù)庫企業(yè)版的另一大特性,王濤先生表示,Spark作為內(nèi)存計算框架是計算層的一部分,巨杉數(shù)據(jù)庫則定位于存儲層。這樣,Spark2.0把兩個層面分開,兩者結(jié)合就能夠提供分布式的計算分析,而數(shù)據(jù)分析、機(jī)器學(xué)習(xí)都是Spark2.0提供的東西。
巨杉目前這種分布式數(shù)據(jù)庫與分析計算層的混搭互補(bǔ)是硅谷大數(shù)據(jù)領(lǐng)域***的主流趨勢,真正走在了前面。
三、NewSQL代表數(shù)據(jù)庫的未來
談到分布式數(shù)據(jù)庫未來的發(fā)展趨勢,王濤先生認(rèn)為,當(dāng)前來看,大家都在談NoSQL和NewSQL。從傳統(tǒng)來看,NoSQL本身針對的是從互聯(lián)網(wǎng)起家的一些玩家,這些玩家可能對于SQL和其他的企業(yè)級的功能并不是很重視。
但是,未來隨著新一代分布式數(shù)據(jù)庫在各個行業(yè)的不斷應(yīng)用和普及,NoSQL和NewSQL這兩者肯定是逐漸的過程,NoSQL數(shù)據(jù)庫會不斷注重企業(yè)級功能如SQL支持的提升。數(shù)據(jù)庫未來將會是一個分布式、高性能的立足實時處理和在線服務(wù)同時作為數(shù)據(jù)源支持上層的數(shù)據(jù)分析應(yīng)用的定位。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】