專訪本土數據庫CTO武新:談如何發力細分大數據市場
原創【51CTO專稿】“棱鏡門”的爆發,讓愛德華•斯諾登從默默無聞成為頭版頭條,也為蓬勃發展的大數據產業籠罩上了一層奇特的光暈。在這場眾說紛紜羅生門下,大數據話題被推到了風口浪尖,國內的大數據市場也因此變得愈加火熱。51CTO記者特別采訪到南大通用數據技術有限公司的首席技術官武新,和我們分享了大數據的過去、現在、將來和南大通用目前在數據分析、數據挖掘等方向的開發現狀和未來目標。
武新,南大通用公司高級副總裁兼CTO,法國奧爾良大學博士。國家“千人計劃”專家。畢業于法國奧爾良大學,有20年的從業經驗,在著名的甲骨文(ORACLE)任職12年,是最早獲得甲骨文 公司Oracle Certified DBA的數據庫管理專家。武新于2010年獲得中組部實施的國家“千人計劃”榮譽,是工信部認可的數據庫專家。2008年7月,武新回到國內,任南大通用高級副總裁兼CTO,是南大通用GBase 8a 分析型數據庫及其配套工具總設計師。
“大數據”概念價值提升,帶熱數據產業鏈
數據本身是什么,我們并不陌生。IT經濟社會出現之后,數據成了大家火熱關注的問題。從行業角度看,在互聯網高速發展的十幾年中,數據處理技術日新月異,加上移動互聯和物聯網技術和商業模式的新機遇,加速了數據的產生速度,數據存儲量開始爆炸式增長。“大數據”概念應運而生。
然而“大數據”概念出現之前,數據分析、數據處理等數據庫領域技術在不溫不火中持續發展。也出現了數據倉庫、BI等新技術概念。但從媒體角度看卻沒有獲得關注焦點。直到“大數據”概念出現,將整個數據領域推至最高點,成為全球關注的熱點概念。
對于這一現象,武新表示:互聯網的出現,從技術角度和商業模式上顛覆了傳統行業的經營狀況,我們每個人的生活方式,也在互聯網和移動互聯網的推動下發生根本變化。除去概念炒作的影響外,可以說“大數據”概念提升了數據本身的價值。數據本身沒有模型,或者說沒有一個量化的方法。因此,我們無法給出一個明確的價格;但是,在大數據的推動下,企業對數據的重視程度進一步提升,讓我們看到了數據的價值體現和資源地位。
除此之外,數據倉庫、BI等早早出現的技術,在“大數據”的帶動下在應用上更加活躍。接下來的大數據時代,是人類信息社會的收官階段。之前的計算機時代和互聯網時代,都是為大數據時代做鋪墊和準備的。計算機時代的核心是計算能力,極大提高了人們對數據的處理能力;互聯網時代解決了信息移動和連接的問題;而大數據時代,可將世界萬事萬物通通數據化,讓人們在數據利用中優化現實操作和行為,令全球系統的運行更為高效。
所以說“大數據”的出現,不僅開啟了數據領域的極速發展。對該領域的開發者而言,也迎來了最佳發展階段。
多方面因素,促使數據分析使用門檻降低
行業里面有這樣一種說法:“大數據分析是有錢人的游戲”。
關于這一說法,武新談了自己的觀點:“如果時間倒退5年,這個觀點是成立的。在過去,我們去做數據倉庫,做BI,確實需要很大的投資,不僅是在軟件和硬件的大量投入;在高端人才的招攬上,也要投入大量的資金和精力。但是,隨著互聯網行業的推動,數據生產速度加快,數據分析和數據處理技術也日益完善,大數據分析的門檻慢慢降低。究其原因,主要有三點。
- 云計算的出現
- 互聯網技術的飛速發展,開源力量凸顯
- 大批高技能人才涌現
基于以上原因,大數據分析所需投入資源下降,國內各大行業公司普遍使用大數據分析技術。然而,隨之而來的問題就是,大數據市場的競爭狀態加據,單位生存空間變窄。如何定位自我位置,抓取獨特身份,顯得尤為重要,也成了數據庫公司的思考難題。”
錯位競爭,特色產品面對專用市場
“錯位競爭”,特色產品面對專用市場,是南大通用的整體戰略定位。
武新解釋說:“南大通用創立之初,董事長崔維力先生提出了這樣的戰略方式。我們看到,在傳統數據庫市場IBM、微軟等幾家大型公司占據了幾乎整個市場份額,在行存儲技術領域做到了極致,技術市場達到了飽和狀態。因此,在這種情況下,我們很難在傳統市場里分得一杯羹。但是在新興的數據分析領域,我們可以與國際巨頭站在同一個起跑線,,我們的產品可以在市場上比他們表現的還要好。這就是所謂的 ‘錯位競爭’,做專用數據庫,發力細分市場。”
做為專業數據庫產品,在存儲方式上,南大通用采用列存儲模式。在數據上,更快捷的進行聚合、增組、關聯;更加便于進行大規模的數據分析、數據統計。對IO的要求也大大下降,擁有較高的數據壓縮比,適合做B型運算。在架構上,不同于傳統數據庫的垂直架構,而是像Hadoop一樣的橫向擴展,相對于傳統數據來說在計算能力有明顯的優勢。
在過去20年,幾乎一種數據庫平臺,就能滿足所有應用類型。但是,隨著數據類型的細分,這樣的數據處理模式漸漸無法滿足用戶需求,產生越來越多瓶頸。演變到現在,數據處理和應用形成了朝細分市場發展的模式,再次肯定了南大通用戰略方針的正確性。所謂細分,就是對某一類數據或某一類應用,做專門的處理技術。精通特定領域的數據分析,特色產品面對專用市場 ,根據不同需求,做不同產品。
#p#
專用數據庫產品:分析數據庫GBase 8a
GBase 8a,是南大通用投入最大的一款分析數據庫產品。GBase 8a采用了列存、智能查詢、高效壓縮、雙向并行、自適應優化等多項新技術,打破了以往提高性能只能靠增加數據庫的容量,建很多索引的常規,使得GBase 8a既有高性能又有很高的數據壓縮比。
武新指出:“經過用戶實際測試,在典型分析型應用中表現出:1、高性價比:幾乎不用調優就可以達到高性能,不需要考慮如何建索引,如何分區等問題。占有磁盤空間大大降低,節省大量存 儲設備費用,是傳統數據庫的1/5甚至更高,使用通用、中低端的存儲設備和服務器就可以達到很高的性能;2、高性能: 與國際傳統數據庫相比在批量聚集、統計性能;即席查詢性能、模糊查詢性能等方面都有幾倍到幾十倍的提高;3、高可用性:安裝、調優、維護、擴展非常簡單, 好用。”
添加非結構性數據處理技術,幫助用戶解決Hadoop平臺問題
經過幾十年信息化發展,傳統行業用戶積累了大量數據。其中結構化數據占大多數。ERP等各種系統產生的數據,也基本上都是結構化數據類型。然而最近幾年,我們不難發現,半結構化數據和非結構化數據數量迅猛增長,尤其是半結構化數據的數量。
對此,武新認為:“今天的大數據概念里,從數據特征看,半結構化數據和非結構化數據的比重占到90%以上。半結構化數據,有類似文檔這樣的東西;非結構化數據以視頻為主。針對這一類數據的處理,基于Hadoop的平臺更為擅長。目前,我們Gbase 8a集群,已經將全文檢索—一種半結構化數據處理技術,加入到其中去;在一步一步的朝處理半結構化、非結構化數據的方向發展。我們的目標,要做一個面向企業和行業,全數據處理產品和平臺。未來我們的研發目標,將把非結構化數據的處理,做為首要任務。盡可能多的跟開源進行對接。因為在這個領域,開源已經有了很多非常優秀的內容。對接之后,以這兩種技術的優勢,為用戶提供一個平臺,全面處理各種類型數據。”
Hadoop 分布式計算平臺以其在處理海量數據中的高可靠性、高擴展性等諸多優點,得到了大家的廣泛認可和共識。Hadoop作為一個云計算平臺,它的出現,解決了單個PC機計算能力薄弱的問題,可以同時在幾百、幾千個PC機上提供強大的計算能力。在企業中,作為一種ETL工具,在處理海量數據上,有著非常明顯的優勢。傳統的數據庫無法做到。在復雜的數據模型挖掘、預測模型的計算上,也占有霸主地位。但是,不可否認的是,在使用過程中,依然存在某些問題。這也是南大通在結合這樣一個產品的同時,亟需解決的問題之一。
南大通用的的很多用戶已經開始嘗試使用Hadoop技術進行數據處理和進行一些項目實驗。武新表示: “面對這樣一個優秀的平臺,我們所要做的有兩點:第一,努力將Hadoop平臺企業化。Hadoop企業化,就是要把Hadoop平臺變成一款真正的產品,更加方便的供用戶使用;未來幾年或許能實現,但就目前而言還沒有達到這樣的成熟度。第二,解決技術更新和用戶想要穩定環境之間的矛盾,為用戶的穩定使用提供服務。”
堅持通用數據庫發展,開始新技術應用實踐
目前為止,國內行業大數據市場中,政府的金融、電信等行業的整個IT架構,還是建立在基于小型機的傳統架構基礎上;核心業務,依舊采用傳統數據庫模式。隨著非結構和半結構數據的大規模增長,這一兩年開始,一部分架構開始嘗試基于分布式計算模型,例如Hadoop、MPP等技術的嘗試。對于這一變化趨勢,武新認為:“Hadopp、MPP等分布式計算模型在處理某些業務上的明顯優勢,促使金融、電信領域愿意去嘗試這項技術。除此之外,在數據量上,無論是金融、電信還是政府部門,都在進行從TB到PB的級別遷升;數據量級上將迎來一個新的里程碑,所以對數據處理技術上的要求,也促使了他們投入分布式計算模型的應用的步伐。”
對于未來的國內數據庫市場發展,雖然微軟、IBM等公司占據了整個市場,但在通用數據庫產品上,仍然要堅持去投入。武新覺得:“經過幾十年的技術積累,國內數據分析領域在數據倉庫、BI等技術上有了絕對性的建設。目前要做的,是思考如何進行行業轉型?新一代數據倉庫怎么做?新一代BI是什么樣子的?在BI方面,南大通用也將進行投入,做一款動態BI產品,實現人機交互模式,這也是未來大數據發展的方向,對傳統BI也將起到良好的推進作用。”
因此,國產數據庫在繼續投入通用數據庫市場的同時,努力開發下一代新型技術,在新的數據分析領域開辟自己的領地,在激烈的數據庫市場中切割出自己的細分市場,是提升自我市場競爭力和改進自身現狀的最佳選擇。