金融數據分析應用四道難關 南大通用攜手英特爾夯實數字化轉型基石
大數據時代,行業(yè)數據存儲一直是企業(yè)數字化轉型過程中首要考慮的問題。隨著AI、IoT技術的快速發(fā)展以及云的大范圍應用,企業(yè)對于基礎設施能力的建設愈發(fā)重視。
數據庫是互聯網時代企業(yè)早期應用的核心,當數據洪流襲來,數據應用也滲透到技術、業(yè)務等各個層面時,企業(yè)在面對數據存儲及分析時也面臨著一些新的挑戰(zhàn)。尤其是金融行業(yè)的數據存儲問題,業(yè)務增長和拓展往往伴隨著海量的結構化數據處理,再加上金融行業(yè)對數據存儲在安全、效率、合規(guī)等多方面的要求,傳統(tǒng)的數據庫已經很難滿足金融行業(yè)業(yè)務發(fā)展需求。
目前國內大數據領域發(fā)展迅速,國產數據庫的崛起已成必然之勢。在這樣的背景下,南大通用自主研發(fā)的GBase8a脫穎而出,它是一款大規(guī)模分布式并行處理(MPP)數據庫集群系統(tǒng),面向海量數據查詢分析應用,可以滿足結構化數據的存儲、分析、挖掘、備份等多種需求,可以有效支撐起金融行業(yè)業(yè)務拓展的需求。
為了強化GBase 8a能力,南大通用與英特爾合作,使用英特爾®至強®可擴展處理器作為產品的核心,并在英特爾推出全新數據中心平臺后對產品進行更新,進一步強化GBase 8a的性能表現。
金融數據存儲四道難關
大數據行業(yè)逐漸成熟,一方面是國家政府的大力支持,另一方面是技術創(chuàng)新潮流下,各類新應用引發(fā)的數據量爆發(fā)使得業(yè)務模式發(fā)生改變,促使大數據行業(yè)進入新的階段。
金融行業(yè)由于自身特殊的行業(yè)屬性,在發(fā)展過程中會面臨結構化數據的飛速增長。目前,在日趨復雜的業(yè)務環(huán)境與數據增長背景下,數據庫在金融行業(yè)中的應用主要面臨以下四個難點:
一是數據多樣化且迅速爆發(fā),數據分析及吞吐量出現瓶頸。在金融行業(yè)的創(chuàng)新業(yè)務中,數據的來源多種多樣,數據存儲前需要進行整合后分析。而且數據集的規(guī)模會達到數TB甚至數十PB的級別,用戶并發(fā)量遠遠超過傳統(tǒng)業(yè)務承載能力,這對于數據庫的吞吐能力帶來了嚴峻挑戰(zhàn);
二是TCO快速攀升。快速膨脹的數據庫系統(tǒng)帶來了對于云與數據中心基礎設施的旺盛需求,推動了總體擁有成本(TCO)的快速攀升。企業(yè)用戶不斷尋求通過硬件更新、軟件優(yōu)化等形式來提升單節(jié)點個服務器的性能表現,進而提高投資收益;
三是數據存儲IO效率低,難以支撐企業(yè)內部協(xié)作展開。數字時代下企業(yè)各業(yè)務部門之間的協(xié)同更加重要,對于企業(yè)的關鍵業(yè)務來說,更高的處理效率及更低的延時是核心,這就對數據庫IO操作的效率與服務質量提出新需求;
四是數據安全,這是金融行業(yè)中備受關注的問題。數據即價值,企業(yè)用戶在選擇數據庫時不僅要考慮性能、時延等因素,還要對數據存儲的安全性及容災能力進行評價,特別是在業(yè)務進行數據分析時對數據權限的把控。
南大通用分析性數據管理系統(tǒng) GBase 8a 系統(tǒng)架構
南大通用是國內主攻國產數據庫研發(fā)和推廣的數據庫公司,針對大數據時代企業(yè)數據的有效管理,南大通用自主研發(fā)了GBase 8a、GBase 8s、GBase8c 等數據庫產品。GBase 8a是一個大規(guī)模分布式并行處理(MPP)數據庫集群系統(tǒng),相比于傳統(tǒng)數據庫,GBase 8a在結構化數據的處理上具備突出優(yōu)勢,支持從數TB到數十PB的數據集。
從研發(fā)、應用到成熟,GBase 8a經歷了很長時間的沉淀。2014年國內某銀行總行的大數據平臺項目上線,面對每天TB級的數據增量、復雜的庫內作業(yè)、超長的日運行時間以及多樣的數據來源,南大通用與之一起,將GBase數據庫成長為足以支撐如此高強度行業(yè)應用的世界級數據庫:部署近2000個節(jié)點,管理數據超25PB,無故障運行超過2000天(案例參考:http://www.gbase.cn/case_info/1188.html)。
目前,GBase8a已在中國人民銀行、中國銀行保險監(jiān)督管理委員會、中國證券監(jiān)督管理委員會、中國農業(yè)銀行總行、中國銀行、中國工商銀行、招商銀行等金融領域部署規(guī)模化應用,且已經向電信、政企等多領域延伸。特別在電信行業(yè)中已經在中移動總部及30個省市均有規(guī)模化部署。目前GBase8a數據庫已經在全球34個國家部署超過30000個節(jié)點,管理超過200PB的數據(數據參考:http://www.gbase.cn/casee/377.html)。
南大通用攜手英特爾:讓數據迸發(fā)新價值
多年的熬煉,造就了南大通用GBase 8a出眾的性能。在中國信通院第十二批大數據產品能力數據庫基礎能力評審會上,南大通用GBase 8a以4096個節(jié)點的集群規(guī)模滿分通過中國信通院大數據產品大規(guī)模能力的基礎能力評測,這是目前中國信通院大數據產品大規(guī)模能力的基礎能力通過評測的規(guī)模最大的MPP數據庫集群,這個成績在國際市場同樣具備很強的競爭力。這也讓南大通用成為目前第一個在4096個節(jié)點規(guī)模下完成了性能專項測評的國產數據庫廠商。
這主要得益于GBase 8a強大的擴展性。GBase 8a的每一個服務器使用的均是本地資源,基于節(jié)點對等扁平架構,讓GBase 8a的橫向擴展能力大幅增強。同時,集群計算性能和存儲容量能夠跟隨集群擴展呈現線性增加。
GBase 8a同樣具備新型的列存儲引擎、高數據存儲壓縮比、免維護的粗粒度索引及多實例部署等多項大數據處理技術。在MPP高效分布式計算模式下,結合分布式智能優(yōu)化器,GBase 8a能夠完成對PB級結構化數據分析類應用的支撐。
不僅如此,GBase 8a還能通過集群內部副本同步技術、雙重集群技術、跨域集群數據傳輸同步技術及虛擬集群技術,來保障大數據下集群的高可用性和多集群支持,實現多數據中心的部署。
在行業(yè)應用市場,GBase 8a根植大數據分析應用,主要服務于電信、金融、能源等大型企業(yè)。2019年,南大通用與英特爾合作,并入選英特爾精選解決方案,這一方案可以幫助數據密集型行業(yè)用戶提升數據分析性能,并顯著降低應用響應時間。
CPU是數據庫系統(tǒng)整體性能發(fā)揮的核心,基于GBase 8a的英特爾精選解決方案可充分發(fā)揮英特爾至強可擴展處理器的性能優(yōu)勢,隨著第三代英特爾®至強®可擴展處理器的推出,方案升級后GBase8a的性能表現再次增強,業(yè)務運行效率隨之提高。
第三代英特爾®至強®可擴展處理在性能和功能方面均有大幅提升,具體來看主要有三點:
1、對于數據庫應用而言,第三代英特爾®至強®可擴展處理器最新的微架構以及核心數量的增加,是推動數據庫性能實現增長的關鍵,有助加速IO密集型負載的處理,在同等的服務器數量前提下,實現性能的顯著增長;
2、第三代英特爾®至強®可擴展處理器提供了8個插槽配置的多插槽內核計數密度,每個處理器最多可達40個核心,與第二代英特爾至強可擴展處理器相比,性能、吞吐量和CPU頻率顯著提高,在主流數據中心工作負載上性能平均提升46%。
3、第三代英特爾®至強®可擴展處理器增加了數項全新的增強型平臺功能,針對云、人工智能、高性能計算、網絡、安全和物聯網工作負載進行優(yōu)化,在處理20種主流機器學習、深度學習工作負載時,第三代英特爾®至強®可擴展處理器能夠帶來高于其他CPU 1.5倍的性能提升。且其新增了PCIe-Gen4 支持,增加了內存帶寬,每路處理器內存容量達6TB,還增加了AVX-512指令。
這些能力的加持下,GBase 8a擁有了無縫性能的基礎,同樣也有助于加快多云、智能邊緣和后端等數據的變革性影響(復制鏈接,了解最新合作:https://bizwebcast.intel.cn/eventStart.aspx?eid=257)。
加速萬物云化 強化IT基石
隨著企業(yè)業(yè)務的不斷發(fā)展,未來各行各業(yè)都將面臨云化的趨勢。從數據的類型來看,一般主要被分為三類,結構化數據、半結構化數據以及非結構化數據。
結構化數據是一種整齊的格式化數據,它通常能夠用統(tǒng)一的結構來表達實現的數據,傳統(tǒng)行業(yè)擁有大量結構化數據;與之相對,非結構化數據不易被組織或統(tǒng)一化,是一種字段可變的數據。數字時代下,網絡大數據多以非結構化數據形式存在,在企業(yè)發(fā)展產生的數據中,有80%都屬于非結構化數據,且每年增長迅速;半結構化數據是介于完全結構化數據與完全無結構化數據之間的數據,它具備一定的結構性,但變化較大,如企業(yè)中的各類日志信息,就屬于半結構化數據。
數據類型的不同,自然需要選擇不同類型的數據庫來進行存儲。雖然非結構化數據是目前數字時代的主要形式,但在各個行業(yè)長期業(yè)務開展過程中,結構化數據大量積累。且新的業(yè)務發(fā)展同樣會產生數據存儲環(huán)境的變化,因此數據庫的變革接踵而來。
也是在這樣的趨勢下,英特爾推出第三代至強®可擴展處理器,全新的數據中心平臺可以為本地和分布式多云環(huán)境中運行的現代工作負載進行優(yōu)化,再加上與英特爾®傲騰™持久內存與存儲產品組合、以太網適配器等方案搭配,能夠為數據庫帶來更強的性能表現。
值得一提的是,英特爾®傲騰™持久內存具有兩種運行模式——內存模式和App Direct模式,可以通過多種方式提高數據庫性能。英特爾®傲騰™持久內存的內存模式可用于降低緩存層成本,而App Direct 模式則是提供高速大批量數據存儲能力,通過優(yōu)化數據存儲,從而提高數據庫中的讀寫速度。實際產品應用中,搭配傲騰固態(tài)盤P5800X/P5801X,能夠提升單服務器的可擴展性,實現數據庫加速、寫入緩存、高性能分層等功能,讓用戶在部署數據集時更加便利。
未來企業(yè)發(fā)展存算分離,結構化、半結構化、非結構化等多種結構數據并存。南大通用GBase 8a借助英特爾在核心性能、硬件組合及軟件優(yōu)化方面的支持,將傳統(tǒng)業(yè)務結構化數據存儲革新,并不斷提升數據庫性能,為企業(yè)用戶的數字化轉型打造堅實基石。隨著大數據行業(yè)的演進,全新的數據庫解決方案將會應用到越來越多的行業(yè),推動數字經濟的建設。
點擊下方鏈接,獲取解決方案白皮書!
南大通用利用第三代英特爾® 至強® 可擴展處理器顯著提升其 GBase 8a 性能 (intel.cn)