重磅發布多款新品,騰訊云讓數據釋放更多價值
原創【51CTO.com原創稿件】作為最重要的基礎技術之一,騰訊云大數據技術有效地支撐著騰訊內部所有業務,并為各行業的數字化提供基礎服務。從最初解決計算的問題,到解決時效性的問題,再到提升平臺擁有的數據價值,到現在的平臺體系智能化演進,可以說是一個從粗狂到精細化耕耘的過程。
早些時候,騰訊主要使用傳統的關系型數據庫。2009年開始,傳統的單機數據庫所提供的服務,在系統可擴展性、性價比方面已不再適合騰訊業務爆發式的增長。面對這種變化,騰訊大數據轉向分布式,基于開源的Hadoop體系,構建了騰訊云第一代大數據平臺,并建設離線計算平臺,主要發力規模化。騰訊云大數據由此進入第一階段。三年中,騰訊實現了從關系型數據庫到自建大數據平臺的全面遷移,到2012年,騰訊云大數據的單集群規模突破了4400臺。
2012年,移動互聯網爆發,為了應對業務數據統計及時性、快速性的需求,騰訊云大數據從Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求,探索流式計算、秒級采集系統的建設,構建企業級的實時數據分析體系,騰訊云大數據發展進入第二階段,用Java重寫了Storm,同時配套自研了TubeMQ。
2015年2018,騰訊云大數據邁入了第三階段。隨著數據挖掘、數據應用的深入,騰訊云大數據再次自我迭代,于2016年推出了自研機器學習平臺Angel,專攻復雜計算場景,可以進行大規模的數據訓練,支撐內容推薦、廣告推薦等AI應用場景。Angel由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性,不僅支撐騰訊自身業務需求,在行業上也具有里程碑意義。
2019年開始,業界已經開始嘗試人工智能輔助大數據運營,但是不夠體系化,騰訊云大數據的第四階段把此作為了重點,讓大數據與AI框架融合互惠,讓大數據裝上AI大腦,既能夠解決數據的問題,又能夠反哺整個平臺更好的智能化、體系化運營,輔助騰訊內部包括問題的診斷、分析、優化、成本的降低。
三層產品矩陣:基礎設施、產品開發、應用服務
說完騰訊云大數據的發展歷史,再來說說騰訊云大數據的產品矩陣。首先最底層是基礎的存儲計算設施,如EMR、神盾聯邦計算等。這一層除了提供基礎設施之外,還能夠幫助企業運維工程師快速構建一個性能比較卓越并且成本很低廉、更安全的算力。
向上的一層是產品開發層,強調的是開箱即用,可以用一個平臺搞定某一個業務場景開發的所有內容,可以讓企業的開發人員更多地關注業務,而不用太多考慮平臺本身。
最上面的應用層,則會提供各種各樣的接近業務的SaaS化的產品,如營銷的能力、增長的能力,BI的能力,風控的能力等。
總結起來,騰訊云大數據的產品矩陣分為三層:基礎設施、產品開發、應用服務。
今年,騰訊云大數據的研發重心在哪里?發布了哪些重要產品?騰訊云大數據平臺最新數據是怎樣的?這些問題都在剛剛召開的騰訊全球數字生態大會2020上給出了答案。
全鏈路數據開發平臺WeData
騰訊云副總裁劉煜宏透露,騰訊云大數據平臺的算力彈性資源池達500萬核,每日分析任務數達1500萬,每日實時計算次數超過40萬億,能支持超過一萬億維度的數據訓練。騰訊云不僅已經成為國內算力最強的云廠商,同時也是日實時計算量最大的公司。
騰訊云副總裁劉煜宏
據騰訊云大數據產品副總經理雷小平介紹,今年騰訊云大數據的研發重點在場景開發層,并在會上重磅發布了全鏈路數據開發平臺WeData。
騰訊云大數據產品副總經理雷小平
WeData提供了涵蓋數據即席分析、數據任務可視化編排、運維等在內的全鏈路數據開發能力。借助于WeData,企業數據開發門檻可有效降低60%。同時,WeData在云端構建了統一的元數據管理能力,涵蓋技術元數據和業務元數據的管理,并打通了EMR、CDW數倉、MySQL甚至對象存儲等在內元數據,以便于企業數據在不同云端數據設施之間進行無縫流轉的同時,還能保障其元數據的一致性和可維護性。另外,WeData還為數據科學家提供了全面的資產管理、數據治理能力,全面提升數據價值發現的效率。
在應用層面,QQ音樂基于WeData產品進行了大數據能力的重構。在重構之前,所有的數據分析能力都是基于Spark構建,所有報表的延時也都是小時級。在將熱數據全部升級到Clickhouse,并通過WeData進行數據開發工作,重構完成之后數據決策能力從小時級別提升到秒級。
由此可見,WeData打通了通用大數據開發和數據治理中涉及到的所有環節,實現了全鏈路覆蓋,讓用戶可以將精力更多地投入在業務增長。
除了全鏈路數據開發平臺WeData之外,在更細分的場景上,騰訊云大數據推出流計算服務Oceanus、云數據倉庫CDW、ES、彈性MapReduce、神盾聯邦計算以及企業畫像等6項重磅能力發布和升級,旨在覆蓋大數據的全生命周期,滿足企業數字化轉型中的新需求:統一平臺、異構算力、企業級安全。
做好安全、智能和統一,實現AB融合
人工智能與大數據融合(AB融合)已經成為未來信息技術發展的一個趨勢,并將成為新一輪數字經濟的核心驅動力。在騰訊云大數據基礎平臺總經理陳鵬看來,目前是B幫助了A,而A并沒有幫助到B。所以,B如何有效輔助A,A與B如何在架構上進行融合,將是下一代計算平臺的發展方向,即安全、智能和統一。
首先在安全方面,雖然大數據本身采用集群是要解決孤島的問題,但是目前解決的只是將分散部分的數據聚集在一起的問題,并沒有解決在歐洲GDPR及其他一些政策法規導致的,數據分散在不同團隊,不同職能部門,數據庫又不相通的問題。所以安全是一個重點,騰訊云分別在A和B上實現了計算過程的安全,目前正在研發聯合計算平臺,實現在保護數據隱私的同時,提供聯合數據分析、聯合數據建模等能力,實現數據的互融互通,釋放數據價值。
第二是智能,即如何讓A幫助B。AI并沒有能夠體系化的去輔助大數據做更多的運營,這是在AB融合過程最為重要的一個方面。目前的集群規模已經達到十萬臺,且每年都在按照40-60%的規模發展,然而如此大規模的集群多半還是人工輔助工具去解決運營工作,騰訊希望后續能夠將線上運行的數據回流反饋,基于機器學習獲得智能化的決策,基于這些決策及指標數據,優化調度性能、驅動硬件的定制。
第三,統一。包括框架的統一、AB技術融合統一等。
從框架統一來說,大數據的技術棧目前發展得已經非常復雜了,僅在計算方面,就有Spark、Hadoop等,如何保證企業本身不會被業界復雜的、頻出的系統,影響到整體架構的延伸,是框架統一要解決的問題,騰訊大數據體系就非常適合解決這樣的問題。
在AB技術融合統一方面,AB底層算子和分布式運行有著很強的相似性,如大數據的join、aggregator、sort和AI的grad、dot、softmax等,可以通過運行的機制做一些融合;在計算引擎方面,通過統一批、流、圖三種計算形態,涵蓋DAG、PS、MPI多種shuffle模式,基于成本的優化,統一執行計劃優化,還有基于編譯技術軟硬件集合,通過代碼生成適配異構硬件,計算型算子下推到GPU、FPGA等, 所以從這些角度來說,AB的融合是一個體系化的融合,而不是一個單點的融合,這種趨勢最終能給用戶帶來一站式的數據處理體驗。
企業數字化轉型正在高速演進中,騰訊云大數據將繼續發揮統一平臺、異構算力、企業級安全方面的優勢,提供從基礎設施、場景開發、應用服務的全場景、全托管能力,助力企業客戶降本增效、優化用戶服務,讓大數據為數字經濟發展釋放更多新動能!
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】