阿里數據猿:雙十一每秒計算量將超千萬條
又到了收貨的季節。深秋與初冬交接,剛剛醞釀完一年情緒的女人們,帶著滿臉的期待,血液的溫度開始上揚,微微張開的毛孔,配上快遞員呼嘯而過留下的微風,這滋味,剛剛好。對于辛勤勞作的人們來說,這也正是一年中享受這個時代寶貴饋贈的時刻——雙十一!
對于雙十一,關注它火爆的人太多。且聽阿里數據猿來談談,雙十一背后的大數據,是如何快速運轉和保證數據質量不出錯的。
一筆交易數據檢查70余次
相信有不少人認為,自己能產生數據,卻不明白數據是如何為自己服務的。其實,你的每一步操作,都需要靠數據來保障。假如你是一個美國用戶,剛剛看上一件庫存只剩一件的衣服,你趕忙下單并付好款。如果此時,正好國際間網絡突然出現了閃斷,你“已付款”這個狀態的數據并沒有從支付寶傳輸到淘寶的系統中來。那么,在網頁上,就有可能依然是“等待付款”狀態。
為了讓大家避免遇到類似狀況,保障購物體驗“如絲般順滑”,阿里特別推出了一項秘密武器,對線上每筆交易進行實時檢測。一旦發現數據出現問題,就會立即報警并且提交給相關技術人員處理。每筆交易,都要對其中的相關數據檢查超過70次。
秒至毫秒級別實時計算
去年雙十一,幾百媒體圍著一塊4500公斤的大屏歡呼。那里面實時展示的數據,正是基于我們的實時計算而來。Galaxy,是阿里自研的通用增量計算平臺,能提供秒級別甚至毫秒級別延遲的實時數據計算能力。
Galaxy解決了計算通用性、開發成本、數據質量等諸多難題,并提供可擴展、規模化的集群服務能力。相對于傳統的批量計算模型MapReduce,Galaxy提出了通用增量計算框架,在此之上提供算子層和SQL語法,大大降低了用戶門檻和開發運維成本。
而實時計算的運用場景,可不只是為了做個大屏讓大家熱鬧一下。它的服務對象已經覆蓋內部包括淘寶、天貓、聚劃算、無線、搜索、廣告、數據產品、菜鳥、安全、阿里云等多個BU或業務線,為廣告、內容投放、數據魔方等產品或應用提供實時計算服務。你剛剛看完口罩,馬上就能看到廣告位上出現的空氣凈化器,正是實時計算的一項應用。
宕機也不怕丟數據
正如上述案例中,如果出現數據丟失,對于用戶來說將會是一次非常糟糕的體驗。在阿里內部,保障數據質量,也是所有產品和系統應用的前提條件。實時計算系統,也是如此。
在數據準確性和有狀態計算方面,Galaxy提供了高可靠的容錯機制,確保任意場景下的“不多不少”的精確語義;在內存快照與容錯機制配合下有效解決了有狀態計算依賴全局存儲帶來的吞吐下降的問題。
在這套機制下,哪怕出現了計算的服務器宕機,galaxy還是能從之前的數據流中找回丟失的數據,“媽媽再也不用擔心宕機會丟數據了!”
千萬條數據計算僅需1秒
大數據需要在應用中發揮出價值,考驗的是海量數據的處理能力。需要指出的是,隨著時間的推移,大部分數據的價值越來越低。實時計算的出現,正是極速加快了數據閉環的周期,讓數據更值錢。
目前, galaxy每秒可計算數據已達500萬條,每日處理的記錄數超過2500億,日處理數據量近2PB。預計今年雙十一,Galaxy的計算量每秒將超過1000萬,日處理消息數將超過1萬億條。
作者為阿里集團著名碼農,負責阿里數據治理。曾多次主導阿里雙十一數據保障系統,多個數據系統負責人。