為什么你需要開源分布式流存儲Pravega?
工業物聯網,車聯網和實時欺詐風控的需求正在飛速的發展。越來越多的企業新應用,需要的是快速響應客戶需求,并同時學習和適應不斷變化的行為模式。同時隨著 5G 網絡、容器云、高性能存儲硬件水平的不斷提高,讓實時流處理正在擁有越來越廣泛的市場前景。
流處理在短時間內就能夠對連續生成的數據進行分析產生價值,而無需等待批處理中累積和處理,從攝取到結果的低延遲是流處理技術提供的最為關鍵的優勢。例如對于車載系統的分析反饋,集群性能日志數據的分析告警,金融欺詐風控的精準定位、物聯網煤氣泄漏事件處理等應用而言,高并發下的 10ms 級別的低延時意味著最關鍵的商業價值。
流式處理看似簡單 : 只需在數據到達時以快速、持續和***的方式對其進行處理和操作。但實際情況是,大多數企業并沒有可以支持到 PB 至 EB 數據量級,并同時滿足采集速率、故障恢復能力的實時存儲 / 計算引擎。 隨著適合處理批、實時場景的各種定制化存儲、計算引擎的出現,在業務不斷擴展的過程中,也就無法避免地在企業級別的大數據系統之上堆積復雜性,造成了不小的資源浪費以及運維困難。
流式傳輸迫使系統設計人員重新思考基本的計算和存儲原則。當前的大數據處理系統無論是何種架構都面臨一個共同的問題,即:“計算是原生的流計算,而存儲卻不是原生的流存儲” 。Pravega 團隊重新思考了這一基本的數據處理和存儲規則,為這一場景重新設計了一種新的存儲類型,即原生的流存儲,命名為”Pravega”,取梵語中“Good Speed”之意。
在 Pravega 之前的流數據處理
在大數據繁榮的早期階段,MapReduce 興起,我們可以使用數千臺服務器的集群分布式處理大量(TB 至 PB 級別)的數據集。在一個或多個大數據集上運行的這種類型的分布式計算通常被稱為批處理作業。批處理作業使各種應用程序能夠從原始數據中獲得價值,這對于擁有龐大用戶數據的企業的成長起到了重要的作用。
對于大型數據集的批處理作業通常具有幾分鐘到幾小時的完成時間,如此長的延遲對于許多應用程序來說并不理想,例如推薦系統,使用***數據至關重要,但與此同時,處理的精準性也需要保證,即使最小程度的推薦失敗也可能最終導致用戶離開。加之硬件水平的提升,很快我們開始有了更高的要求。我們希望能夠跟上數據產生的步伐得到數據處理的結果,而不是等待數據積累然后才處理。低延遲流處理因此慢慢興起。我們將其稱為流處理,因為傳入的數據基本上是事件、消息或樣本的連續流。
許多對實時分析感興趣的公司并不愿意放棄 MapReduce 模型。為了解決延遲限制,一些應用程序開始使用微批 (micro-batch) 處理方法:在較短時間內累積的較小塊上運行作業。以 Apache Spark Streaming 為代表的微批處理會以秒級增量對流進行緩沖,然后在內存中進行計算。這種方式的實際效果非常好,它確實使應用程序能夠在更短的時間內獲得更高價值。
但由于緩沖機制的存在,微批處理仍然有著較高的延遲,為了滿足應用的低延遲需求,原生的流處理平臺的研發在近五年中不斷涌現,百花齊放。早期的系統包括 S4 和 Apache Storm。Storm 使用成熟,有社區基礎,至今仍然被許多企業廣泛使用。Heron 是由 Twitter 研發的新一代流處理引擎,與 Storm 兼容的同時性能更優。Apache Samza 和 Kafka Stream 則基于 Apache Kafka 消息系統來實現高效的流處理。
由于批處理和流處理系統使用著不同的框架,企業為同時滿足實時和批處理的應用程序,不得不使用兩套獨立的計算基礎架構,計算的結果也同樣進入不同的框架以進行查詢。Storm 的創始人 Nathan Marz 由此提出了 Lambda 的大數據處理架構(如圖 1),將大數據平臺分割成了批處理層、流處理層和應用服務層。Lambda 架構遵循讀寫分離,復雜性隔離的原則,整合了離線計算和實時計算,集成 Hadoop,Kafka,Storm,Spark,Hbase 等各類大數據組件,使得兩種處理能夠在高容錯、低延時和可擴展的條件下平穩運行。
圖 1: Lambda 架構
隨著技術和架構的演進,近年來,工程師們開始意識到用流和批兩個詞來區分應用場景,進而給計算框架分類并不合適,兩種處理實質上有著許多共同點。在很多場景下,流和批處理應用同一套處理邏輯,卻不得不因為框架不同進行重復開發。數據在產生之時就沒有所謂批和流的概念,只是我們的處理方式不同才導致了數據屬性的不同,進而導致了框架的不同。
流和批本來就應該沒有界限!
LinkedIn 的 Jay Kreps(Apache Kafka 作者,現 Confluent CEO)提出了 Kappa 架構,將批處理層、流處理層簡化為一致性的流處理。谷歌工程師(Apache Beam 核心人物)Tyler Akidau 提出了 Dataflow 模型則致力于取代谷歌上一代的 MapReduce,將批處理(有限的數據流)視為流處理(***的數據流)的特例,重新定義大數據處理的原語。Apache Flink 作為新一代流處理框架的翹楚,其設計遵循 Dataflow 模型,從根本上統一了批處理和流處理。而 Apache Spark 也推翻了之前微批處理的設計,推出了 Structured Streaming,使用表和 SQL 的概念進行處理的統一。
有效地提取和提供數據對于流處理應用程序的成功至關重要。由于處理速度和頻率的不同,數據的攝取需要通過兩種策略進行。在典型的 Lambda 架構中,分布式文件系統(例如 HDFS)負責為批處理應用提供高并發、高吞吐量的數據,而消息隊列系統(例如 RocketMQ)負責為流處理應用提供數據臨時緩沖,發布 / 訂閱功能,數據不進行長時間的持久化保留。兩者無法整合也是目前 Kappa 架構對歷史數據處理能力有限的原因。
Pravega 設計宗旨是成為流的實時存儲解決方案。應用程序將數據持久化存儲到 Pravega 中,Pravega 的 Stream 可以有***制的數量并且持久化存儲任意長時間,使用同樣的 Reader API 提供尾讀 (tail read) 和追趕讀 (catch-up read) 功能,能夠有效滿足兩種處理方式的統一。
Pravega 支持僅一次處理 (exactly-once),可在 Kappa 架構上實現鏈接應用需求,以便將計算拆分為多個獨立的應用程序,這就是流式系統的微服務架構。我們所設想的架構是由事件驅動、連續和有狀態的數據處理的流式存儲 - 計算的模式(如圖 2)。
圖 2: 流處理的簡單生命周期
通過將 Pravega 流存儲與 Apache Flink 有狀態流處理器相結合,圖 2 中的所有寫、處理、讀和存儲都是獨立的、彈性的,并可以根據到達數據量進行實時動態擴展。這使我們所有人都能構建以前無法構建的流式應用,并將其從測試原型無縫擴展到生產環境。擁有了 Pravega,Kappa 架構得以湊齊了***的拼圖,形成了統一存儲、統一計算的閉環。
流式存儲的要求
我們使用的組件需要為它而設計,以滿足我們想實現的需求,不然就會像現今的大數據架構那樣,形成復雜性的堆砌。上述內容已經提到,現有的存儲引擎同時無法滿足兩種數據讀取的需求。結合實際的應用場景,總結所需要的特性,企業級流存儲引擎的實現相當有難度,因為它需要三種看似矛盾的系統功能:
- 能夠將數據視為連續和***的,而不是有限和靜態的
- 能夠通過自動彈性伸縮數據采集、存儲和處理能力,與負載保持協調一致,持續快速地交付結果
- 即使在延遲到達或出現亂序數據的情況下,也能連續交付準確的處理結果
讓我們具體深入上述特征,以當今業界應用最廣的分布式消息系統 Apache Kafka 作為對比,看看 Pravega 如何以今天存儲無法實現的方式實現它們。
將數據視為連續和***的
Kafka 源于 LinkedIn 的日志采集系統,采用分布式事務日志架構進行持久化層的管理。因此,Kafka 采用添加到文件的末尾并跟蹤其內容的方式模擬連續和***的數據流。然而文件既沒有針對此模式進行優化,也受限于本地文件系統的文件描述符以及磁盤容量,因此并非是***的。對于數據的可靠性,Kafka 使用同步副本(in-sync replica)方式進行,占用了更多的存儲的同時也意味著對吞吐率性能的受損。并且它們利用消息頭部的 header 記錄元數據以構造數據結構,使得它們不像字節序列那樣通用。
將這些想法拼接在一起, 我們提出了 Pravega 將從數據的角度支持的連續和***的特點:
- Pravega 的 Stream 是一個命名的、持久的、僅追加的、***的字節序列
- 使用低延遲追加尾寫并從序列的尾讀 (tail read/write)
- 具有來自序列較舊部分的高吞吐追趕讀 (catch-up read)
基于負載的自動 (zero-touch) 彈性伸縮特性 (scale up/scale down)
Kafka 通過將數據拆分為分區,并獨立處理來獲得并行性。這種做法由來已久,Hadoop 就使用了分區在 HDFS 和 MapReduce 實現了并行化的批處理。對于流式工作負載,傳統的分區有著很大的問題:分區會同時影響讀客戶端和寫客戶端。連續處理的讀寫操作所要求的并行程度通常各不相同,使其鏈接固定數量的分區就會增加實現復雜性。雖然可以添加分區以進行擴展,但這需要手動更新寫客戶端、讀客戶端和存儲。代價高昂,也并非動態縮放。
Pravega,專為動態和獨立擴展而設計,支持:
- 許多寫客戶端同時追加寫不相交的數據子集
- 寫入數據依靠路由鍵 (routing key) 寫入不同的 segment 以保證隔離性
- 讓應用程序為寫客戶端分配鍵
- 當鍵空間或寫客戶端發生改變時,對應的存儲不能有約束和改變
- 許多讀客戶端同時處理不相交的數據子集
- 讀取的數據分區不依賴于寫入分區
- 讀取的分區由存儲策略控制
- 使用 segment 概念代替物理的分區,且數量根據攝取流量進行自動連續的更新
連續處理數據生成準確的結果
連續計算要得到準確的結果需要僅一次處理 (exactly-once)。而僅一次處理語義對數據存儲有著明確的要求,數據寫入必須是:
- 持久化的
- 有序的
- 一致的
- 事務性的
這些關鍵屬性也是存儲系統設計中最困難的部分。如果沒有事先的設計考慮,后期就只能通過系統重構來完成這些特性。
持久性意味著一旦寫入得到確認,即使遇到組件故障數據也不會丟失。持久性由于與失敗后數據重放相關因而至關重要。沒有持久化的系統意味著數據需要開發人員進行手動歸檔,將***副本存儲在歸檔系統(通常是 HDFS)中。Pravega 流式存儲通過數據寫入可持久化的分層存儲保證持久性,用戶能夠***可靠地保存流數據。
有序性意味著讀客戶端將按照寫入的順序處理數據,Kafka 保證了消費者組內部是有序的。對于 Pravega 這樣的通過路由鍵 (routing key) 來實現分區的系統而言,有序僅對具有相同鍵的數據有意義。例如擁有數百萬傳感器的物聯網系統中,sensor-ID.metric 可能作為鍵,Pravega 的 Stream 能夠保證讀取該傳感器的數據將按其寫入的順序進行。對于使用增量更新計算的聚合函數之類的應用,有序性是必不可少的。
一致性意味著即使面對組件故障,而且無論是從流的尾讀還是追趕讀,所有讀客戶端都會看到給定鍵的相同的有序數據視圖。與持久性一樣,Pravega 的一致性僅依靠存儲系統的一致性是不夠的。對 Pravega 而言,寫客戶端的寫入操作是冪等的,而寫入的數據對于 Pravega 而言也是不透明的(無法再次進行修改),我們以此實現了強一致性。我們基于 Pravega 的強一致性還抽象出了狀態同步器的 API,用戶可以在此之上構建輕量級的其它分布式系統的狀態同步。
事務性寫入對于跨鏈接的應用程序一次完全正確是必要的。不僅 Pravega 本身支持事務性的寫入,更和 Apache Flink 的 Sink 集成,在 Flink 檢查點之間建立事務,通過分布式兩階段提交協議支持端到端的事務和僅一次處理。
參 考
官網:http://pravega.io
GitHub 鏈接:https://github.com/pravega/pravega/
http://blog.pravega.io/2017/04/09/storage-reimagined-for-a-streaming-world/
http://blog.pravega.io/2017/12/14/i-have-a-stream/
作者介紹滕昱: 就職于 DellEMC 非結構化數據存儲部門 (Unstructured Data Storage) 團隊并擔任軟件開發總監。2007 年加入 DellEMC 以后一直專注于分布式存儲領域。參加并領導了中國研發團隊參與兩代 DellEMC 對象存儲產品的研發工作并取得商業上成功。從 2017 年開始,兼任 Streaming 存儲和實時計算系統的設計開發工作。
周煜敏:復旦大學計算機專業研究生,從本科起就參與 DellEMC 分布式對象存儲的實習工作。現參與 Flink 相關領域研發工作。