成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Spark Streaming vs. Kafka Stream 哪個(gè)更適合你

大數(shù)據(jù) Kafka Spark
本文介紹了兩大常用的流式處理框架,Spark Streaming和Kafka Stream,并對他們各自的特點(diǎn)做了詳細(xì)說明,以幫助讀者在不同的場景下對框架進(jìn)行選擇。

[[195113]]

譯者注:本文介紹了兩大常用的流式處理框架,Spark Streaming和Kafka Stream,并對他們各自的特點(diǎn)做了詳細(xì)說明,以幫助讀者在不同的場景下對框架進(jìn)行選擇。以下是譯文。流式處理的需求每天都在增加,僅僅對大量的數(shù)據(jù)進(jìn)行處理是不夠的。數(shù)據(jù)必須快速地得到處理,以便企業(yè)能夠?qū)崟r(shí)地對不斷變化的業(yè)務(wù)環(huán)境做出反應(yīng)。流式處理是持續(xù)而又并發(fā)地對數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。流式處理是處理數(shù)據(jù)流或傳感器數(shù)據(jù)的理想平臺,而“復(fù)雜事件處理”(CEP)則利用了逐個(gè)事件處理和聚合等技術(shù)。對于實(shí)時(shí)數(shù)據(jù)處理功能,我們有很多選擇可以來實(shí)現(xiàn),比如Spark、Kafka Stream、Flink、Storm等。在這個(gè)博客中,我將討論Apache Spark和Kafka Stream的區(qū)別。

Apache Spark

Apache Spark是大規(guī)模數(shù)據(jù)處理的通用框架,支持多種不同的編程語言和概念,例如MapReduce、內(nèi)存處理、流式處理、圖形處理和機(jī)器學(xué)習(xí)。它也可以用于Hadoop的頂層。數(shù)據(jù)可以從多種來源(例如Kafka、Flume、Kinesis或TCP套接字)獲取,并且使用一些復(fù)雜的算法(高級功能,例如映射、歸約、連接和窗口等)對數(shù)據(jù)進(jìn)行處理。

 

在框架內(nèi)部,它的工作原理如下圖。 Spark Streaming接收實(shí)時(shí)輸入數(shù)據(jù)流,并將數(shù)據(jù)分成多個(gè)批次,然后由Spark引擎對其進(jìn)行處理,批量生成最終的結(jié)果流。

 

Spark Streaming提供了一個(gè)被稱為離散化數(shù)據(jù)流(discretized stream,縮寫為DStream)的高級抽象,它代表了一個(gè)持續(xù)的數(shù)據(jù)流。DStream可以從諸如Kafka、Flume或Kinesis等來源的輸入數(shù)據(jù)流中創(chuàng)建,或者通過對其他DStream執(zhí)行高級操作來創(chuàng)建。在框架內(nèi)部,DStream可以看成是一系列的RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)。

Kafka Stream

Kafka Streams是一個(gè)用于處理和分析數(shù)據(jù)的客戶端庫。它先把存儲在Kafka中的數(shù)據(jù)進(jìn)行處理和分析,然后將最終所得的數(shù)據(jù)結(jié)果回寫到Kafka或發(fā)送到外部系統(tǒng)去。它建立在一些非常重要的流式處理概念之上,例如適當(dāng)區(qū)分事件時(shí)間和處理時(shí)間、窗口支持,以及應(yīng)用程序狀態(tài)的簡單(高效)管理。同時(shí),它也基于Kafka中的許多概念,例如通過劃分主題進(jìn)行擴(kuò)展。此外,由于這個(gè)原因,它作為一個(gè)輕量級的庫可以集成到應(yīng)用程序中去。這個(gè)應(yīng)用程序可以根據(jù)需要獨(dú)立運(yùn)行、在應(yīng)用程序服務(wù)器中運(yùn)行、作為Docker容器,或通過資源管理器(如Mesos)進(jìn)行操作。

Kafka Streams直接解決了流式處理中的很多困難問題:

  • 毫秒級延遲的逐個(gè)事件處理。
  • 有狀態(tài)的處理,包括分布式連接和聚合。
  • 方便的DSL。
  • 使用類似DataFlow的模型對無序數(shù)據(jù)進(jìn)行窗口化。
  • 具有快速故障切換的分布式處理和容錯能力。
  • 無停機(jī)滾動部署。

Apache Spark可以與Kafka一起使用來傳輸數(shù)據(jù),但是如果你正在為新應(yīng)用程序部署一個(gè)Spark集群,這絕對是一個(gè)復(fù)雜的大問題。

為了克服這個(gè)復(fù)雜性,我們可以使用完整的流式處理框架,Kafka streams正是實(shí)現(xiàn)這個(gè)目的的***選擇。

 

我們的目標(biāo)是簡化流式處理,使之成為異步服務(wù)的主流應(yīng)用程序編程模型。這是我知道的***個(gè)庫,它充分利用了Kafka,而不僅僅把Kafka當(dāng)做是一個(gè)信息中介。

Streams建立在KTables和KStreams的概念之上,這有助于他們提供事件時(shí)間處理。

給出一個(gè)與Kafka的核心抽象高度集成的處理模型,能夠減少流式架構(gòu)中移動件的總數(shù)。

將狀態(tài)表與事件流完全整合起來,并在單個(gè)概念框架中提供這兩個(gè)東西,這使得Kafka Streams完全成為一個(gè)嵌入式的庫,而不是流式處理集群(只是Kafka和你的應(yīng)用程序)。當(dāng)你向應(yīng)用程序加入了一個(gè)新的實(shí)例,或者現(xiàn)有的實(shí)例發(fā)生崩潰的時(shí)候,它能夠自動均衡負(fù)載,并維護(hù)表的本地狀態(tài),使得系統(tǒng)能夠從故障中恢復(fù)出來。

Kafka Streams具備低延遲的特點(diǎn),并且支持易于使用的事件時(shí)間。它是一個(gè)非常重要的庫,非常適合某些類型的任務(wù)。這也是為什么一些設(shè)計(jì)可以針對Kafka的工作原理進(jìn)行深入地優(yōu)化的原因。你不需要設(shè)置任何種類的Kafka Streams集群,也沒有集群管理器。如果你需要實(shí)現(xiàn)一個(gè)簡單的Kafka的主題到主題的轉(zhuǎn)換、通過關(guān)鍵字對元素進(jìn)行計(jì)數(shù)、將另一個(gè)主題的數(shù)據(jù)加載到流上,或者運(yùn)行聚合或只執(zhí)行實(shí)時(shí)處理,那么Kafka Streams適合于你。

如果事件時(shí)間不相關(guān),并且秒級的延遲可以接受,那么Spark是你的***選擇。它相當(dāng)穩(wěn)定,并且可以很容易地集成到幾乎任何類型的系統(tǒng)中去。此外,每個(gè)Hadoop發(fā)行版都包含它。而且,用于批處理應(yīng)用程序的代碼也可以用于流式應(yīng)用程序,因?yàn)锳PI是相同的。

結(jié)論

我認(rèn)為,Kafka Streams最適用于“Kafka > Kafka”場景,而Spark Streaming可用于“Kafka > 數(shù)據(jù)庫”或“Kafka > 數(shù)據(jù)科學(xué)模型“這樣的場景。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2015-09-16 11:29:46

超融合架構(gòu)軟件定義存儲

2022-01-25 19:36:46

ChromeBrave瀏覽器

2022-01-26 10:26:57

ChromeBrave網(wǎng)頁瀏覽器

2024-04-03 08:28:31

GolangPHP語言

2016-05-31 11:00:43

數(shù)據(jù)中心數(shù)據(jù)中心硬件數(shù)據(jù)中心搭建

2019-08-21 08:29:23

云計(jì)算內(nèi)部部署軟件

2023-07-11 17:50:04

操作系統(tǒng)Ubuntu

2021-07-30 11:16:38

云存儲本地存儲

2021-12-07 11:18:40

前端代碼規(guī)范工具開發(fā)

2019-05-24 11:13:51

AWSAzureGoogle

2021-12-03 10:15:10

FlowTypescript開發(fā)

2025-02-04 13:34:14

2021-02-23 08:00:00

LinuxUbuntu微軟

2024-03-19 08:36:19

2019-04-30 10:24:24

混合云多云云計(jì)算

2009-02-25 19:47:54

IT認(rèn)證思科認(rèn)證微軟認(rèn)證

2023-10-18 07:43:55

Redis數(shù)據(jù)存儲

2020-04-17 15:00:04

IntelliJIDEAJava

2023-08-29 11:37:10

云計(jì)算數(shù)據(jù)中心

2010-07-13 16:15:49

XenServer5.6
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲www啪成人一区二区麻豆 | 国产精品久久久久久中文字 | 国产成人网| 久久夜色精品国产 | 久久视频免费看 | 日韩欧美专区 | 日韩中文字幕 | 国产精品免费高清 | 国产精品日日做人人爱 | 视频一区二区国产 | 成人免费在线观看视频 | 国产高清久久 | 91久久久久久久久 | 一区精品视频 | 国产精品色 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 国产做a爱免费视频 | 久久久久久成人 | 99热.com| 免费在线观看成人 | 成人精品国产免费网站 | 欧美久久久久久 | 男人天堂视频在线观看 | 亚洲在线 | 国产精品久久亚洲 | 亚洲综合一区二区三区 | 久艹av | 日韩欧美在线一区二区 | 亚洲精品国产第一综合99久久 | 另类亚洲视频 | 91p在线观看 | 久久国产一区二区三区 | 久久精品亚洲精品国产欧美 | 亚洲欧美中文日韩在线 | 日韩羞羞 | 日韩久久综合网 | 日韩一级欧美一级 | 综合色在线 | 成人精品久久 | 日日操av | 狠狠入ady亚洲精品经典电影 |