成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據流處理:Flume、Kafka和NiFi對比

新聞 大數據 Kafka
在構建大數據流水線時,我們需要考慮處理數據的數量,種類和速度,這些數據通常出現在Hadoop生態系統的入口。

在構建大數據流水線時,我們需要考慮處理數據的數量,種類和速度,這些數據通常出現在Hadoop生態系統的入口。在決定采用哪種工具來滿足我們的要求時,都會考慮到可擴展性、可靠性、適應性、開發時間方面的成本等初步因素。在本文中,我們將簡要介紹三種Apache處理工具:Flume,Kafka和NiFi。這三種產品都具有出色的性能,可以橫向擴展,并提供插件機制,可通過自定義組件擴展功能。

Apache Flume

Flume部署由一個或多個使用拓撲配置的代理組成。Flume代理是一個JVM進程,它承載Flume拓撲的基本構建塊,即源、通道和接收器。Flume客戶機將事件發送到源,該源將這些事件成批放置到名為channel的臨時緩沖區中,然后從該緩沖區中數據流到連接到數據最終目的地的接收器。接收器也可以是其他Flume代理的后續數據源。代理可以被鏈接,并且每個代理都有多個源、通道和接收器。

大數據流處理:Flume、Kafka和NiFi對比

Flume是一個分布式系統,可用于收集、聚合流事件并將其傳輸到Hadoop中。它有許多內置的源、通道和接收器,例如Kafka通道和Avro接收器。Flume是基于配置的,它有攔截器來對通道中的數據執行簡單的轉換。

如果不小心,使用Flume很容易丟失數據。例如,為高吞吐量選擇內存通道有一個缺點,即當代理節點關閉時,數據將丟失。文件通道將以增加延遲為代價提供持久性。即使如此,由于數據沒有復制到其他節點,因此文件通道僅與底層磁盤一樣的可靠性。Flume通過多跳/扇入扇出流提供了可伸縮性。對于高可用性(HA),可以水平擴展代理。

Apache Kafka

Kafka是一種分布式、高吞吐量的消息總線,它將數據生產者與消費者分離開來。消息被組織成主題,主題被拆分成分區,分區被跨集群中的節點(稱為代理)復制。與Flume相比,Kafka具有更好的可擴展性和消息持久性。Kafka現在有兩種風格:一種是“經典”的生產者/消費者模型,另一種是新的Kafka-Connect,它為外部數據存儲提供可配置的連接器(源/接收器)。

大數據流處理:Flume、Kafka和NiFi對比

Kafka可用于大型軟件系統組件之間的事件處理和集成。此外,Kafka附帶了Kafka流,它可以用于簡單的流處理,而不需要像Apache Spark或Apache Flink那樣的單獨集群。

由于消息被持久化在磁盤上,并且在集群中被復制,因此數據丟失情況不像Flume那樣常見。也就是說,無論是使用Kafka客戶端還是通過Connect API,生產者/來源和消費者/接收器通常都需要自定義編碼。與Flume一樣,消息大小也有限制。最后,為了能夠進行通信,Kafka的生產者和消費者必須就協議、格式和架構達成一致,這在某些情況下可能會有問題。

Apache NiFi

與Flume和Kafka不同,NiFi可以處理任意大小的消息。在基于Web的拖放式用戶界面后面,NiFi在集群中運行,并提供實時控制,使您可以輕松管理任何源和任何目標之間的數據移動。它支持不同格式、模式、協議、速度和大小的分散和分布式源。

NiFi可以用于具有嚴格安全性和合規性要求的關鍵任務數據流中,在那里我們可以可視化整個過程并實時進行更改。在撰寫本文時,它有近200個隨時可用的處理器(包括Flume和Kafka處理器),可以進行拖放、配置和立即投入使用。NiFi的一些關鍵特性是優先級排隊、數據跟蹤和每個連接的背壓閾值配置。 

盡管NiFi用于創建容錯生產管道,但它還沒有像Kafka那樣復制數據。如果一個節點發生故障,那么可以將流定向到另一個節點,但是排隊等待故障節點的數據必須等待該節點恢復。NiFi不是一個成熟的ETL工具,也不是復雜計算和事件處理(CEP)的理想選擇。為此,它應該連接到Apache Flink,Spark Streaming或Storm等流式傳輸框架。

組合

沒有哪個工具滿足您的所有要求。組合以更好方式執行不同操作的工具可以實現功能的增強,并提高處理更多場景的靈活性。根據您的需求,NiFi和Flume都可以充當Kafka生產者或消費者。

Flume-Kafka集成非常受歡迎,它有自己的名字:Flafka(我不是這樣做的)。Flafka包括Kafka源,Kafka通道和Kafka池。結合Flume和Kafka,Kafka可以避免自定義編碼并利用Flume經過實戰考驗的資源和接收器,通過Kafka通道的Flume事件將在Kafka代理中進行存儲和復制,以實現彈性。

組合工具可能看起來很浪費,因為它似乎在功能比較重疊。例如,NiFi和Kafka都提供了代理來連接生產者和消費者。但是,它們的做法不同:在NiFi中,大部分數據流邏輯不在生產者/消費者內部,而是在代理中,允許集中控制。NiFi的構建是為了做一件重要的事情:數據流管理。通過兩種工具的結合,NiFi可以充分利用Kafka可靠的流數據存儲,同時解決Kafka無法解決的數據流挑戰。

END

總結:

大數據流處理:Flume、Kafka和NiFi對比
責任編輯:張燕妮 來源: 大數據云技術
相關推薦

2019-06-18 13:51:08

大數據流處理新興市場

2017-06-29 14:10:35

NiFi數據數據源

2020-04-14 15:18:16

SparkFlink框架

2011-08-29 10:19:09

Microsoft S控制較大數據流

2016-11-08 11:07:07

大數據流StreamSets

2014-02-11 08:51:15

亞馬遜PaaSAppStream

2016-11-15 09:44:21

大數據批處理流處理

2022-11-17 11:52:35

pandasPySpark大數據

2014-11-11 10:47:19

hadoop數據流

2023-03-17 07:39:54

開源數據流技術

2011-12-14 15:57:13

javanio

2009-08-19 10:41:12

Java輸入數據流

2022-03-18 08:57:17

前端數據流選型

2022-08-26 17:08:51

KafkaRedi數據

2020-02-06 19:12:36

Java函數式編程編程語言

2017-08-09 13:30:21

大數據Apache Kafk實時處理

2023-11-13 11:01:25

數據技術

2023-08-31 16:47:05

反應式編程數據流

2017-08-14 10:30:13

SparkSpark Strea擴容

2022-07-11 06:00:00

物聯網數據流MQTT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最近中文字幕第一页 | 久久久久久免费毛片精品 | 亚洲网站在线观看 | 午夜视频一区二区 | 亚洲欧美中文日韩在线v日本 | 久久人人爽人人爽 | 一区二区三区国产精品 | 国产人成精品一区二区三 | 久久久国产精品一区 | 在线国产一区二区 | 一级毛片视频在线观看 | 色呦呦在线 | av黄色免费| 91精品国产91久久久久久 | 国产一区二区三区四区在线观看 | 亚洲导航深夜福利涩涩屋 | 九色网址 | 日韩一区二区三区在线看 | 日韩中文一区 | 欧美日高清 | 国产免费一区二区 | 九九九视频精品 | 在线伊人| 国产区在线 | 亚洲激情视频在线 | 黄色片在线免费看 | 91.com视频| 午夜视频在线免费观看 | 亚洲日日夜夜 | 亚洲男人的天堂网站 | 亚洲成人福利 | 亚洲第一区久久 | 国产一区二区三区在线 | 日韩亚洲欧美一区 | 国产欧美日韩综合精品一 | 精品一区二区av | 久久久成 | 国产午夜精品一区二区三区嫩草 | 亚洲国产精品久久久久婷婷老年 | 日韩在线视频免费观看 | 国产精品国产三级国产aⅴ中文 |