成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高并發幾十萬的寫入,Kafka是如何實現的?

開發 架構 Kafka
當下流行的MQ有很多,因為我們公司在技術選型上選擇了使用Kafka,所以我就整理了一篇關于Kafka的入門知識。通過技術選型 我們對業界主流的MQ進行了對比,Kakfa最大的優點就是吞吐量高 。

 [[285197]]

開篇

當下流行的MQ有很多,因為我們公司在技術選型上選擇了使用Kafka,所以我就整理了一篇關于Kafka的入門知識。通過技術選型 我們對業界主流的MQ進行了對比,Kakfa最大的優點就是吞吐量高 。

Kafka是高吞吐低延遲的高并發、高性能的消息中間件,在大數據領域有極為廣泛的運用。配置良好的Kafka集群甚至可以做到每秒幾十萬、上百萬的超高并發寫入。

那么Kafka是如何做到這么高的吞吐量和性能的呢?在入門之后我們就來深入的扒一下Kafka的架構設計原理,掌握這些原理在互聯網面試中會占據優勢

持久化

Kafka對消息的存儲和緩存依賴于文件系統,每次接收數據都會往磁盤上寫,人們對于“磁盤速度慢”的普遍印象,使得人們對于持久化的架構能夠提供強有力的性能產生懷疑。

事實上,磁盤的速度比人們預期的要慢的多,也快得多,這取決于人們使用磁盤的方式。而且設計合理的磁盤結構通??梢院途W絡一樣快。

 

高并發幾十萬的寫入,Kafka是如何實現的?

 

通過上圖對比,我們可以看出實際上順序磁盤訪問在某些情況下比隨機內存訪問還要快,其實Kafka就是利用這一優勢來實現高性能寫磁盤

See:http://kafka.apachecn.org/documentation.html#persistence

頁緩存技術 + 磁盤順序寫

Kafka 為了保證磁盤寫入性能,首先Kafka是基于操作系統的頁緩存來實現文件寫入的。

操作系統本身有一層緩存,叫做page cache,是在內存里的緩存,我們也可以稱之為os cache,意思就是操作系統自己管理的緩存。

你在寫磁盤文件的時候,可以直接寫入os cache 中,也就是僅僅寫入內存中,接下來由操作系統自己決定什么時候把os cache 里的數據真的刷入到磁盤中。

 

高并發幾十萬的寫入,Kafka是如何實現的?

 

通過上圖這種方式可以將磁盤文件的寫性能提升很多,其實這種方式相當于寫內存,不是在寫磁盤

順序寫磁盤

另外還有非常關鍵的一點,Kafka在寫數據的時候是以磁盤順序寫的方式來落盤的,也就是說,僅僅將數據追加到文件的末尾(append),而不是在文件的隨機位置來修改數據。

對于普通的機械硬盤如果你要是隨機寫的話,確實性能極低,這里涉及到磁盤尋址的問題。但是如果只是追加文件末尾按照順序的方式來寫數據的話,那么這種磁盤順序寫的性能基本上可以跟寫內存的性能本身是差不多的。

來總結一下: Kafka就是基于頁緩存技術 + 磁盤順序寫 技術實現了寫入數據的超高性能。

所以要保證每秒寫入幾萬甚至幾十萬條數據的核心點,就是盡最大可能提升每條數據寫入的性能,這樣就可以在單位時間內寫入更多的數據量,提升吞吐量。

零拷貝技術(zero-copy)

說完了寫入這塊,再來談談消費這塊。

大家應該都知道,從Kafka里我們經常要消費數據,那么消費的時候實際上就是要從kafka的磁盤文件里讀取某條數據然后發送給下游的消費者,如下圖所示:

 

高并發幾十萬的寫入,Kafka是如何實現的?

 

如果Kafka以上面這種方式從磁盤中讀取數據發送給下游的消費者,大概過程是:

  1. 先看看要讀的數據在不在os cache中,如果不在的話就從磁盤文件里讀取數據后放入os cache
  2. 接著從操作系統的os cache 里拷貝數據到應用程序進程的緩存里,再從應用程序進程的緩存里拷貝數據到操作系統層面的Socket緩存里,最后從Soket緩存里提取數據后發送到網卡,最后發送出去給下游消費者

整個過程如下圖:

 

高并發幾十萬的寫入,Kafka是如何實現的?

 

從上圖可以看出,這整個過程有兩次沒必要的拷貝

一次是從操作系統的cache里拷貝到應用進程的緩存里,接著又從應用程序緩存里拷貝回操作系統的Socket緩存里。

而且為了進行這兩次拷貝,中間還發生了好幾次上下文切換,一會兒是應用程序在執行,一會兒上下文切換到操作系統來執行。

所以這種方式來讀取數據是比較消耗性能的。

Kafka 為了解決這個問題,在讀數據的時候是引入零拷貝技術。

也就是說,直接讓操作系統的cache中的數據發送到網卡后傳出給下游的消費者,中間跳過了兩次拷貝數據的步驟,Socket緩存中僅僅會拷貝一個描述符過去,不會拷貝數據到Socket緩存。

 

高并發幾十萬的寫入,Kafka是如何實現的?

 

體會一下這個精妙的過程吧

通過零拷貝技術,就不需要把os cache里的數據拷貝到應用緩存,再從應用緩存拷貝到Socket緩存了,兩次拷貝都省略了,所以叫做零拷貝。

對Socket緩存僅僅就是拷貝數據的描述符過去,然后數據就直接從os cache中發送到網卡上去了,這個過程大大的提升了數據消費時讀取文件數據的性能。

而且大家會注意到,在從磁盤讀數據的時候,會先看看os cache內存中是否有,如果有的話,其實讀數據都是直接讀內存的。

如果kafka集群經過良好的調優,大家會發現大量的數據都是直接寫入os cache中,然后讀數據的時候也是從os cache中讀。

相當于是Kafka完全基于內存提供數據的寫和讀了,所以這個整體性能會極其的高。

總結

通過學習Kafka的優秀設計,我們了解了Kafka底層的頁緩存技術的使用,磁盤順序寫的思路,以及零拷貝技術的運用,才能使得Kafka有那么高的性能,做到每秒幾十萬的吞吐量。

名詞解釋

吞吐量(TPS):吞吐量是指對網絡、設備、端口、虛電路或其他設施,單位時間內成功地傳送數據的數量(以比特、字節、分組等測量)

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2022-09-10 18:54:14

Kafka零拷貝磁盤

2019-03-06 09:36:12

Kafka緩存磁盤

2020-11-10 07:46:09

服務器高并發高性能

2025-05-26 02:11:00

2024-11-08 13:36:09

2015-08-20 11:09:53

準入控制盈高

2022-05-27 09:25:49

數據并發

2019-06-05 07:47:32

Nginx高并發多線程

2020-12-28 10:21:00

人工智能機器學習技術

2025-06-12 02:15:00

Kafka消費者高并發

2012-06-18 09:29:38

2018-02-27 14:30:17

2021-08-26 08:24:33

高并發秒殺系統

2019-06-06 10:55:02

JDK高并發框架

2021-07-13 09:45:13

高并發項目經驗

2019-04-25 09:36:18

Kafka高可靠高可用

2025-01-03 09:36:22

Nginx高并發進程

2021-07-06 06:39:58

Kafka消息隊列系統

2025-02-14 03:00:00

2014-10-22 09:52:48

用友HCM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频免费看 | 人人干人人干人人 | 久久久精 | 91久久国产综合久久 | 亚洲精品国产电影 | 精品一区二区久久 | av看片网站| 亚洲欧美激情精品一区二区 | 亚洲福利 | 欧美一级在线观看 | 国产亚洲一区二区在线观看 | 亚洲精品2区 | 久久国产欧美日韩精品 | 日本一区二区三区四区 | 在线精品一区二区三区 | www.788.com色淫免费| 香蕉一区 | 国产视频福利在线观看 | 久久久久久高潮国产精品视 | 91精品国产综合久久精品图片 | 怡红院免费的全部视频 | 色噜噜色综合 | 久久精品国产亚洲夜色av网站 | 美女久久 | 中文字幕成人 | 久久免费国产视频 | 一级片aaa| 成人午夜免费网站 | 亚洲91精品| 久久国产欧美日韩精品 | 亚洲热在线视频 | 欧美一区二区三区电影 | 久久久久久国产精品免费免费狐狸 | 国产精品免费一区二区三区四区 | 国产成人精品一区二区 | 97综合在线 | 欧美性猛交一区二区三区精品 | 中文字幕视频一区 | 国产成人精品综合 | 古装三级在线播放 | 国产成人一区二区三区精 |