《吃透 MQ 系列》之扒開 Kafka 的神秘面紗

作者：駱俊武 2021-03-28 20:44:34

開發(fā) 架構(gòu) Kafka

這篇文章拖更了好幾周，起初的想法是：圍繞每一個具體的消息中間件，不僅要寫透，而且要控制好篇幅，寫下來發(fā)現(xiàn)實在太難了，兩者很難兼得。

[[390063]]

大家好，我是武哥。這是《吃透 MQ 系列》的第二彈，有些珊珊來遲，后臺被好幾個讀者催更了，實屬抱歉!

最后決定還是分成多篇寫吧。一方面，能加快下輸出頻率;另一方面，大家也更容易消化。

廢話不多說了，第二彈開始發(fā)車。

01 為什么從 Kafka 開始?

《吃透 MQ 》的開篇圍繞 MQ 「一發(fā)一存一消費」的本質(zhì)展開，講解了 MQ 的通用知識，同時系統(tǒng)性地回答了：如何著手設(shè)計一個 MQ?

從這篇文章開始，我會講解具體的消息中間件，之所以選擇從 Kafka 開始，有 3 點考慮：

第一，RocketMQ 和 Kafka 是目前最熱門的兩種消息中間件，互聯(lián)網(wǎng)公司應(yīng)用最為廣泛，將作為本系列的重點。

第二，從 MQ 的發(fā)展歷程來看，Kafka 先于 RocketMQ 誕生，并且阿里團隊在實現(xiàn) RocketMQ 時，充分借鑒了 Kafka 的設(shè)計思想。掌握了 Kafka 的設(shè)計原理，后面再去理解 RocketMQ 會容易很多。

第三，Kafka 其實是一個輕量級的 MQ，它具備 MQ 最基礎(chǔ)的能力，但是在延遲隊列、重試機制等高級特性上并未做支持，因此降低了實現(xiàn)復(fù)雜度。從 Kafka 入手，有利于大家快速掌握 MQ 最核心的東西。

交代完背景，下面請大家跟著我的思路，一起由淺入深地分析下 Kafka。

02 扒開 Kafka 的面紗

在深入分析一門技術(shù)之前，不建議上來就去了解架構(gòu)以及技術(shù)細節(jié)，而是先弄清楚它是什么?它是為了解決什么問題而產(chǎn)生的?

掌握這些背景知識后，有利于我們理解它背后的設(shè)計考慮以及設(shè)計思想。

在寫這篇文章時，我查閱了很多資料，關(guān)于 Kafka 的定義可以說五花八門，不仔細推敲很容易懵圈，我覺得有必要帶大家捋一捋。

我們先看看 Kafka 官網(wǎng)給自己下的定義：

Apache Kafka is an open-source distributed event streaming platform.

翻譯成中文就是：Apache Kafka 是一個開源的分布式流處理平臺。

Kafka 不是一個消息系統(tǒng)嗎?為什么被稱為分布式的流處理平臺呢?這兩者是一回事嗎?

一定有讀者會有這樣的疑問，要解釋這個問題，需要先從 Kafka 的誕生背景說起。

Kafka 最開始其實是 Linkedin 內(nèi)部孵化的項目，在設(shè)計之初是被當(dāng)做「數(shù)據(jù)管道」，用于處理以下兩種場景：

1、運營活動場景：記錄用戶的瀏覽、搜索、點擊、活躍度等行為。
2、系統(tǒng)運維場景：監(jiān)控服務(wù)器的 CPU、內(nèi)存、請求耗時等性能指標。

可以看到這兩種數(shù)據(jù)都屬于日志范疇，特點是：數(shù)據(jù)實時生產(chǎn)，而且數(shù)據(jù)量很大。

Linkedin 最初也嘗試過用 ActiveMQ 來解決數(shù)據(jù)傳輸問題，但是性能無法滿足要求，然后才決定自研 Kafka。

所以從一開始，Kafka 就是為實時日志流而生的。了解了這個背景，就不難理解 Kafka 與流數(shù)據(jù)的關(guān)系了，以及 Kafka 為什么在大數(shù)據(jù)領(lǐng)域有如此廣泛的應(yīng)用?也是因為它最初就是為解決大數(shù)據(jù)的管道問題而誕生的。

接著再解釋下：為什么 Kafka 被官方定義成流處理平臺呢?它不就提供了一個數(shù)據(jù)通道能力嗎，怎么還和平臺扯上關(guān)系了?

這是因為 Kafka 從 0.8 版本開始，就已經(jīng)在提供一些和數(shù)據(jù)處理有關(guān)的組件了，比如：