面試必問 | 聊聊Kafka的消費模型?
大家好,我是冰河~~
最近,有些讀者去頭條二面,被面試官問了一個關于Kafka的問題:多個Kafka消費者如何同時消費相同Topic下的相同Partition的數據? 看似一個簡單的問題,竟然把這位讀者問懵了!
今天,我們就一起來說說這個面試題,好了,開始今天的主題。
題目分析
首先,要明確面試官的問題:多個Kafka消費者如何同時消費相同Topic下的相同Partition的數據? 這個問題問的已經很明顯了,我們只要回答出如何讓多個Kafka消費者同時消費相同Topic下的相同Partition的數據就可以了。
為了能夠回答好這個問題,我們需要理解Kafka中的一個概念,就是 消費者組(Consumer Group)。消費者組是Kafka實現單播和廣播兩種消息模型的基礎和手段。
對于同一個Topic(主題)來說,每個消費者組都可以拿到這個Topic中的全部數據。消費者組內的所有消費者協調在一起來訂閱并消費Kafka Topic中的所有分區。這里,每個分區只能由同一個消費者組內的一個消費者來消費。
這里,為了更好的理解,我們簡單的畫一張Kafka消費消息的原理圖,如下所示。
在這張圖中,一個主題可以配置幾個分區,生產者發送的消息分發到不同的分區中,消費者接收數據的時候是按照消費者組來接收的,Kafka確保每個分區的消息只能被同一個消費者組中的同一個消費者消費。
如果想要重復消費,那么需要其他的消費者組來消費。Zookeerper中保存每個主題下的每個分區在每個消費者組中消費的offset。
新版kafka把這個offset保存到了一個__consumer_offsert的主題下。 這個__consumer_offsert有50個分區,通過將消費者組的id哈希值%50的值來確定要保存到那一個分區。這樣也是為了考慮到Zookeeper不擅長大量數據讀寫的原因。
所以,如果要一個消費者組用幾個消費者來同時消費Kafka中消息的話,可以使用多線程來讀取消息,一個線程相當于一個消費者實例。當消費者的數量大于分區的數量時,有些消費者線程會讀取不到數據。
擴展知識
這里,我們舉一個例子:假設一個主題 testTopic 被groupA消費了,現在啟動另外一個新的groupB來消費testTopic,默認testTopic-groupB的Offset不是0,而是在Kafka中還沒有建立這樣的一個Offset。
除非當testTopic 主題有數據的時候,groupB會收到該數據,該條數據也是第一條數據,此時,groupB的Offset并不是從0開始的,而是從剛初始化的Offset開始的, 除非顯式的用–from-beginning 來獲取從0開始的數據。
題目解答
多個Kafka消費者要想同時消費相同Topic下的相同Partition的數據,則需要將這些Kafka消費者放到不同的消費者組中。
好了,今天就到這兒吧,我是冰河,我們下期見~~
本文轉載自微信公眾號「冰河技術」,可以通過以下二維碼關注。轉載本文請聯系冰河技術公眾號。