Apache Kafka 最初由 LinkedIn 公司基于独特的设计实现为一个分布式的提交日志系统,之后成为 Apache 项目的一部分,号称大数据的杀手锏,在数据采集、传输、存储的过程中发挥着举足轻重的作用。
它是一个分布式的,支持多分区、多副本,基于 Zookeeper 的分布式消息流平台,它同时也是一款开源的基于发布订阅模式的消息引擎系统。
重要概念
- 主题(Topic):消息的种类称为主题,可以说一个主题代表了一类消息,相当于是对消息进行分类,主题就像是数据库中的表。
- 分区(partition):主题可以被分为若干个分区,同一个主题中的分区可以不在一个机器上,有可能会部署在多个机器上,由此来实现 kafka 的伸缩性。
- 批次:为了提高效率, 消息会分批次写入 Kafka,批次就代指的是一组消息。
- 消费者群组(Consumer Group):消费者群组指的就是由一个或多个消费者组成的群体。
- Broker: 一个独立的 Kafka 服务器就被称为 broker,broker 接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘保存。
- Broker 集群:broker 集群由一个或多个 broker 组成。
- 重平衡(Rebalance):消费者组内某个消费者实例挂掉后,其他消费者实例自动重新分配订阅主题分区的过程。
Kafka 架构
一个典型的 Kafka 集群中包含 Producer、broker、Consumer Group、Zookeeper 集群。
Kafka 通过 Zookeeper 管理集群配置,选举 leader,以及在 Consumer Group 发生变化时进行 rebalance。Producer 使用 push 模式将消息发布到 broker,Consumer 使用 pull 模式从 broker 订阅并消费消息。
![Kafka架构及工作原理 图片[1]-Kafka架构及工作原理-不念博客](https://www.bunian.cn/wp-content/uploads/2023/11/640-1-18.png)
Kafka 工作原理
消息经过序列化后,通过不同的分区策略,找到对应的分区。
相同主题和分区的消息,会被存放在同一个批次里,然后由一个独立的线程负责把它们发到 Kafka Broker 上。
![Kafka架构及工作原理 图片[2]-Kafka架构及工作原理-不念博客](https://www.bunian.cn/wp-content/uploads/2023/11/640-2-15.png)
分区的策略包括顺序轮询、随机轮询和 key hash 这 3 种方式,那什么是分区呢?
分区是 Kafka 读写数据的最小粒度,比如主题 A 有 15 条消息,有 5 个分区,如果采用顺序轮询的方式,15 条消息会顺序分配给这 5 个分区,后续消费的时候,也是按照分区粒度消费。
![Kafka架构及工作原理 图片[3]-Kafka架构及工作原理-不念博客](https://www.bunian.cn/wp-content/uploads/2023/11/640-3-12.png)
由于分区可以部署在多个不同的机器上,所以可以通过分区实现 Kafka 的伸缩性,比如主题 A 的 5 个分区,分别部署在 5 台机器上,如果下线一台,分区就变为 4。
Kafka 消费是通过消费群组完成,同一个消费者群组,一个消费者可以消费多个分区,但是一个分区,只能被一个消费者消费。
![Kafka架构及工作原理 图片[4]-Kafka架构及工作原理-不念博客](https://www.bunian.cn/wp-content/uploads/2023/11/640-4-13.png)
如果消费者增加,会触发 Rebalance,也就是分区和消费者需要重新配对。
不同的消费群组互不干涉,比如下图的 2 个消费群组,可以分别消费这 4 个分区的消息,互不影响。
![Kafka架构及工作原理 图片[5]-Kafka架构及工作原理-不念博客](https://www.bunian.cn/wp-content/uploads/2023/11/640-5-8.png)