Kafka入门04——原理分析

这篇具有很好参考价值的文章主要介绍了Kafka入门04——原理分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

01理解Topic和Partition

Topic(主题)

Partition(分区)

02理解消息分发

消息发送到分区

消费者订阅和消费指定分区

总结

03再均衡(rebalance)

再均衡的触发

分区分配策略

RangeAssignor(范围分区)

RoundRobinAssignor(轮询分区)

StickyAssignor(粘性分区)

Rebalance执行者Coordinator

再均衡的过程

再均衡的目的

04消费者读取消息Offset

消费者 Offset 的作用

重平衡和 Offset


Kafka入门04——原理分析,消息队列,kafka,分布式

01理解Topic和Partition

Topic 是消息的逻辑分类,而 Partition 是物理存储单元。在 Apache Kafka 中,Topic 和 Partition 是两个核心概念,它们用于管理消息的发布、存储和消费。不同的topic消息是分开存储的,同一topic下的不同分区包含的消息是不同的。

以下是对 Topic 和 Partition 的详细解释:

Topic(主题)
  1. Topic 是消息的逻辑容器:Topic 是 Kafka 中的消息分类或主题,它是消息的逻辑容器,类似于消息的类别或主题。生产者将消息发布到特定的 Topic,而消费者则订阅 Topic 来接收消息。

  2. 消息发布到 Topic:生产者将消息发布到一个或多个 Topic,可以根据业务需求创建不同的 Topic,每个 Topic 用于存储特定类型或主题的消息。

Partition(分区)
  1. 分区是消息的物理存储单元:分区是 Topic 的物理存储单元,它实际上是一个独立的消息日志文件。每个分区都包含一定范围的消息,消息以消息偏移量进行标识。

  2. 分区提供水平扩展:Kafka 允许为每个 Topic 配置多个分区,这些分区可以分布在不同的 Kafka 代理节点上,以提供水平扩展和分布负载的能力。

  3. 消息的顺序性:每个分区中的消息保持顺序性,即消息按照它们写入的顺序存储。这有助于维护消息的顺序性,特别对于需要处理有序数据的应用程序很重要。

  4. 多个消费者可以并行读取:多个消费者可以并行读取同一 Topic 的不同分区,以提高读取性能。这允许 Kafka 处理大规模的数据流和事件。

Kafka入门04——原理分析,消息队列,kafka,分布式

02理解消息分发

消息时Kafka中最基本的数据单元,在Kafka中,一条消息由key、value两部分组成。消息的发送由生产者负责。Kafka 的消息分发机制涉及生产者将消息发送到分区和消费者如何订阅和消费指定分区的消息。

消息发送到分区
  1. 消息键(Message Key):Kafka 生产者可以为每条消息指定一个消息键。消息键是一个字符串,它被用于确定消息应该发送到哪个分区。如果消息键为空,Kafka 生产者会使用分区分配策略来选择目标分区。

  2. 分区分配策略:Kafka 提供多种分区分配策略,例如轮询、随机、按键等策略。这些策略用于决定将消息发送到哪个分区。

  3. 生产者发送消息:生产者将消息与消息键一起发送到 Kafka 主题。如果指定了消息键,分区分配策略将使用消息键来选择目标分区。如果没有指定消息键,分区分配策略将使用轮询或其他默认策略。

消费者订阅和消费指定分区
  1. 消费者组:消费者通常以消费者组(Consumer Group)的形式消费消息。每个消费者组可以有多个消费者,它们一起消费主题中的消息。

  2. 订阅主题:消费者组通过订阅主题来指定要消费的消息来源。消费者组可以订阅一个或多个主题。

  3. 分区分配策略:Kafka 提供了分区分配策略,这些策略用于将分区分配给消费者组中的不同消费者。分区分配策略可以是轮询、最少分区、按键等策略。分区分配策略确保分区在消费者组中均匀分布。

  4. 消费指定分区:消费者可以通过分区分配策略订阅特定的分区,这样它们只会消费来自这些分区的消息。这是一种高度灵活的方式,允许消费者精确控制它们所消费的消息。

Kafka入门04——原理分析,消息队列,kafka,分布式

关于消费者消费消息:

  • 消费者组里的3个消费者会分别消费3个分区的消息,如果组里只有2个消费者,还是3个分区的情况下,那么有一个消费者会消费两个分区的消息,由策略决定。

  • Kafka的设计上,分区是不允许并发的,所以消费者数量大于分区数量是浪费

  • 当消费者少于分区的时候,需要尽可能保证读取均匀

  • 消费者从多个分区读数据不能保证总体的顺序性,只能保证单个分区数据的顺序性

  • 增减分区(partition)、消费者(consumer)以及节点(broker)都会导致再均衡(rebalance)

总结
  • 生产者发送消息时,可以选择是否指定消息键,以及采用哪种分区分配策略。

  • 消费者通常以消费者组的形式订阅主题,分区分配策略确保消息分布均匀。

  • 消费者可以选择消费特定的分区,从而控制它们所消费的消息。

03再均衡(rebalance)

Kafka 中的再均衡(Rebalance)是指在消费者组中发生变化(如有新消费者加入或旧消费者离开)时,Kafka 会重新分配分区以确保消息的均匀分发。再均衡是 Kafka 消费者组的核心机制,它确保消息的负载均衡和高可用性。

再均衡的触发
  1. 新消费者加入:当一个新消费者加入消费者组时,会触发再均衡。新消费者会参与到消费者组的分区分配中。

  2. 消费者离开:当一个消费者离开消费者组时,也会触发再均衡。分区将被重新分配给其它消费者。

  3. 分区数变化:如果 Kafka 主题的分区数发生变化,也可能触发再均衡,以确保新的分区能够被消费者组消费。

分区分配策略

Kafka 使用分区分配策略来决定分区如何分配给消费者。再均衡会触发分区分配。

常见的三种分区分配策略,Range(默认)、RoundRobin(轮询)和StickyAssignor(粘性)。

  1. RangeAssignor(范围分区)

    将同一主题中的分区按序号排序,对消费者按字母顺序排序。

    假设 :n = 分区数/消费者数量,m = 分区数%消费者数量

    那么前m个消费者每个分配n+1个分区,剩余的消费者每个分配n个分区

    例如:10个分区,3个消费者。(n = 10 /3 = 3,m = 10 % 3 = 1)

    结果:消费者A对应分区0,1,2,3。消费者B对应分区4,5,6。消费者C对应分区7,8,9。

  2. RoundRobinAssignor(轮询分区)

    将所有分区和消费者按照hashcode进行排序,通过轮询的方式分配给消费者。

    例如:10个分区的排序为0,2,3,4,1,8,6,9,5,7。消费者是A、B、C、D。

    结果: A对应分区0,1,5。B对应分区2,8,7。C对应分区3,6。D对应分区4,9。

  3. StickyAssignor(粘性分区)

    也叫粘滞策略,主要两个目的:

    • 分区的分配尽可能均匀

    • 分区的分配尽可能和上次分配保持相同

Rebalance执行者Coordinator

Kafka中指定了Coordinator负责再均衡的分区分配和消费者组的管理。Coordinator的确定:消费者向Kafka集群中的任意一个broker发送一个GroupCoordinatorRequest请求,服务端会返回一个负载均衡最小的broker节点的id,并将该broker设置为coordinator。

再均衡的过程
  1. 当再均衡触发时,Kafka 协调器(Coordinator)会协调分区的重新分配。协调器是 Kafka 服务中的一个组件,负责处理消费者组的管理和再均衡。

  2. 消费者向协调器发送它们当前持有的分区信息,协调器根据分区分配策略计算新的分区分配方案。

  3. 一旦计算出新的分区分配方案,协调器将新分配的分区信息通知给每个消费者。

  4. 消费者根据新的分区分配方案重新分配和管理分区,开始消费分配给它们的消息。

再均衡的目的
  • 均衡消费者间的分区负载,确保每个消费者处理大致相等数量的消息。

  • 支持高可用性:如果某个消费者发生故障,分区可以重新分配给其它活跃的消费者,以确保消息不会丢失。

再均衡是 Kafka 消费者组维护整体的负载均衡和可用性的关键机制。

04消费者读取消息Offset

消费者读取消息的偏移量(Offset)是非常重要的,它用于跟踪已消费的消息位置。Kafka 使用 Offset 来确保消息的有序和不重复传递。

消费者 Offset 的作用
  1. 消息的位置:Offset 表示消费者在一个特定分区中的消息位置。它是一个整数值,每个分区都有自己的 Offset。

  2. 消息的偏移量:当消费者成功消费一条消息后,它需要将消息的 Offset 保存下来,以便下次继续消费新的消息。Offset 可以看作是消息队列中消息的偏移量。

重平衡和 Offset

在 Kafka 中,再均衡(Rebalance)是常见的操作,它可能会导致消费者被重新分配到不同的分区。在再均衡期间,Offset 仍然会被维护,但消费者需要小心处理 Offset,以确保消息不会被重复消费或遗漏。文章来源地址https://www.toymoban.com/news/detail-721073.html

到了这里,关于Kafka入门04——原理分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【分布式技术】消息队列Kafka

    【分布式技术】消息队列Kafka

    目录 一、Kafka概述 二、消息队列Kafka的好处 三、消息队列Kafka的两种模式 四、Kafka 1、Kafka 定义 2、Kafka 简介 3、Kafka 的特性 五、Kafka的系统架构 六、实操部署Kafka集群  步骤一:在每一个zookeeper节点上完成kafka部署 ​编辑 步骤二:传给其他节点 步骤三:启动3个节点 kafka管理

    2024年01月23日
    浏览(14)
  • 分布式 - 消息队列Kafka:Kafka 消费者的消费位移

    分布式 - 消息队列Kafka:Kafka 消费者的消费位移

    01. Kafka 分区位移 对于Kafka中的分区而言,它的每条消息都有唯一的offset,用来表示消息在分区中对应的位置。偏移量从0开始,每个新消息的偏移量比前一个消息的偏移量大1。 每条消息在分区中的位置信息由一个叫位移(Offset)的数据来表征。分区位移总是从 0 开始,假设一

    2024年02月12日
    浏览(10)
  • 分布式 - 消息队列Kafka:Kafka生产者架构和配置参数

    分布式 - 消息队列Kafka:Kafka生产者架构和配置参数

    生产者发送消息流程参考图1: 先从创建一个ProducerRecord对象开始,其中需要包含目标主题和要发送的内容。另外,还可以指定键、分区、时间戳或标头。在发送ProducerRecord对象时,生产者需要先把键和值对象序列化成字节数组,这样才能在网络上传输。 接下来,如果没有显式

    2024年02月13日
    浏览(13)
  • 分布式 - 消息队列Kafka:Kafka消费者的分区分配策略

    分布式 - 消息队列Kafka:Kafka消费者的分区分配策略

    Kafka 消费者负载均衡策略? Kafka 消费者分区分配策略? 1. 环境准备 创建主题 test 有5个分区,准备 3 个消费者并进行消费,观察消费分配情况。然后再停止其中一个消费者,再次观察消费分配情况。 ① 创建主题 test,该主题有5个分区,2个副本: ② 创建3个消费者CustomConsu

    2024年02月13日
    浏览(16)
  • 分布式 - 消息队列Kafka:Kafka 消费者消费位移的提交方式

    分布式 - 消息队列Kafka:Kafka 消费者消费位移的提交方式

    最简单的提交方式是让消费者自动提交偏移量,自动提交 offset 的相关参数: enable.auto.commit:是否开启自动提交 offset 功能,默认为 true; auto.commit.interval.ms:自动提交 offset 的时间间隔,默认为5秒; 如果 enable.auto.commit 被设置为true,那么每过5秒,消费者就会自动提交 poll() 返

    2024年02月12日
    浏览(13)
  • 分布式 - 消息队列Kafka:Kafka消费者分区再均衡(Rebalance)

    分布式 - 消息队列Kafka:Kafka消费者分区再均衡(Rebalance)

    01. Kafka 消费者分区再均衡是什么? 消费者群组里的消费者共享主题分区的所有权。当一个新消费者加入群组时,它将开始读取一部分原本由其他消费者读取的消息。当一个消费者被关闭或发生崩溃时,它将离开群组,原本由它读取的分区将由群组里的其他消费者读取。 分区

    2024年02月12日
    浏览(16)
  • 分布式 - 消息队列Kafka:Kafka消费者和消费者组

    分布式 - 消息队列Kafka:Kafka消费者和消费者组

    1. Kafka 消费者是什么? 消费者负责订阅Kafka中的主题,并且从订阅的主题上拉取消息。与其他一些消息中间件不同的是:在Kafka的消费理念中还有一层消费组的概念,每个消费者都有一个对应的消费组。当消息发布到主题后,只会被投递给订阅它的每个消费组中的一个消费者

    2024年02月13日
    浏览(11)
  • 分布式消息队列Kafka(四)- 消费者

    分布式消息队列Kafka(四)- 消费者

    1.Kafka消费方式 2.Kafka消费者工作流程 (1)总体工作流程 (2)消费者组工作流程 3.消费者API (1)单个消费者消费 实现代码 (2)单个消费者指定分区消费 代码实现: (3)消费者组消费 复制上面CustomConsumer三个,同时去订阅统一个主题,消费数据,发现一个分区只能被一个

    2023年04月26日
    浏览(9)
  • 分布式应用之zookeeper集群+消息队列Kafka

    分布式应用之zookeeper集群+消息队列Kafka

           ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。为分布式框架提供协调服务的

    2024年02月06日
    浏览(86)
  • zookeeper+kafka分布式消息队列集群的部署

    zookeeper+kafka分布式消息队列集群的部署

    目录 一、zookeeper 1.Zookeeper 定义 2.Zookeeper 工作机制 3.Zookeeper 特点 4.Zookeeper 数据结构 5.Zookeeper 应用场景 (1)统一命名服务 (2)统一配置管理 (3)统一集群管理 (4)服务器动态上下线 6.Zookeeper 选举机制 (1)第一次启动选举机制 (2)非第一次启动选举机制 7.部署zookeepe

    2024年02月14日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包