我的 Kafka 旅程 - Consumer( 二 )

  • # earliest: 最早消费;无offset时,从头开始消费 。

  • # latest: 最新消费;无offset时,从最新的数据开始消费 。

  • # none: 无offset时,引发异常 。

  • auto.offset.reset = earliest | latest | none

  • 消费现象重复消费:offset未提交成功,下次消费还是旧的offset 。
    漏消费:offset提交成功,消费者端后续的数据处理未完成(建议下游步骤事务处理) 。
    消费者组为了实现横向扩展,应用程序需要创建一个消费者群组,然后往群组里添加消费者来提高处理效率,群组里的每个消费者只处理一部分消息 。
    消费者组是逻辑上的一个消费者,是由一个或多个消费者实例组成,具有可扩展性和可容错性,消费者组内的消费者共享一个GroupId组成;组内每个消费者负责消费不同分区数据,并行消费数据;当组内一个消费者挂了之后,其它消费者要自动承担它的消费任务 - 组内再平衡 。
    触发再平衡消费成员与Broker分区保持心跳连接,或者消费成员处理消息时间过长,会被认为此消费者需要被移除,触发组内消费成员任务再分配 。以下配置任其一条件触发再平衡:
    1. # 心跳连接超时的 移除条件(建议45秒)

    2. session.timeout.ms

    3. 【我的 Kafka 旅程 - Consumer】# 消息处理超时的 移除条件(建议5分钟)

    4. max.poll.interval.ms

    5.  
    再平衡策略
    1. # 再平衡策略配置项(可多策略组合)

    2. partition.assignment.strategy = Range | RoundRobin | Sticky | CooperativeSticky

    • Range:单个Topic内的重新平均分配
    • RoundRobin:所有Topic的全部消费者,一起重新分配
    • Sticky:一次小范围重新分配;仅调整需要的,避免大规模重新分配
    • CooperativeSticky:可多次小范围重新调整,直至最终效果
    提升吞吐量
    • 增加分区,增加消费者,两者一一对应起来,并行消费
    • 调整一次最多拉取的消息条数(500条)
    • 调整单次抓取的数据最大容量(50M)

    经验总结扩展阅读