jeanheo

Kafka消费者原理解析

文章目录

消费者和消费组
创建Kafka消费者
rebalance 分区再均衡

rebalance触发时机
rebalance 分区分配策略
rebalance generatian
rebalance协议
rebalance流程

消费者配置

fetch.min.bytes
fetch.max.wait.ms
max.partition.fetch.bytes
session.timeout.ms
auto.offset.reset
enable.auto.commit
partition.assignment.strategy

提交和偏移量

消息交付语义

精确一次实现原理

幂等性prodecuer
事务

位移类型
提交策略

自动提交
手动提交
异步提交
同步和异步组合提交
再均衡监听器

指定消费消息的特定偏移量
退出消费

参考

消费者和消费组

生产者和消费者往往是一对多的关系，多个消费者可以形成一个消费组来订阅主题消息，对消息进行分类。一个消费组中订阅的都是同一个主题，每个消费者接受主题一部分分区的消息。同一个消费组内的不同消费者只能订阅一个主题下不同分区的消息，不同消费组可以订阅同一个主题的统一分区消息

在同一个消费组下，根据消费者数量的不同，消费者订阅的主题数量也会变化，假设一个主题有4个分区p1,p2,p3,p4，只有唯一的消费者c1，则订阅关系为：

c1->p1
c1->p2
c1->p3
c1->p4

如果有两个消费者c1,c2，则订阅关系会发生变化，可能会变成：

c1->p1
c2->p2
c1->p3
c2->p4

如果消费者数量大于分区数，则会导致部分消费者闲置，不会接收到任何消息。如有5个消费者：

c1->p1
c2->p2
c3->p3
c4->p4
c5 闲置

从上面分析，可以通过适当地增加消费者数量来横向拓展消费能力，这是尤其当消费者需要做一些高延迟处理或发送者发送速率较大的情况下。但不要让消费者数量超过主题分区数。

一个消费组即可保证生产者生产的所有消息都被唯一消费，但如果存在多方对生产的消息感兴趣，可以初始化不同的消费组，不同消费组互不干扰，都分别能对生产者生产的所有消息进行唯一消费。示例如下所示：

对于消费组，有5个状态：

Empty：消费组下没有任何活跃的消费者，可能为消费组刚创建的时刻或工作一段时间后所有消费者离开。
PreparingRebalance：表明group正在准备进行group rebalance。此时group收到部分成员发送的JoinGroup请求，同时等待其他成员发送JoinGroup请求，知道所耦成员都成功加入组或超时。
AwaitingSyc:表明所有成员都已经加入组并等待leader consumer发送分区分配方案。
Stable:表明group开始正常消费，可以响应客户端发送的任何请求
Dead:表明group已经彻底废弃，group内没有任何active成员且group的所有元数据都已被删除。

对应以下生命周期流转模型：

创建Kafka消费者

类似生产者，在创建消费者时，同样需要指定三个最基本的属性：

boostrap.servers：指定kafka集群的连接地址
key.deserializer: 消息中key的反序列化工具类
value.deserializer：消息中value的反序列化工具类

在3个必备配置外，还有一个最基本配置group.id，用来指定消费者属于哪一个消费者群组，如果不指定会分配在默认消费组，但这不太常见。

下面来看一个创建示例：

Properties properties = new Properties();
// 指定broker连接
properties.setProperty("bootstrap.servers", "127.0.0.1:9092");
// 指定key反序列化工具类
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
// 指定value反序列化工具类
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
// 指定消费群组id
properties.setProperty("group.id", "test2");
// 初始化消费者
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(properties);
// 指定订阅主题，可以同时订阅多个主题，还可以通过指定test*订阅所有test开头的主题
consumer.subscribe(Collections.singletonList("kafka-topic"));

// 循环消费消息
while (true) {
    // 不断尝试拉取
    ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> recode : records) {
        // 输出消息内容
        System.out.println("recodeOffset = " + recode.offset() + ",recodeValue = " + recode.value() + ",record.key = " + recode.key());
    }
}

默认情况，消费群组会自动根据消费者数量和分区数量来分配消费者消费分区，此外，还可以通过程序手动指定，指定代码如下所示:

// 可选，指定消费分区
List<TopicPartition> partitions = consumer.partitionsFor("kafka-topic") // 获取指定主题下的所有分区
        .stream() // 初始化流
        .map(p -> new TopicPartition(p.topic(), p.partition())) // 遍历根据分区信息初始化主题分区对象
        .collect(Collectors.toList()); // 收集为List
// 给当前消费组分配消费分区
consumer.assign(partitions);

在示例中为当前消费者指定了消费主题的所有分区。

rebalance 分区再均衡

基于一个消费组订阅特定主题的情况下，消费者数量或主题分区数量发生变化都会引起分区再均衡。在再均衡期间，消费者无法读取消息，会造成整个群组一小段时间的不可用。另外，当分区被重新分配到另一个消费者时，消费者当前的读取状态会丢失，可能需要去刷新缓存，在消费者重新恢复状态之间会拖慢应用程序。

rebalance触发时机

消费者通过被指派为群组协调器的broker（不同的群组有不同的协调器）发送心跳来维持他们和群组的从属关系以及他们对分区的所有权。只要消费者以正常的时间间隔发送心跳，就被认为是活跃的，说明还在读取分区的消息。消费者会在轮询尝试获取新消息或提交偏移量时发送心跳，如果消费者停止发送心跳的时间足够长，会话就会过期，群组协调器认为消费者宕机，会触发一次再均衡。另一方面，我们在主动清理消费者时，消费者也会通知协调器它即将离开群组，也会触发一次再均衡。

具体而言，可以分为以下三种情况：

组成员发生变更：新consumer加入，原有consumer主动离开或崩溃
组订阅topic数发生变更，基于正则订阅，新主题创建，命中正则规则
组订阅topic的分区属发生变更，如通过脚本增加订阅topic的分区数

rebalance 分区分配策略

kafka新版本提供了3种分配策略，用于决策归属topic的每个分配会被分配给哪个消费者，具体有：

range策略：基于范围的思想，将单个topic的所有分区按照顺序排列，然后把这些分区划分成固定大小的分区段并依次分配给每个消费者。
round-robin策略：把所有topic的所有分区顺序白开，轮训式地分配给每个消费者
sticky策略：采用“有黏性”策略对所有消费者实例进行分配，可以规避在极端情况下的数据倾斜并在两次rebalance间最大限度维持之前的分配方案。

rebalance generatian

每次触发再均衡后，有一个标志再均衡代数的变量，会在每次触发再均衡后+1。主要用于保护consumer group，尤其是防止无效offset的提交。比如上一代的consumer成员由于某些原因延迟提交了offset.但再均衡后该group产生了新一届的group成员，而这次延迟的offset提交携带的是旧的generation信息，则这次提交会被拒绝。

rebalance协议

rebalance本质是一组协议，由group和coordinator（协调者）共同完成，其中coordinator是每个组的一个协调者，负责对组的状态进行管理，主要职责是再均衡时促成组内所有成员达成新的分区分配方案。再均衡协议包含以下协议请求：

JoinGroup请求：consumer请求加入组
SyncGroup请求：group leader把分配方案同步更新到组内所有成员
Heartbear请求：consumer定期向coordinator汇报心跳表名自己依然存活
LeaveGroup请求：consumer主动通知coordinator该consumer即将离组
DescribeGroup请求：查看组的所有信息，包括成员信息、协议信息、分配方案以及订阅信息等。主要供管理员使用。

在rebalance过程中，coordinator主要处理consumer发来的JoinGroup和SyncGroup请求。当consumer主动离组时会发送LeaveGroup给coordinator。

在成功rebalance后，组内所有consumer定期向coordinator发送Heartbeat请求。而consumer则根据Heartbeat请求的响应中是否包含REBALANCE_IN_PROGRESS来判断当前group是否开启新一轮rebalance。

rebalance流程

再均衡的流程分为以下几步：

找到coordinator：确定协调者的算法如下：
1. 计算 Math.abs(groupID.hashCode) % offsets.topic.num.partitions参数值(默认是 50) ，假设是 10。
2. 寻找一consumer_offsets分区 10的 leader副本所在的 broker，该 broker即为这个group的 coordinator。
收集consumer，选举Leader并制定分配方案：组内所有consumer向coordinator发送JoinGroup请求，coordinator从中选择一个（通常是第一个）作为leader。并把所有成员信息以及他们的订阅信息发给leader,由leader负责为整个group的所有成员制定分配方案
同步更新分配方案：所有消费组发送SyncGroup请求给coordinator，但只有leader会将制定的分配方案封装进SyncGroup请求发送给coordinator。coordinator从leader请求中把属于每个consumer的方案单独抽取出来，作为SyncGroup请求的response返还给各自的consumer。

收集consumer，选举Leader并制定分配方案实例：

同步更新分配方案示例：

消费者配置

除了上面几个配置外，消费者还有一些核心配置，通过这些配置有助于我们更好地理解消费者的运行逻辑。

fetch.min.bytes

指定消费者从服务器获取记录的最小字节数。broker在收到消费者的数据请求时，如果可用的数据量小于配置指定的大小，会等有足够的数据再一起返回给消费者，以此降低消费者和broker的工作负载。

fetch.max.wait.ms

指定broker在没有收到足够数据时的最大等待时间，默认500ms，如果没有足够的数据流入broker,即使消费者尝试获取数据，broker也不会立即返回，而会等待离上次拉取数据时间间隔fetch.max.wait.ms才会返回给客户端。这个配置设置过大，会导致数据消费延迟，但可以降低消费者和broker的工作负载

max.partition.fetch.bytes

指定服务器从每个分区里返回给消费者的最大字节数。默认为1MB。这个配置值必须比broker能够接受的最大消息的字节数（max.message.size配置）大，否则消费者可能无法读取过大的消息，导致消费者一直刮起重试。另外还需要考虑消费者处理的时间，如果单词poll数据太多，消费者处理可能无法及时进行下一个轮询来避免会话过期。

session.timeout.ms

该属性指定了消费者在被认为死亡之前可以与服务器断开连接的时间，默认为3s，如果消费者没有在指定时间内发送心跳给群组协调器，会被认为死亡，群组协调器会触发再均衡，把它的分区分配给其他消费者。阈值关联的另一个配置是heartbeat.interval.ms，用来指定poll()方法向协调器发送心跳的频率。因此两个属性一把你需要同步修改，如session.timeout.ms是3s,则heartbeat.interval.ms应该是1s。将session.timeout.ms设置更小一些，可以更快地监测和恢复崩溃节点，但可能会导致非预期的再均衡。

auto.offset.reset

指定消费者在读取一个没有偏移量的分区或者偏移量无效（银消费者长时间失效，包含偏移量的记录已经过期或被删除）的情况下的处理动作，有两个值：

latest，默认值，从最新记录开始读取
earliest，从起始位置读取分区记录

enable.auto.commit

指定消费者是否自动提交偏移量，默认为true。为了尽量避免出现重复数据和数据丢失，可以设为false,有自己控制何时提交偏移量，如果设为true,则可以通过配置auto.commit.intervall.ms来控制提交的频率

partition.assignment.strategy

分区分配策略，决定哪些分区由哪些消费者消费，有两种默认策略：

Range:把主题的若干个连续分区分配给消费者，如有分区p1,p2,p3分配给消费者c1,c2，则分配结果可能为c1->p1,c1->p2,c2->p3
RoundRobin：把主题逐个分配给消费者。如对于上例，分配结果为c1->p1,c2->p2,c1->p3。RoundRobin策略保证所有消费这分配相差0或1个数量的分区。
sticky:采用“有黏性”的策略对所有的consumer实例进行分配，可以规避极端情况下的数据倾斜并且在两次rebalance间最大限度地维持原有的分配方案，相对上面两种方案，有效避免了无视历史分配方案的缺陷。

提交和偏移量

消费者需要更新自己在分区消费的记录偏移量，这个操作叫做提交。通常，偏移量是下一条带消费的消息的位置。消费者提交的偏移量作用在于当消费者发生崩溃或有新消费者加入群组引发分区再均衡时，当分区被分配到新的消费者时，新的消费者可以根据分区记录的偏移量来继续消费消息。这里有两种异常情况：

如果提交的偏移量小于客户端处理的最后一个消息的偏移量，则两个偏移量之间的消息会被重复处理。
如果提交的偏移量大于客户端处理的最后一个消息的偏移量，则两个偏移量之间的消息会被丢失。

消息交付语义

最多一次(at most once):消息可能丢失，但不会被重复处理。如果在消息消费之前提交唯一，则实现的是最多一次交付语义
最少一次(at least once):消息不会丢失，但可能被多次处理。如果在消息消费之后提交，则实现的是最少一次交付语义。
精确一次(exactly once):消息一定被处理且只被处理一次。可以基于事务支持精确一次

精确一次实现原理

对于精确一次的时间，依赖于幂等姓Producer，设置producer端参数enable.idempotence=true，同一消息可能被producer发送多次，但在broker端这条消息只会被写入一次。

幂等性prodecuer

幂等性prodecuer发送到broker的每批消息都会标志一个序列号用于消息去重。序列号会和每个producer(pid)建立一一映射，对于接收的每条消息，如果其序号比Broker缓存中序号大于1则接受它，否则将其丢弃。但是，只能保证单个Producer对于同一个的Exactly Once语义。不能保证同一个Producer一个topic不同的partion幂等。

序列号会被保存到底层日志，即使leader副本挂掉，新选出来的leader broker也能执行消息去重工作。

事务

Kafka为实现事务用一个位移idTransactionalId标志事务。当提供了 Transactionalld后， Kafka就能确保:

跨应用程序会话间的事等发送语义。具体的做法与新版本 consumer 的 generation 概念类似，使用具有版本含义的 generation来隔离旧事务的操作。
支持跨会话间的事务恢复。如果某个 producer 实例挂掉了， Kafka 能够保证下一个实例首先完成之前未完成的事务，从而总是保证状态的一致性。

位移类型

consumer中存在多种位置信息：

上次提交位置：consumer最近一次提交的offset值
当前位置：consumer已读取但尚未提交时的位置
水位：也被称为高水位。属于分区日志的概念，对于水位之下（更早的消息），consumer都是可以读取的，而水位之上则不行，水位代表所有同步副本已确认的消息位置。
日志中断位移：也被称为日志最新位置，属于分区日志管辖。表示某个分区副本当前保存消息对应的最大的位移值。

consumer 提交位移的主要机制是通过向所属的coordinator发送位移提交请求来实现的。每个位移提交请求都会往_consumer_offsets 对应分区上追加写入一条消息。消息的 key 是 group.id、 topic和分区的元组，而 value就是位移值。如果 consumer为同一个 group的同一个 topic 分区提交了多次位移，那么__consumer_offsets 对应的分区上就会有若干条 key 相同但 value 不同的消息，但显然我们只关心最新一次提交的那条消息。从某种程度来说，只有最新提交的位移值是有效的，其他消息包含的位移值其实都已经过期了。Kafka 通过压实( compact) 策略来处理这种消息使用模式。

提交策略

kafka提供了多种策略来提交偏移量：

自动提交

自动提交通过两个配置指定：

enable.auto.commit：设为true时，消费者会在经过配置间隔后把从poll()方法收到的最大偏移量提交上去。
auto.commit.interval.ms：控制消费者提交偏移量的间隔时间，默认为5s。

自动提交虽然便利，但存在风险：

如果在提交后，在配置间隔时间前，如提交后第3秒分区发生再均衡，则意味这3s内处理的消息会被重复处理。虽然可以通过调整更短的提交间隔时间来减少这个风险，但仍有可能发生。
虽然提交了最新的偏移量，但这不意味最后一批拉取的消息已被正常消费，如果在消费过程消费者宕机，会导致部分消息丢失。

手动提交

可以通过设置auto.commit.offset=false。在每轮消费完调用poll()获取的消息后，手动调用commitSync()来提交最新偏移量。如果在这个过程中，分区发生再均衡，也会有消息被重复消费的可能。调用示例如下所示：

// 循环消费消息
while (true) {
    // 不断尝试拉取
    ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> recode : records) {
        // 输出消息内容
        System.out.println("recodeOffset = " + recode.offset() + ",recodeValue = " + recode.value() + ",record.key = " + recode.key());
    }

    // 手动提交
    consumer.commitSync();
}

手动提交后，会堵塞一直重试，知道提交成功

异步提交

如果不想在提交的时候发生堵塞，影响程序的吞吐量，可以降低提交频率来提高吞吐量，但会由于再均衡而导致增加重复消费消息量的风险。可以异步提交。调用类似同步提交，只是api从consumer.commitSync()变为consumer.commitAsync()。和同步提交不同的是，异步提交可以指定一个callback,来在提交成功或失败的时候回调相关逻辑。示例如下:

consumer.commitAsync(new OffsetCommitCallback() {
    @Override
    public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception exception) {
        if(exception!=null){
            System.out.println("提交失败");
        }else{
            System.out.println("提交成功");
        }
    }
});

commitAsync在提交失败后不会重试,我们可以在回调中尝试重试提交，但要注意的是，如果已经有一个更大的偏移量提交成功，可能会出现小偏移量覆盖大偏移量的情况。这个可以在重试前，先检查回调的序列号和即将提交的偏移量是否相等来规避。

同步和异步组合提交

可以结合同步和异步提交，在正常轮询消费过程中采用异步提交，当出现异常或消费被中断时，再用同步提交来兜底。示例如下：

// 循环消费消息
try {
    while (true) {
        // 不断尝试拉取
        ConsumerRecords<String, String> records = consumer.poll(100);
        for (ConsumerRecord<String, String> recode : records) {
            // 输出消息内容
            System.out.println("recodeOffset = " + recode.offset() + ",recodeValue = " + recode.value() + ",record.key = " + recode.key());
        }

        // 异步提交提交
        consumer.commitAsync();
    }
}catch (Exception e){
    e.printStackTrace();
}finally {
    // 最后重步提交
    consumer.commitSync();
    consumer.close();
}

再均衡监听器

在消费者指定订阅主题时，可以传入一个ConsumerRebalanceListener接口实现类，在监听需要分区再均衡时，进行相关的逻辑处理，如提交偏移量，具体示例：

// 存储当前消费偏移量
Map<TopicPartition, OffsetAndMetadata> currentOffsets = new HashMap<>();
// 指定订阅主题，同时指定分区再均衡类
consumer.subscribe(Collections.singletonList("kafka-topic"), new ConsumerRebalanceListener() {
    /**
     * 方法在再均衡开始之前和消费者停止读取消息之后被调用，
     * 可以在这里提交偏移量，以便后续接管的消费者找到偏移量继续消息消费
     * @param partitions 当前消费者负责消费的分区
     */
    @Override
    public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
        // 提交偏移量
        consumer.commitSync();
    }

    /**
     * 方法会在分区再均衡后和消费者开始读取消息前被调用
     * @param partitions 当前消费者负责消费的分区
     */
    @Override
    public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
        System.out.println("开始监听以下分区:" + partitions);
    }
});

// 循环消费消息
while (true) {
    // 不断尝试拉取
    ConsumerRecords<String, String> records = consumer.poll(100);
    for (ConsumerRecord<String, String> recode : records) {
        // 输出消息内容
        System.out.println("recodeOffset = " + recode.offset() + ",recodeValue = " + recode.value() + ",record.key = " + recode.key());
        // 每次消费记录消费偏移量
        currentOffsets.put(new TopicPartition(recode.topic(), recode.partition()), new OffsetAndMetadata(recode.offset() + 1, ""));
    }

    consumer.commitSync(currentOffsets);
}

在上面，我们每次消费消息后，都实时记录消费的偏移量，偏移在任何时刻触发监听器，都会提交有效的偏移量。

指定消费消息的特定偏移量

Kafka提供了三种api操作消费的起始偏移量：

seekToBeginning(Collection partitions):从指定的分区的起始位置读取消息
seekToEnd(Collection partitions)：从指定的分区的结束位置读取消息
seek(TopicPartition partition, long offset)：从指定分区的指定偏移量读取消息。

退出消费

消费者会在在轮询的死循环里不断尝试拉取消息，如果想退出消费，可以另起一个线程，调用consumer.wakeup()来唤醒消费者。而后消费者会在poll()的时候抛出WakeupException。在退出前，最后调用consume.close()来提交任何还没有提交的东西，同时向群组协调器发送消息，接下来会触发分区再均衡而无需等待当前消费者的会话超时。

参考

Kafka权威指南
Apache Kafka实战

你可能感兴趣的:(kafka)

Apache Kafka的伸缩性探究：实现高性能、弹性扩展的关键 i289292951 kafka kafka
引言ApacheKafka作为当今最流行的消息中间件之一，以其强大的伸缩性著称。在大数据处理、流处理和实时数据集成等领域，Kafka的伸缩性为其在面临急剧增长的数据流量和多样化业务需求时提供了无与伦比的扩展能力。本文将深入探讨Kafka如何通过其独特的架构设计实现高水平的伸缩性，以及在实际部署中如何优化和利用这一特性。一、Kafka伸缩性的核心设计分区（Partitioning）与水平扩展Kafk
【二】【设计模式】建造者模式妖精七七_ 设计模式设计模式建造者模式
建造者模式的引入//C10_1.cpp#include#include"SystemConfig.h"intmain(){SystemConfigconfig("mysql://127.0.0.1/","xiaomu","xiaomumemeda","redis://127.0.0.1/","xiaomuredis","xiaomuredispw","kafka://127.0.0.1","xia
kafka-eagle 配置文件修改使用自带的数据库 bright future cheer kafka 数据库分布式
######################################multizookeeper&kafkaclusterlistSettingsprefixedwith‘kafka.eagle.’willbedeprecated,use‘efak.’instead######################################efak.zk.cluster.alias=clu
Kafka、ActiveMQ、RabbitMQ 及 RocketMQ区别比较木西爷 kafka activemq rabbitmq 阿里云 rocketmq
消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。它可以实现高性能、高可用、可伸缩和最终一致性架构，是大型分布式系统不可缺少的中间件。消息队列在电商系统、消息通讯、日志收集等应用中扮演着关键作用，以阿里为例，其研发的消息队列（RocketMQ）在历次天猫“双十一”活动中支撑了万亿级的数据洪峰，为大规模交易提供了有力保障。常见消息中间件对比特性ActiveMQRab
MQ横向对比：RocketMQ、Kafka、RabbitMQ、ActiveMQ、ZeroMQ namelessmyth Java框架 MQ rocketmq kafka rabbitmq activemq
前言本文将从多个角度全方位对比目前比较常用的几个MQ：RocketMQKafkaRabbitMQActiveMQZeroMQ下文单独说明。表格对比特性RocketMQKafkaRabbitMQActiveMQ单机吞吐量10万级，支撑高吞吐10万级以上，甚至有文献称，可以达到单机百万级TPS。万级，同ActiveMQ万级，相对其他MQ较低。topic数量对吞吐量的影响topic可以达到几百/几千的级
Maxwell监听mysql的binlog日志变化写入kafka消费者澄绪猿 mysql kafka 数据库
一.环境：maxwell:v1.29.2(从1.30开始maxwell停止了对java8的使用，改为为11)maxwell1.29.2这个版本对mysql8.0以后的缺少utf8mb3字符的解码问题，需要对原码中加上一个部分内容：具体也给大家做了总结：关于v1.29.2版本的Maxwell存在于mysql8.0后版本部分源码字符集处理确实问题-CSDN博客二.程序这里还是那一个kafka模拟器来实
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解最笨的羊羊日常分享专栏 Debezium日常分享系列 Debezium2.5稳定版本 MySQL连接器配置示例 Connector参数详解
Debezium日常分享系列之：Debezium2.5稳定版本之MySQL连接器配置示例和Connector参数详解一、MySQL连接器配置示例二、添加连接器配置三、连接器属性四、必须的连接器配置属性五、高级MySQL连接器配置属性六、Debezium连接器数据库架构历史配置属性七、用于配置生产者和消费者客户端的传递数据库架构历史属性八、Debezium连接器Kafka信号配置属性九、Debezi
Flink 批作业消费kafka wending-Y Flink 入门到实践 flink kafka 大数据
文章目录示例代码原理总是kafka数据源可以是有界数据源，也可以是无界数据源示例代码publicstaticvoidmain(String[]args){StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism
Kafka主题二三事慢一点，细一点 Kafka kafka 分布式
客户端如果订阅了多次主题，则以最后一次为主，例如consumer.subscribe(Arrays.asList(topic1));consumer.subscribe(Arrays.asList(topic2));则订阅的只有topic2。消费者订阅主题是支持正则表达式，这样如果有新topic上线，并且匹配正则，则也会消费到这个新topic的内容，比如consumer.subscribe(Pat
大数据开发（Kafka面试真题-卷一） Key-Key 大数据 kafka 面试
大数据开发（Kafka面试真题）1、请解释以下ApacheKafka是什么？它在大数据系统中的角色是什么？2、请解释以下Kafka的工作原理和它与传统消息队列服务的不同之处？3、解释以下ApacheKafka的作用以及它与常见消息队列系统（如RabbitMQ）之间的区别？4、如何使用ApacheKafka来实现实时数据流处理？5、Flinkcheckpoint和Kafkaoffset的关联是什么？
Kafka-SSL笔记整理 yicj kafka ssl 笔记
创建密钥仓库以及CA创建密匙仓库,用户存储证书文件keytool-keystoreserver.keystore.jks-aliashello_kafka-validity100000-genkey创建CAopensslreq-new-x509-keyoutca-key-outca-cert-days100000将生成的CA添加到客户端信任库keytool-keystoreclient.trust
架构:Apache Kafka Connect实现sqlserver数据实时同步管理大亨 sqlserver 中间件架构
实现ApacheKafkaConnect与SQLServer之间的实时数据同步，您可以使用KafkaConnect的JDBCSourceConnector。以下是一个基本的步骤：1.安装KafkaConnect：确保您已经安装了ApacheKafka和KafkaConnect。您可以从ApacheKafka的官方网站或其他途径获取它。2.下载JDBCDriver：获取适用于SQLServer的JD
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
集群启动脚本西风凋丶碧树 linux
使用SSH服务，要首先确保Linux主机间ssh相互免密，配置免密可看下面：Linux主机间ssh相互免密创建kafka启动脚本vimkafka-cluster.shforiin192.168.8.105192.168.8.106192.168.8.107doecho--------------------------------$ikafka启动-------------------------
1分钟玩转Kafka 中间件小哥
说起Kafka，许多使用者对它是又爱又恨。Kafka是一种分布式的、基于发布/订阅的消息系统，其极致体验让人欲罢不能，但操心的运维、复杂的安全策略、可靠性易用性的缺失、算不上极致的性能发挥、并不丰富的消息服务功能，仍需要使用者付出诸多的背后工作。即使你是Kafka老手，也难免会有上述同样的烦恼。与其整日操心Kafka的部署，不如试试云上Kafka带给你的惊喜？目前国内主流的云服务厂商均提供了云上的
springboot 连kafka 发，接消息 Perfect珈蓝 spring boot kafka linq
引入pomorg.apache.kafkakafka_2.133.7.0org.springframework.kafkaspring-kafka增加yml配置spring:kafka:bootstrap-servers:192.168.1.30:9092consumer:group-id:testack-mode:manual#生产者producer:key-serializer:org.apa
kafka（三）springboot集成kafka（1）介绍 w_t_y_y kafka spring boot linq
一、相关组件介绍1、pom：org.apache.kafkakafka-clients3.0.02、kafkaProducerproduce的发送主要流程概述如下：拦截器对发送的消息拦截处理；获取元数据信息；序列化处理；分区处理；批次添加处理；发送消息。3、KafkaConsumer二、生产者发送消息类型1、同步发送消息同步发送的意思就是，一条消息发送之后，会阻塞当前线程，直至返回ack。由于se
kafka Interceptors and Listeners 伊布拉西莫 kafka
InterceptorsProducerInterceptorhttps://www.cnblogs.com/huxi2b/p/7072447.htmlProducer拦截器(interceptor)是个相当新的功能，它和consumer端interceptor是在Kafka0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。对于producer而言，interceptor使得用户
幂等性设计风清扬-独孤九剑 golang 幂等性设计软件设计
目录前言幂等性设计幂等性设计处理流程HTTP幂等性消息队列幂等性基于kafka前言幂等性设计，就是说，一次和多次请求某一个资源应该具有同样的副作用。为什么我们要有幂等性操作？说白了，就两点：1、网络的不稳定性2、服务状态不确定性，服务状态不仅有成功，失败，还有超时。超时又有多种原因引起的，有可能是网络抖动，也有可能是负载引起的。对于这种情况，需要做重试，重试的后果是服务被调用了多次，数据不对，业务
常用中间件docker安装 Happywzy~ 中间件 docker 容器
zookeeperdockerrun-d--namezookeeper-p2181:2181--restartalways-eZOO_MY_ID=1-eALLOW_ANONYMOUS_LOGIN=yes-eTZ=Asia/Shanghai-v/etc/localtime:/etc/localtimezookeeper:3.7kafka#注意：KAFKA_CFG_ADVERTISED_LISTENE
prometheus监控kafka 仙女陈 prometheus kafka 分布式
kafka_exporter下载地址：https://github.com/danielqsj/kafka_exporter/releases/download/v1.2.0/kafka_exporter-1.2.0.linux-amd64.tar.gz1.1安装kafka_exportertar-xvfkafka_exporter-1.2.0.linux-amd64.tar.gz-C/usr/l
消息队列-kafka 百晓生612 消息队列 kafka 分布式
kafka和redis的区别数据类型和用途：Kafka：Kafka是一个分布式消息队列系统，主要用于高吞吐量的消息发布和订阅。它可以用于构建实时流处理应用、日志收集和传输、事件驱动架构等场景。Redis：Redis是一个内存数据库，支持多种数据结构（如字符串、列表、哈希、集合、有序集合等），并提供持久化功能。它通常用于缓存、会话存储、实时数据处理、消息队列、发布/订阅等场景。持久化支持：Kafka
在消息队列kafka多消费者组消费同一Topic场景下的idea调试debug断点进不去的解决方案小白菜儿929 java kafka intellij-idea java
1.问题场景复现不同类型的消息发到同一个Topic中，设置多个消费者组，为每个消费者组打一个标记。每一种消费者组只能消费对应的消息类型。这样做的好处是避免设置多个Topic，简化代码开发的同时性能损耗小。问题出现在消费端，由于多个消费者组对象随着项目初始化而初始化，导致了你的断点不一定能准确打在对应的消费者上，出现的问题就是进不去断点。2.解决思路你在生产者端发送一条消息进入到kafka消息队列，
Kafka入门介绍一吴代庄 Java kafka 分布式 java
介绍Kafka是一个分布式系统，由服务器和客户端组成，通过高性能TCP网络协议进行通信。它可以部署在本地和云中的裸机硬件、虚拟机和容器上环境。服务器：Kafka作为一个或多个服务器的群集运行，这些服务器可以跨越多个数据中心或云区域。其中一些服务器构成了存储层，称为代理。其他服务器运行KafkaConnect以持续导入和导出数据作为事件流，用于将Kafka与现有系统（如关系数据库）集成，以及其他Ka
docker安装kafka和kafka-console-ui 李君临 docker kafka ui
3、安装kafkahttps://blog.csdn.net/m0_64210833/article/details/134199061kafka依赖Zookeeper,当然也可以用内置的kraft。安装前提条件1.安装Zookeeper1.1运行ZooKeeper容器2.运行Kafka容器2.1启动Kafka容器3.验证3.1进入Kafka容器3.2查看容器状态3.3查看容器日志3.4重新启动容
kafka 生产者消费者设计思考动态一时爽，重构火葬场哲学与架构 middleware kafka 分布式
生产者负载均衡生产者直接发送消息给分区leader，而不需要通过中间者进行转发。这意味着生产者需要知道哪些服务器是存活的，以及主题分区leader在哪里的元数据请求。同时这也意味着生产者可以根据情况决定发给哪个broker，那么既可以随机负载，也可以进行散列批量发送生产者会尝试收集数据，然后在单次请求中发送大量数据，以牺牲少量额外延迟来换取更好的吞吐量。消费者pushorpull?kafka选择了
[AIGC] Kafka 消费者的实现原理程序员三木 AI kafka 分布式
在Kafka中，消费者通过订阅主题来消费数据。每个消费者都属于一个消费者组，消费者组中的多个消费者可以共同消费一个主题，实现分布式消费。每个消费者都会维护自己的偏移量，用于记录已经读取到的消息位置。消费者可以选择手动提交偏移量，也可以选择自动提交偏移量。当消费者处理完一个分区中的消息后，它需要将自己的偏移量提交给Kafka服务器，以便Kafka服务器知道消费者已经读取了哪些消息。下面是一个使用Py
【Azure 应用服务】本地创建Azure Function Kafka Trigger 函数和Kafka output的HTTP Trigger函数实验云中路灯
问题描述在上一篇博文(https://www.cnblogs.com/lulight/p/16525902.html)中，我们成功的以VM作为Kafka服务器运行，并且验证了从其他机器中远程访问。在本文中，将使用VisualStudio2022创建AzureFunction作为生产者和消费者在本地进行验证生产者：使用HTTPTrigger函数，以kafkaoutput作为输出消费者：使用Kafka
美团面试：Kafka如何处理百万级消息队列？ javakafka
美团面试：Kafka如何处理百万级消息队列？在今天的大数据时代，处理海量数据已成为各行各业的标配。特别是在消息队列领域，ApacheKafka作为一个分布式流处理平台，因其高吞吐量、可扩展性、容错性以及低延迟的特性而广受欢迎。但当面对真正的百万级甚至更高量级的消息处理时，如何有效地利用Kafka，确保数据的快速、准确传输，成为了许多开发者和架构师思考的问题。本文将深入探讨Kafka的高级应用，通过
Kafka痛点与Puslar介绍 weidajiangjiang kafka痛点 Puslar
ApacheKafka作为一款成熟的消费队列得到了很广泛地运用.但以2019年的角度来看,存在一些痛点.存储计算没有分离,难以扩容和缩容没有IO隔离,写高了读不动,读高了写不动没有多租户IO模型过于简单,面对大量topic时性能下降严重消费模型有限,无法利用部分业务可以接受消息无序的特点Puslar是一个非常优秀的开源系统，它的整体框架偏向于HBase的设计，在其上实现了流数据的处理和服务。从与K
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，