你那是什么调调

（四）Kafka 消费者

文章目录

1. Kafka 消费者相关概念
- 消费者和消费者组
- - （1）横向伸缩消费者
  - （2）横向伸缩消费者组
- 分区再平衡
- 再均衡的类型
- - （1）主动再均衡
  - （2）协作再均衡（增量再均衡）
- 分配分区的过程
- 群组固定成员
2. 创建 Kafka 消费者
3. 订阅主题
4. 轮询
5. 线程安全
6. 配置消费者
- （1）fetch.min.bytes
- （2）fetch.max.wait.ms
- （3）fetch.max.bytes
- （4）max.poll.records √
- （5）max.partition.fetch.bytes
- （6）session.timeout.ms 和 heartbeat.interval.ms √
- （7）max.poll.interval.ms √
- （8）default.api.timeout.ms
- （9）request.timeout.ms
- （10）auto.offset.reset √
- （11）enable.auto.commit √
- （12） partition.assignment.strategy √
- （13）client.id
- （14）client.rack
- （15）group.instance.id √
- （16）receive.buffer.bytes和send.buffer.bytes
- （17） offsets.retention.minutes √
7. 提交和偏移量
- （1）基于时间间隔自动提交
- （2）手动提交当前偏移量
- - 同步提交
  - 异步提交
  - 同步和异步组合提交 √
- （3）提交特定的偏移量
8.再均衡监听器 √
9.从特定偏移量位置读取记录 √
10.退出 √
11.订阅主题：使用不属于任何群组的消费者

1. Kafka 消费者相关概念

消费者和消费者组

假设有一个应用程序，它从一个 Kafka 主题读取消息，在对消息做一些验证后再保存起来。应用程序需要创建一个消费者对象，订阅主题并开始接收消息、验证消息和保存结果。但过了一阵子，生产者向主题写入消息的速度超过了应用程序验证数据的速度，这时候该怎么办呢？如果只使用单个消费者来处理消息，那么应用程序会远远跟不上消息生成的速度。显然，此时很有必要对消费者进行横向伸缩。就像多个生产者可以向相同的主题写入消息一样，也可以让多个消费者从同一个主题读取消息。
Kafka 消费者从属于消费者群组。一个群组里的消费者订阅的是同一个主题，每个消费者负责读取这个主题的部分消息。

（1）横向伸缩消费者

向群组里添加消费者是横向扩展数据处理能力的主要方式。Kafka 消费者经常需要执行一些高延迟的操作，比如把数据写到数据库或用数据做一些比较耗时的计算。在这些情况下，单个消费者无法跟上数据生成的速度，因此可以增加更多的消费者来分担负载，让每个消费者只处理部分分区的消息，这是横向扩展消费者的主要方式。我们可以为主题创建大量的分区，当负载急剧增长时，可以加入更多的消费者。不要让消费者的数量超过主题分区的数量，因为多余的消费者只会被闲置。
只包含一个消费者的群组接收 4 个分区的消息：

包含两个消费者的群组接收 4 个分区的消息：

包含 4 个消费者的群组，每个消费者分配到一个分区：

消费者数量超过分区数量，有消费者空闲：

（2）横向伸缩消费者组

除了通过增加消费者数量来横向伸缩单个应用程序，我们还经常遇到多个应用程序从同一个主题读取数据的情况。实际上，Kafka 的一个主要设计目标是让 Kafka 主题里的数据能够满足企业各种应用场景的需求。在这些应用场景中，我们希望每一个应用程序都能获取到所有的消息，而不只是其中的一部分。只要保证每个应用程序都有自己的消费者群组就可以让它们获取到所有的消息。不同于传统的消息系统，横向伸缩消费者和消费者群组并不会导致 Kafka 性能下降。
新增一个消费者群组，每个群组都能收到所有消息：

分区再平衡

分区的所有权从一个消费者转移到另一个消费者的行为称为再均衡。再均衡为消费者群组带来了高可用性和伸缩性（你可以放心地添加或移除消费者）。不过，在正常情况下，我们并不希望发生再均衡。消费者群组里的消费者共享主题分区的所有权，以下情况会发生再均衡。
- 当一个新消费者加入群组时，它将开始读取一部分原本由其他消费者读取的消息。
- 当一个消费者被关闭或发生崩溃时，它将离开群组，原本由它读取的分区将由群组里的其他消费者读取。
  - 消费者正确关闭，调用 close() 方法。消费者在被关闭时会提交还没有提交的偏移量，并向消费者协调器发送消息，告知自己正在离开群组。协调器会立即触发再均衡，被关闭的消费者所拥有的分区将被重新分配给群组里其他的消费者，不需要等待会话超时。
  - 消费者没有正确调用 close()，并且在一段时间内没有发送心跳，会话超时（session.timeout.ms 默认 10s），群组协调器认为它已经“死亡”，进而触发再均衡。
  - 消费者死锁导致长时间等待超过 poll 设定的时间间隔（max.poll.interval.ms 默认 5 分钟），后台线程向 broker 发送“离开群组”的请求，让 broker 知道这个消费者已经“死亡”，必须进行群组再均衡，然后停止发送心跳。
- 主题发生变化会导致分区重分配。
  - 管理员添加了新分区。
  - 在调用 subscribe() 方法时传入一个正则表达式。如果有人创建了新主题，并且主题的名字与正则表达式匹配，那么就会立即触发一次再均衡。

再均衡的类型

根据消费者群组所使用的分区分配策略的不同，再均衡可以分为两种类型。

（1）主动再均衡

主动再均衡包含两个不同的阶段：
- 第一个阶段，所有消费者都会停止读取消息，放弃分区所有权。
- 第二个阶段，消费者重新加入消费者群组，并获得重新分配到的分区，并继续读取消息。
会导致整个消费者群组在一个很短的时间窗口内不可用。这个时间窗口的长短取决于消费者群组的大小和几个配置参数。
区间（range）、轮询（roundRobin）、黏性（sticky）策略使用的是主动再均衡。

（2）协作再均衡（增量再均衡）

将一个消费者的部分分区重新分配给另一个消费者，其他消费者则继续读取没有被重新分配的分区。包含两个或多个阶段。
- 第一个阶段，消费者群组首领会通知所有消费者，它们将失去部分分区的所有权，然后消费者会停止读取这些分区，并放弃对它们的所有权。
- 第二个阶段，消费者群组首领会将这些没有所有权的分区分配给其他消费者。
需要进行几次迭代，直到达到稳定状态，但它避免了主动再均衡中出现的“停止世界”停顿。这对大型消费者群组来说尤为重要，因为它们的再均衡可能需要很长时间。
协作黏性（cooperative sticky）策略支持协作再均衡。将 partition.assignment.strategy 设置为 org.apache.kafka.clients.consumer.CooperativeStickyAssignor。

分配分区的过程

当一个消费者想要加入消费者群组时，它会向被指定为群组协调器的 broker（不同消费者群组的协调器可能不同）发送 JoinGroup 请求。
第一个加入群组的消费者将成为群组首领。首领从群组协调器那里获取群组的成员列表（列表中包含了所有最近发送过心跳的消费者，它们被认为还“活着”），并负责为每一个消费者分配分区。它使用实现了 PartitionAssignor 接口的类来决定哪些分区应该被分配给哪个消费者。
分区分配完毕之后，首领会把分区分配信息发送给群组协调器，群组协调器再把这些信息发送给所有的消费者。每个消费者只能看到自己的分配信息，只有首领会持有所有消费者及其分区所有权的信息。每次再均衡都会经历这个过程。
消费者会向群组协调器发送心跳，以此来保持群组成员关系和对分区的所有权关系。心跳是由消费者的一个后台线程发送的，只要消费者能够以正常的时间间隔发送心跳，它就会被认为还“活着”。如果消费者没有正确调用 close()，并且在一段时间内没有发送心跳，那么它的会话就将超时（session.timeout.ms 默认 10s），群组协调器会认为它已经“死亡”，进而触发再均衡。
如果一个消费者遇到了死锁导致长时间等待超过了 poll 设定的时间间隔（max.poll.interval.ms 默认 5 分钟），后台线程将向 broker 发送一个“离开群组”的请求，让 broker 知道这个消费者已经“死亡”，必须进行群组再均衡，然后停止发送心跳。
消费者正确关闭，调用 close() 方法。消费者在被关闭时会提交还没有提交的偏移量，并向消费者协调器发送消息，告知自己正在离开群组。协调器会立即触发再均衡，被关闭的消费者所拥有的分区将被重新分配给群组里其他的消费者，不需要等待会话超时。

群组固定成员

在默认情况下，消费者的群组成员身份标识是临时的。当一个消费者离开群组时，分配给它的分区所有权将被撤销；当该消费者重新加入时，将通过再均衡协议为其分配一个新的成员 ID 和新分区。
可以给消费者分配一个唯一的 group.instance.id，让它成为群组的固定成员。通常，当消费者第一次以固定成员身份加入群组时，群组协调器会按照分区分配策略给它分配一部分分区。当这个消费者被关闭时，它不会自动离开群组——它仍然是群组的成员，直到会话超时。当这个消费者重新加入群组时，它会继续持有之前的身份，并分配到之前所持有的分区。群组协调器缓存了每个成员的分区分配信息，只需要将缓存中的信息发送给重新加入的固定成员，不需要进行再均衡。
如果两个消费者使用相同的 group.instance.id 加入同一个群组，则第二个消费者会收到
错误，告诉它具有相同 ID 的消费者已存在。
如果应用程序需要维护与消费者分区所有权相关的本地状态或缓存，那么群组固定成员关系就非常有用。如果重建本地缓存非常耗时，那么你肯定不希望在每次重启消费者时都经历这个过程。更重要的是，在消费者重启时，消费者所拥有的分区不会被重新分配。在重启过程中，消费者不会读取这些分区，所以当消费者重启完毕时，读取进度会稍稍落后，但你要相信它们一定会赶上。
需注意的是，群组的固定成员在调用 close（）关闭时不会主动离开群组，它们何时“真正消失”取决于 session.timeout.ms 参数。你可以将这个参数设置得足够大，避免在进行简单的应用程序重启时触发再均衡，但又要设置得足够小，以便在出现严重停机时自动重新分配分区，避免这些分区的读取进度出现较大的滞后。

2. 创建 Kafka 消费者

创建 KafkaConsumer 对象与创建 KafkaProducer 对象非常相似——把想要传给消费者的属性放在 Properties 对象里。
- 第一个属性 bootstrap.servers 指定了连接 Kafka 集群的字符串。
- 另外两个属性 key.deserializer 和 value.deserializer 与生产者的 key.serializer 和 value.serializer 类似，只不过它们不是使用指定类把 Java 对象转成字节数组，而是把字节数组转成 Java 对象。
- 第 4 个属性 group.id 不是必需的，但会经常被用到。它指定了一个消费者属于哪一个消费者群组。也可以创建不属于任何一个群组的消费者，只是这种做法不太常见。

Properties props = new Properties();
props.put("bootstrap.servers", "broker1:9092,broker2:9092");
props.put("group.id", "CountryCounter");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> consumer = new KafkaConsumer<String,String>(props);

3. 订阅主题

subscribe() 方法会接收一个主题列表作为参数。
使用 consumer.unsubscribe() 取消订阅主题。

consumer.subscribe(Collections.singletonList("customerCountries"));

也可以在调用 subscribe() 方法时传入一个正则表达式。正则表达式可以匹配多个主题，如果有人创建了新主题，并且主题的名字与正则表达式匹配，那么就会立即触发一次再均衡，然后消费者就可以读取新主题里的消息。如果应用程序需要读取多个主题，并且可以处理不同类型的数据，那么这种订阅方式就很有用。
- 如果 Kafka 集群包含了大量分区（30 000 个或更多），则需注意，主题的过滤是在客户端完成的。
- 当使用正则表达式而不是指定列表订阅主题时，消费者将定期向 broker 请求所有已订阅的主题及分区。然后，客户端会用这个列表来检查是否有新增的主题，如果有，就订阅它们。
- 如果主题很多，消费者也很多，那么通过正则表达式订阅主题就会给 broker、客户端和网络带来很大的开销。
- 在某些情况下，主题元数据使用的带宽会超过用于发送数据的带宽。另外，为了能够使用正则表达式订阅主题，需要授予客户端获取集群全部主题元数据的权限，即全面描述整个集群的权限。

consumer.subscribe(Pattern.compile("test.*"));

4. 轮询

消费者 API 最核心的东西是通过一个简单的轮询向服务器请求数据。

Properties props = new Properties();
props.put("bootstrap.servers", "broker1:9092,broker2:9092");
props.put("group.id", "CountryCounter");
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> consumer = new KafkaConsumer<String,String>(props);

consumer.subscribe(Collections.singletonList("customerCountries"));

try {
	while (true) {
		// 拉取数据
	    ConsumerRecords<String, String> records = consumer.poll(timeout); 
	    // 拉取到的数据为空则跳过
	    if (records.isEmpty()) {
	    	continue;
	    }
	    for (ConsumerRecord<String, String> record : records) { 
	    	try {
	    		// 实际处理逻辑
				System.out.printf("topic = %s, partition = %d, offset = %d, customer = %s, country = %s\n", record.topic(), record.partition(), record.offset(), record.key(), record.value());
			} finally {
				// 每处理完一条数据就记录一下偏移量
				offset = record.offset() + 1;
	        	currentOffsets.put(new TopicPartition(record.topic(), record.partition()), new OffsetAndMetadata(offset, "no metadata"));
			}
	    }
	    // 一批数据处理完后提交偏移量
	    consumer.commitAsync(currentOffsets, null);
	}
} finally {
	try {
		consumer.commitSync(currentOffsets);
	} fianlly {
		// 确保关闭消费者
		consumer.close();
	}
}

这是一个无限循环。消费者是一个长时间运行的应用程序，通过持续轮询来向 Kafka 请求数据。
消费者必须持续对 Kafka 进行轮询，否则会被认为已经“死亡”，分区将被移交给群组里其它的消费者。传给 poll() 的参数是一个超时时间间隔，用于控制 poll() 的阻塞时间。如果这个参数被设置为 0 或者有可用的数据，那么 poll() 就会立即返回，否则它会等待指定的毫秒数（当消费者缓冲区里没有可用数据时）。
poll() 方法会返回一个记录列表。列表中的每一条记录都包含了主题和分区的信息、
记录在分区里的偏移量，以及记录的键 – 值对。我们一般会遍历这个列表，逐条处理记
录。
在第一次调用消费者的 poll() 方法时，它需要找到 GroupCoordinator，加入群组，并接收分配给它的分区。如果触发了再均衡，则整个再均衡过程也会在轮询里进行，包括执行相关的回调。所以，消费者或回调里可能出现的错误最后都会转化成 poll() 方法抛出的异常。
如果超过 max.poll.interval.ms 没有调用 poll()，则消费者将被认为已经“死亡”，并被逐出消费者群组。因此，要避免在轮询循环中做任何可能导致不可预知的阻塞的操作。

5. 线程安全

按照规则，一个消费者使用一个线程。如果要在应用程序的同一个消费者群组里运行多个消费者，则需要让每个消费者运行在自己的线程中。最好是把消费者的逻辑封装在自己的对象里，然后用 Java 的 ExecutorService 启动多个线程，让每个消费者运行在自己的线程中。
在旧版本 Kafka 中，轮询方法的完整签名是 poll(long)。现在，这个签名被弃用了，新 API 的签名是 poll(Duration)。除了参数类型发生变化，方法体里的阻塞语义也发生了细微的改变。原来的方法会一直阻塞，直到从 Kafka 获取所需的元数据，即使阻塞时间比指定的超时时间还长。

6. 配置消费者

（1）fetch.min.bytes

消费者从服务器获取记录的最小字节数，默认是 1 字节。broker 在收到消费者的获取数据请求时，如果可用数据量小于 fetch.min.bytes 指定的大小，那么它就会等到有足够可用数据时才将数据返回。这样可以降低消费者和 broker 的负载，因为它们在主题流量不是很大的时候（或者一天里的低流量时段）不需要来来回回地传输消息。
如果消费者在没有太多可用数据时 CPU 使用率很高，或者在有很多消费者时为了降低 broker的负载，那么可以把这个属性的值设置得比默认值大。
但需要注意的是，在低吞吐量的情况下，加大这个值会增加延迟。

（2）fetch.max.wait.ms

让 Kafka 等到有足够多的数据时才将它们返回给消费者，feth.max.wait.ms 则用于指定 broker 等待的时间，默认是 500 毫秒。如果没有足够多的数据流入 Kafka，那么消费者获取数据的请求就得不到满足，最多会导致 500 毫秒的延迟。
如果要降低潜在的延迟（为了满足 SLA），那么可以把这个属性的值设置得小一些。
如果 fetch.max.wait.ms 被设置为 100 毫秒，fetch.min.bytes 被设置为 1 MB，那么 Kafka 在收到消费者的请求后，如果有 1 MB 数据，就将其返回，如果没有，就在 100 毫秒后返回，就看哪个条件先得到满足。

（3）fetch.max.bytes

指定了 Kafka 返回的数据的最大字节数（默认为 50 MB）。
消费者会将服务器返回的数据放在内存中，所以这个属性被用于限制消费者用来存放数据的内存大小。
需要注意的是，记录是分批发送给客户端的，如果 broker 要发送的批次超过了这个属性指定的大小，那么这个限制将被忽略。这样可以保证消费者能够继续处理消息。
值得注意的是，broker 端也有一个与之对应的配置属性，Kafka 管理员可以用它来限制最大获取数量。broker 端的这个配置属性可能很有用，因为请求的数据量越大，需要从磁盘读取的数据量就越大，通过网络发送数据的时间就越长，这可能会导致资源争用并增加 broker的负载。

（4）max.poll.records √

控制单次调用 poll() 方法返回的记录条数。可以用它来控制应用程序在进行每一次轮询循环时需要处理的记录条数。

（5）max.partition.fetch.bytes

指定了服务器从每个分区里返回给消费者的最大字节数（默认值是 1 MB）。当KafkaConsumer.poll() 方法返回 ConsumerRecords 时，从每个分区里返回的记录最多不超过 max.partition.fetch.bytes 指定的字节。
使用这个属性来控制消费者的内存使用量会让事情变得复杂，因为你无法控制 broker 返回的响应里包含多少个分区的数据。因此，对于这种情况，建议用 fetch.max.bytes 替代，除非有特殊的需求，比如要求从每个分区读取差不多的数据量。

（6）session.timeout.ms 和 heartbeat.interval.ms √

session.timeout.ms 指定了消费者可以在多长时间内不与服务器发生交互而仍然被认为还“活着”，默认是 10 秒。如果消费者没有在 session.timeout.ms 指定的时间内发送心跳给群组协调器，则会被认为已“死亡”，协调器就会触发再均衡，把分区分配给群组里的其他消费者。
heartbeat.interval.ms 指定了消费者向协调器发送心跳的频率，session.timeout.ms 指定了消费者可以多久不发送心跳。因此，我们一般会同时设置这两个属性 heartbeat.interval.ms 必须比 session.timeout.ms 小，通常前者是后者的 1/3。
把 session.timeout.ms 设置得比默认值小，可以更快地检测到崩溃，并从崩溃中恢复，但也会导致不必要的再均衡。把 session.timeout.ms设置得比默认值大，可以减少意外的再均衡，但需要更长的时间才能检测到崩溃。

（7）max.poll.interval.ms √

指定了消费者在被认为已经“死亡”之前可以在多长时间内不发起轮询。心跳和会话超时是 Kafka 检测已“死亡”的消费者并撤销其分区的主要机制。心跳是通过后台线程发送的，而后台线程有可能在消费者主线程发生死锁的情况下继续发送心跳，但这个消费者并没有在读取分区里的数据。要想知道消费者是否还在处理消息，最简单的方法是检查它是否还在请求数据。但是，请求之间的时间间隔是很难预测的，它不仅取决于可用的数据量、消费者处理数据的方式，有时还取决于其他服务的延迟。在需要耗费时间来处理每个记录的应用程序中，可以通过 max.poll.records 来限制返回的数据量，从而限制应用程序在再次调用 poll() 之前的等待时长。但是，即使设置了max.poll.records，调用 poll() 的时间间隔仍然很难预测。于是，设置 max.poll.interval.ms 就成了一种保险措施。它必须被设置得足够大，让正常的消费者尽量不触及这个阈值，但又要足够小，避免有问题的消费者给应用程序造成严重影响。这个属性的默认值为 5 分钟。当这个阈值被触及时，后台线程将向 broker 发送一个“离开群组”的请求，让 broker 知道这个消费者已经“死亡”，必须进行群组再均衡，然后停止发送心跳。

（8）default.api.timeout.ms

如果在调用消费者 API 时没有显式地指定超时时间，那么消费者就会在调用其他 API 时使用这个属性指定的值。默认值是 1 分钟，因为它比请求超时时间的默认值大，所以可以将重试时间包含在内。poll() 方法是一个例外，因为它需要显式地指定超时时间。

（9）request.timeout.ms

消费者在收到 broker 响应之前可以等待的最长时间。如果 broker 在指定时间内没有做出响应，那么客户端就会关闭连接并尝试重连。它的默认值是 30 秒。不建议把它设置得比默认值小。在放弃请求之前要给 broker 留有足够长的时间来处理其他请求，因为向已经过载的 broker 发送请求几乎没有什么好处，况且断开并重连只会造成更大的开销。

（10）auto.offset.reset √

消费者在读取一个没有偏移量或偏移量无效（因消费者长时间不在线，偏移量对应的记录已经过期并被删除）的分区时该做何处理。
它的默认值是 latest，意思是说，如果没有有效的偏移量，那么消费者将从最新的记录（在消费者启动之后写入 Kafka的记录）开始读取。
另一个值是 earliest，意思是说，如果没有有效的偏移量，那么消费者将从起始位置开始读取记录。如果将 auto.offset.reset 设置为 none，并试图用一个无效的偏移量来读取记录，则消费者将抛出异常。

（11）enable.auto.commit √

消费者是否自动提交偏移量，默认值是 true。你可以把它设置为 false，选择自己控制何时提交偏移量，以尽量避免出现数据重复和丢失。如果它被设置为 true，那么还有另外一个属性 auto.commit.interval.ms 可以用来控制偏移量的提交频率。

（12） partition.assignment.strategy √

PartitionAssignor 根据给定的消费者和它们订阅的主题来决定哪些分区应该被分配给哪个消费者。 kafka 消费者的消费策略以及再平衡。
- Range 分区策略
  - Range 是对每个 topic 而言的。把每一个主题的若干个连续分区分配给消费者。
  - 首先对同一个 topic 里面的分区按序号进行排序，并对消费者按字母进行排序。假如有 7 个分区， 3 个消费者，分区为0 1 2 3 4 5 6，消费者为 C0 C1 C2。通过 partitions 数量 /consumer 数量来决定每个消费者应该消费几个分区。如果除不尽，那么前面几个消费者将会多消费 1 个分区。7 / 3 = 2 余 1 ，除不尽，那么消费者 C0 便会多消费 1 个分区。8 / 3 = 2 余 2 ，除不尽，那么 C0 和 C1 分别多消费一个。
  - 如果只是针对 1 个 topic 而言， C0 消费者多消费 1 个分区影响不是很大。但是如果有 N 多个 topic ，那么针对每个 topic ，消费者 C0 都将多消费 1 个分区， topic 越多， C0 消费的分区会比其他消费者明显多消费 N 个分区。容易产生数据倾斜！
- RoundRobin 分区策略
  - RoundRobin 针对集群中所有 Topic 而言。 RoundRobin 轮询分区策略，是把所有的 partition 和所有的 consumer 都列出来，然后按照 hashcode 进行排序，最后通过轮询算法来分配 partition 给到各个消费者。
- 粘性分区策略
  - 设计黏性分区分配器的目的有两个：一是尽可能均衡地分配分区，二是在进行再均衡时多地保留原先的分区所有权关系，减少将分区从一个消费者转移给另一个消费者所带来的开销。如果所有消费者都订阅了相同的主题，那么黏性分配器初始的分配比例将与轮询分配器一样均衡。后续的重新分配将同样保持均衡，但减少了需要移动的分区的数量。如果同一个群组里的消费者订阅了不同的主题，那么黏性分配器的分配比例将比轮询分配器更加均衡。
- 协作黏性分区策略
  - 这个分配策略与黏性分配器一样，只是它支持协作（增量式）再均衡，在进行再均衡时消费者可以继续从没有被重新分配的分区读取消息。
默认值是 org.apache.kafka.clients.consumer.RangeAssignor。也可以改成 org.apache.kafka.clients.consumer.RoundRobinAssignor / StickyAssignor / CooperativeStickyAssignor。
使用自定义分配策略，需要把 partition.assignment.strategy 设置成自定义类的名字。

（13）client.id

可以是任意字符串，broker 用它来标识从客户端发送过来的请求，比如获取请求。通常被用在日志、指标和配额中。

（14）client.rack

所有想要发布消息的生产者必须连接到首领，但消费者可以从首领或者跟随者那里读取消息。
如果集群跨越了多个数据中心或多个云区域，那么让消费者从位于同一区域的副本那里获取消息就会具有性能和成本方面的优势。
Kafka 可以将新创建的分区分配给部署在不同机架上的 broker（机架感知），确保单个分区的副本不会都位于同一个机架。要做到这一点，必须正确配置每个 broker 的 broker.rack 参数。
要从最近的副本获取消息，需要设置 client.rack 这个参数，用于标识客户端所在的区域。broker 的 replica.selector.class 改为org.apache.kafka.common.replica.RackAwareReplicaSelector。

（15）group.instance.id √

可以是任意具有唯一性的字符串，被用于消费者群组的固定名称。

（16）receive.buffer.bytes和send.buffer.bytes

socket 在读写数据时用到的 TCP 缓冲区大小。如果它们被设置为 –1，就使用操作系统的默认值。如果生产者或消费者与 broker 位于不同的数据中心，则可以适当加大它们的值，因为跨数据中心网络的延迟一般都比较高，而带宽又比较低。

（17） offsets.retention.minutes √

只要消费者群组里有活跃的成员（也就是说，有成员通过发送心跳来保持其身份），群组提交的每一个分区的最后一个偏移量就会被 Kafka 保留下来，在进行重分配或重启之后就可以获取到这些偏移量。但是，如果一个消费者群组失去了所有成员，则 Kafka 只会按照这个属性指定的时间（默认为 7 天）保留偏移量。一旦偏移量被删除，即使消费者群组又“活”了过来，它也会像一个全新的群组一样，没有了过去的消费记忆。

7. 提交和偏移量

每次调用 poll() 方法，它总是会返回还没有被消费者读取过的记录，这意味着我们有办法来追踪哪些记录是被群组里的消费者读取过的。Kafka 不像其他 JMS 队列系统那样需要收到来自消费者的确认，相反，消费者可以用 Kafka 来追踪已读取的消息在分区中的位置（偏移量）。
我们把更新分区当前读取位置的操作叫作偏移量提交。与传统的消息队列不同，Kafka 不会提交每一条记录。消费者会将已成功处理的最后一条消息提交给 Kafka，并假定该消息之前的每一条消息都已成功处理。
那么消费者是如何提交偏移量的呢？消费者会向一个叫作 __consumer_offset 的主题发送消息，消息里包含每个分区的偏移量。如果消费者一直处于运行状态，那么偏移量就没有什么实际作用。但是，如果消费者发生崩溃或有新的消费者加入群组，则会触发再均衡。再均衡完成之后，每个消费者可能会被分配新的分区，而不是之前读取的那个。为了能够继续之前的工作，消费者需要读取每个分区最后一次提交的偏移量，然后从偏移量指定的位置继续读取消息。
消息的重复消费：最后一次提交的偏移量小于客户端处理的最后一条消息的偏移量，那么在发生再均衡之后，处于两个偏移量之间的消息会被重复消费。

消息的丢失：最后一次提交的偏移量大于客户端处理的最后一条消息的偏移量，那么在发生再均衡之后，处于两个偏移量之间的消息就会丢失。

（1）基于时间间隔自动提交

如果使用自动提交或不指定提交的偏移量，那么将默认提交 poll() 返回的最后一个位置之后的偏移量。在进行手动提交或需要提交特定的偏移量时，一定要记住这一点。
最简单的提交方式是让消费者自动提交偏移量。如果 enable.auto.commit 被设置为 true，那么每过 5 秒，消费者就会自动提交 poll() 返回的最大偏移量。提交时间间隔通过auto.commit.interval.ms 来设定，默认是 5 秒。与消费者中的其他处理过程一样，自动提交也是在轮询循环中进行的。消费者会在每次轮询时检查是否该提交偏移量了，如果是，就会提交最后一次轮询返回的偏移量。
假设使用默认的 5 秒提交时间间隔，并且消费者在最后一次提交偏移量之后 3 秒会发生崩溃。再均衡后，接管分区的消费者从最后一次提交的偏移量的位置开始读取消息。这个偏移量实际上落后了 3 秒，所以在这 3 秒内到达的消息会被重复处理。可以通过修改提交时间间隔来更频繁地提交偏移量，缩小可能导致重复消息的时间窗口，但无法完全避免。
在使用自动提交时，到了该提交偏移量的时候，轮询方法将提交上一次轮询返回的偏移量，但它并不知道具体哪些消息已经被处理过了，所以，在再次调用 poll() 之前，要确保上一次 poll() 返回的所有消息都已经处理完毕（调用 close() 方法也会自动提交偏移量）。通常情况下这不会有什么问题，但在处理异常或提前退出轮询循环时需要特别小心。
虽然自动提交很方便，但是没有为避免开发者重复处理消息留有余地。

（2）手动提交当前偏移量

同步提交

把 enable.auto.commit 设置为 false，让应用程序自己决定何时提交偏移量。使用commitSync() 提交偏移量是最简单可靠的方式。这个 API 会提交 poll() 返回的最新偏移量，提交成功后马上返回，如果由于某些原因提交失败就抛出异常。
需要注意的是，commitSync() 将会提交 poll() 返回的最新偏移量，所以，如果你在处理完所有记录之前就调用了 commitSync()，那么一旦应用程序发生崩溃，就会有丢失消息的风险（消息已被提交但未被处理）。如果应用程序在处理记录时发生崩溃，但 commitSync()还没有被调用，那么从最近批次的开始位置到发生再均衡时的所有消息都将被再次处理。
只要没有发生不可恢复的错误，commitSync() 方法就会一直尝试直至提交成功。如果提交失败，就把异常记录到错误日志里。

Duration timeout = Duration.ofMillis(100);
while (true) {
    ConsumerRecords<String, String> records = consumer.poll(timeout);
    for (ConsumerRecord<String, String> record : records) {
    	System.out.printf("topic = %s, partition = %d, offset = %d, customer = %s, country= %s\n",
    	record.topic(), record.partition(),
    	record.offset(), record.key(), record.value());
	}
	try {
	    consumer.commitSync();
	} catch (CommitFailedException e) {
	    log.error("commit failed", e)
	}
}

异步提交

手动提交有一个缺点，在 broker 对请求做出回应之前，应用程序会一直阻塞，这样会限制应用程序的吞吐量。
在提交成功或碰到无法恢复的错误之前，commitSync() 会一直重试，但 commitAsync() 不会。之所以不进行重试，是因为 commitAsync() 在收到服务器端的响应时，可能已经有一个更大的偏移量提交成功。假设我们发出一个提交偏移量 2000 的请求，这个时候出现了短暂的通信问题，服务器收不到请求，自然也不会做出响应。与此同时，我们处理了另外一批消息，并成功提交了偏移量 3000。如果此时commitAsync() 重新尝试提交偏移量 2000，则有可能在偏移量 3000 之后提交成功。这个时候如果发生再均衡，就会导致消息重复。
commitAsync() 也支持回调，回调会在 broker 返回响应时执行。回调经常被用于记录偏移量提交错误或生成指标。

Duration timeout = Duration.ofMillis(100);
while (true) {
    ConsumerRecords<String, String> records = consumer.poll(timeout);
    for (ConsumerRecord<String, String> record : records) {
    	System.out.printf("topic = %s, partition = %d, offset = %d, customer = %s, country= %s\n",
    	record.topic(), record.partition(),
    	record.offset(), record.key(), record.value());
	}
	 consumer.commitAsync(new OffsetCommitCallback() {
	 	public void onComplete(Map<TopicPartition, OffsetAndMetadata> offsets, Exception e) {
	 	if (e != null)
	 		log.error("Commit failed for offsets {}", offsets, e);
	 	}
	});
}

同步和异步组合提交 √

Duration timeout = Duration.ofMillis(100);
try {
	while (!closing) {
	    ConsumerRecords<String, String> records = consumer.poll(timeout);
	    for (ConsumerRecord<String, String> record : records) {
	    	System.out.printf("topic = %s, partition = %d, offset = %d, customer = %s, country= %s\n",
	    	record.topic(), record.partition(),
	    	record.offset(), record.key(), record.value());
		}
		 consumer.commitAsync();
	}
	consumer.commitSync(); // 如果直接关闭消费者，那么就没有所谓的“下一次提交”了。commitSync() 会一直重试，直到提交成功或发生无法恢复的错误。
} catch (Exception e) {
} finally {
	consumer.close();
}

（3）提交特定的偏移量

如果 poll() 返回了一大批数据，那么为了避免可能因再均衡引起的重复消费，想要在批次处理过程中提交偏移量该怎么办？这个时候不能只是调用 commitSync() 或commitAsync()，因为它们只会提交消息批次里的最后一个偏移量。消费者 API 允许在调用 commitSync() 和 commitAsync() 时传给它们想要提交的分区和偏移量。因为一个消费者可能不止读取一个分区，你需要跟踪所有分区的偏移量。

private Map<TopicPartition, OffsetAndMetadata> currentOffsets = new HashMap<>();
int count = 0;
Duration timeout = Duration.ofMillis(100);
while (true) {
    ConsumerRecords<String, String> records = consumer.poll(timeout);
    for (ConsumerRecord<String, String> record : records) {
        System.out.printf("topic = %s, partition = %s, offset = %d, customer = %s, country = %s\n", record.topic(), record.partition(), record.offset(), record.key(), record.value());
	 	currentOffsets.put(new TopicPartition(record.topic(), record.partition()),new OffsetAndMetadata(record.offset()+1, "no metadata"));
	if (count % 1000 == 0)
		consumer.commitAsync(currentOffsets, null);
 		count++; 
 	}
}

8.再均衡监听器 √

消费者会在退出和进行分区再均衡之前做一些清理工作。
- 如果知道消费者即将失去对一个分区的所有权，那么你就会马上提交最后一个已处理的记录的偏移量。可能还需要关闭文件句柄、数据库连接等。
- 在重新分配分区之后以及消费者开始读取消息之前，你可以准备或加载与分区相关的状态信息、找到正确的偏移量等。
消费者 API 提供了一些方法，让你可以在消费者分配到新分区或旧分区被移除时执行一些代码逻辑。所做的就是在调用 subscribe() 方法时传入 ConsumerRebalanceListener 对象。
ConsumerRebalanceListener 有 3 个需要实现的方法。
- public void onPartitionsAssigned(Collection partitions)：
  - 方法会在重新分配分区之后以及消费者开始读取消息之前被调用。你可以在这个方法中准备或加载与分区相关的状态信息、找到正确的偏移量等。
- public void onPartitionsRevoked(Collection partitions)：
  - 方法会在消费者放弃对分区的所有权时调用——可能是因为发生了再均衡或者消费者正在被关闭。
- public void onPartitionsLost(Collection partitions)：
  - 只在使用了协作再均衡算法并且之前不是通过再均衡获得的分区被重新分配给其他消费者时调用（之前通过再均衡获得的分区被重新分配时会调用 onPartitions Revoked()）。如果没有实现这个方法，onPartitionsRevoked() 将被调用。

private class HandleRebalance implements ConsumerRebalanceListener {

    public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
    	long lastOffset = 0;
    	long committedOffset = -1;
        for (TopicPartition topicPartition : partitions) {
            // 第一种：上次consumer提交的offset的值
            // committedOffset = consumer.committed(topicPartition).offset();
            // consumer.seek(topicPartition, committedOffset + 1);

			// 第二种：下次consumer开始消费的offset的位置
			lastOffset = consumer.position(topicPartition)
            consumer.seek(topicPartition, lastOffset);
        }
    }
    
    public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
        System.out.println("分区再均衡，提交当前偏移量：" + currentOffsets);
        consumer.commitSync(currentOffsets);
        currentOffsets.clear();
    }
}

consumer.subscribe(Collections.singletonList("customerCountries"), new HandleRebalance());

try {
	while (true) {
		// 拉取数据
	    ConsumerRecords<String, String> records = consumer.poll(timeout); 
	    // 拉取到的数据为空则跳过
	    if (records.isEmpty()) {
	    	continue;
	    }
	    for (ConsumerRecord<String, String> record : records) { 
	    	try {
	    		// 实际处理逻辑
				System.out.printf("topic = %s, partition = %d, offset = %d, customer = %s, country = %s\n", record.topic(), record.partition(), record.offset(), record.key(), record.value());
			} finally {
				// 每处理完一条数据就记录一下偏移量
				offset = record.offset() + 1;
	        	currentOffsets.put(new TopicPartition(record.topic(), record.partition()), new OffsetAndMetadata(offset, "no metadata"));
			}
	    }
	    // 一批数据处理完后提交偏移量
	    consumer.commitAsync(currentOffsets, null);
	}
} finally {
	try {
		consumer.commitSync(currentOffsets);
	} fianlly {
		// 确保关闭消费者
		consumer.close();
	}
}

9.从特定偏移量位置读取记录 √

可以使用 poll() 从各个分区的最新偏移量位置读取消息，但有时候也需要从不同的偏移量位置读取消息。Kafka 提供了一些方法，可以让 poll() 从不同的位置读取消息。
- seekToBeginning(Collection tp)：从分区的起始位置读取所有的消息
- seekToEnd(Collection tp)：直接跳到分区的末尾读取新消息
- seek(TopicPartition tp，long offset)：指定偏移量
Kafka 还提供了用于查找特定偏移量的 API。

// 一小时前
Long oneHourEarlier = Instant.now().atZone(ZoneId.systemDefault()).minusHours(1).toEpochSecond();

// consumer.assignment(): 获取当前消费者topic、分区信息
// 构建一个 map，分区-时间
Map<TopicPartition, Long> partitionTimestampMap = consumer.assignment().stream().collect(Collectors.toMap(tp -> tp, tp -> oneHourEarlier)); 

// 通过时间戳查询对应的偏移量
Map<TopicPartition, OffsetAndTimestamp> offsetMap = consumer.offsetsForTimes(partitionTimestampMap);

// 重置每个分区的偏移量
for(Map.Entry<TopicPartition,OffsetAndTimestamp> entry: offsetMap.entrySet()) {
    consumer.seek(entry.getKey(), entry.getValue().offset());
}

10.退出 √

无须担心消费者在一个无限循环里轮询消息，因为我们可以让其优雅地退出。如果确定马上要关闭消费者（即使消费者还在等待一个 poll() 返回），那么可以在另一个线程中调用 consumer.wakeup()。如果轮询循环运行在主线程中，那么可以在 ShutdownHook 里调用这个方法。需要注意的是，consumer.wakeup() 是消费者唯一一个可以在其他线程中安全调用的方法。
调用 consumer.wakeup() 会导致 poll() 抛出 WakeupException，如果调用 consumer.wakeup() 时线程没有在轮询，那么异常将在下一次调用 poll() 时抛出。不一定要处理 WakeupException，但在退出线程之前必须调用 consumer.close()。消费者在被关闭时会提交还没有提交的偏移量，并向消费者协调器发送消息，告知自己正在离开群组。协调器会立即触发再均衡，被关闭的消费者所拥有的分区将被重新分配给群组里其他的消费者，不需要等待会话超时。

Runtime.getRuntime().addShutdownHook(new Thread() {
    public void run() {
    	System.out.println("Starting exit...");
	    consumer.wakeup(); ➊
	    try {
	         mainThread.join();
	    } catch (InterruptedException e) {
	         e.printStackTrace();
	    }
   }
});

11.订阅主题：使用不属于任何群组的消费者

你可能只需要用一个消费者读取一个主题所有的分区或某个分区。这个时候就不需要使用消费者群组和再均衡了，只需要把主题或分区分配给这个消费者，然后开始读取消息，并时不时地提交偏移量。（尽管为了提交偏移量仍然需要配置 group.id，但只要不调用 subscribe()，消费者就不会加入任何群组）
使用 consumer.partitionsFor(“topic”) 获取特定主题的分区情况。
使用 consumer.assign(partitions) 订阅指定的分区。
使用 consumer.assgin(new ArrayList()) 取消某个分区的订阅。

Duration timeout = Duration.ofMillis(100);
List<PartitionInfo> partitionInfos = null;
partitionInfos = consumer.partitionsFor("topic"); 

if (partitionInfos != null) {
	 for (PartitionInfo partition : partitionInfos)
	 	partitions.add(new TopicPartition(partition.topic(), partition.partition()));
	 consumer.assign(partitions); 

	 while (true) {
	 	ConsumerRecords<String, String> records = consumer.poll(timeout);
	 
	 	for (ConsumerRecord<String, String> record: records) {
			System.out.printf("topic = %s, partition = %s, offset = %d,customer = %s, country = %s\n", record.topic(), record.partition(), record.offset(), record.key(), record.value());
 		}
 		consumer.commitSync();
 	}
}

你可能感兴趣的:(Kafka,kafka,分布式)

GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
华为云分布式缓存服务DCS 8月新特性发布华为云PaaS服务小智华为云分布式缓存
分布式缓存服务（DistributedCacheService，简称DCS）是华为云提供的一款兼容Redis的高速内存数据处理引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足用户高并发及数据快速访问的业务诉求。此次为大家带来DCS8月的特性更新内容，一起来看看吧！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
KVM+GFS分布式存储系统构建KVM高可用 henan程序媛分布式 GFS 高可用 KVM
一、案列分析1.1案列概述本章案例主要使用之前章节所学的KVM及GlusterFs技术,结合起来从而实现KVM高可用。利用GlusterFs分布式复制卷，对KVM虚拟机文件进行分布存储和冗余。分布式复制卷主要用于需要冗余的情况下把一个文件存放在两个或两个以上的节点,当其中一个节点数据丢失或者损坏之后，KVM仍然能够通过卷组找到另一节点上存储的虚拟机文件，以保证虚拟机正常运行。当节点修复之后，Glu
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
慢速连接攻击是什么？慢速连接攻击怎么防护？快快小毛毛网络 ddos 服务器
慢速连接攻击（SlowConnectionAttack），又称慢速攻击（SlowlorisAttack），是一种网络攻击技术，旨在通过占用服务器上的所有可用连接资源来使其无法响应正常请求。与传统的拒绝服务（DoS）和分布式拒绝服务（DDoS）攻击不同，慢速攻击并不依赖于发送大量数据包来消耗带宽，而是利用HTTP、TCP或SSL等协议的特性，通过发送大量不完整的请求或缓慢发送数据来占用服务器资源，使
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
Gobelieve 架构 weixin_34099526 数据库 golang json
Gobelievegithub地址声明:转简书JackieF的文章,为了自己方便copy了一份,加一些自己的东西.链接：https://www.jianshu.com/p/8121d6e85282IMCore主要分三大块:im客户连接服务器（可分布式部署，暂无负载均衡模块)imr路由查询服务器（主要解决im分布式部署的问题）ims存储服务器(主从部署)基础模块1.数据包协议包：header(12)
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
linux挂载文件夹小码快撩 linux
1.使用NFS（NetworkFileSystem）NFS是一种分布式文件系统协议，允许一个系统将其文件系统的一部分共享给其他系统。检查是否安装NFSrpm-qa|grepnfs2.启动和启用NFS服务假设服务名称为nfs-server.service，你可以使用以下命令启动和启用它：sudosystemctlstartnfs-server.servicesudosystemctlenablenf
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
Rides实现分布式锁，保障数据一致性,Redisson分布式事务处理朱杰jjj 缓存分布式
分布式环境下分布式锁有三种方式：基于数据库分布式锁基于Redis分布式锁基于zk分布式锁本帖只介绍Redis分布式锁为什么需要用到分布式锁？在单机环境下一个服务中多个线程对同一个事物或数据资源进行操作时，可以通过添加加锁方式（synchronized和lock）来解决数据一致性的问题。但是如果出现多个服务的情况下，这时候我们在通过synchronized和lock的方式来加锁会出现问题，因为多个服
机电综合管理系统架构小熊coder 机载系统系统架构
文章目录一、机电综合管理系统架构1.系统概述2.架构层次3.核心组件二、余度管理1.余度概述2.硬件冗余3.软件冗余4.通信冗余三、总线架构1.MIL-STD-1553B总线2.ARINC429总线3.ARINC629总线4.AFDX/ARINC664总线四、未来发展趋势1.分布式架构2.高速网络3.智能化与自动化结语机电综合管理系统（ElectromechanicalManagementSyst
华为云分布式缓存服务DCS与开源服务差异对比 hcinfo_18 redis使用华为云 Redis5.0 分布式缓存服务 Redis客户端
分布式缓存服务DCS提供单机、主备、集群等丰富的实例类型，满足用户高读写性能及快速数据访问的业务诉求。支持丰富的实例管理操作，帮助用户省去运维烦恼。用户可以聚焦于业务逻辑本身，而无需过多考虑部署、监控、扩容、安全、故障恢复等方面的问题。DCS基于开源Redis、Memcached向用户提供一定程度定制化的缓存服务，因此，除了拥有开源服务缓存数据库的优秀特性，DCS提供更多实用功能。一、与开源Red
Dubbo架构概览：服务注册与发现、远程调用、监控与管理木南曌 dubbo 架构
Dubbo是一个成熟的、高性能的、基于Java的微服务开发框架，它主要用于解决分布式系统中的服务治理问题，包括服务的注册与发现、远程过程调用（RPC）、服务监控与管理等多个关键环节。以下是Dubbo架构概览的详细介绍：服务注册与发现Dubbo的服务注册与发现机制是其核心功能之一，它依赖于注册中心来管理服务的生命周期和定位服务提供者。1.服务提供者（Provider）服务提供者是实际提供服务的节点，
nfs服务搭建 GHope
nfs是什么？基哥度娘网络文件系统(NFS)是sun微系统最初开发的分布式文件系统协议,[1]允许客户端计算机上的用户通过计算机网络访问文件很像本地存储被访问。NFS与许多其他协议一样,在开放网络计算远程过程调用(很久以前RPC)系统上建立。NFS是在请求注释(RFC)中定义的开放标准,允许任何人实现协议。NFSNFS优势：节省本地存储空间，将常用的数据存放在一台NFS服务器上且可以通过网络访问，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
等保测评中的关键技术挑战与应对策略亿林数据网络安全等保测评
在信息安全领域，等保测评（信息安全等级保护测评）作为确保信息系统安全性的重要手段，其过程中不可避免地会遇到一系列技术挑战。这些挑战不仅考验着企业的技术实力，也对其安全管理水平提出了更高要求。本文将深入探讨等保测评中的关键技术挑战，并提出相应的应对策略。一、等保测评中的关键技术挑战1.复杂系统架构的评估难度随着信息技术的快速发展，企业信息系统的架构日益复杂，包括分布式系统、微服务架构、云计算环境等。
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS