leiax00

Kafka消费者剖析

文章目录

消费者组
- 特性
- 消费者组位移管理
- 消费者组的重平衡
- - 重平衡时机
  - 重平衡策略
  - Rebalance注意事项（弊端）
  - 避免 Rebalance
位移概述
- 位移主题
- - 位移主题消息格式
  - 位移主题的创建
  - 位移主题的使用
  - 位移主题消息删除策略
- 位移提交
- - 自动提交
  - 手动提交
- CommitFailedException异常
- - 异常场景
多线程开发
- Kafka Java Consumer 设计原理
- 多线程方案
- - 多个线程同时消费 + 逻辑处理
  - 单个或多个线程消费 + 多个线程逻辑处理
TCP连接管理

该篇主要介绍Kafka消费者相关一些知识点，以及使用时需要注意的事项；

消费者组

消费者组（Consumer Group）：是 Kafka 提供的可扩展且具有容错性的消费者机制。其中可以有多个消费者或者消费者实例，他们共享一个公共ID（Group ID）。
每一个分区只能由同一个消费者组内的一个Consumer实例来消费；

特性

Consumer Group 下可以有一个或多个 Consumer 实例；
Group ID 是一个字符串，唯一标识一个 Consumer Group;
Consumer Group 订阅主题的单个分区，只能分配给组内的某个 Consumer实例消费；
Consumer Group 可以订阅多个主题；
Consumer Group 之间相互独立，能够订阅相同的一组主题而互不影响；
Consumer Group 实现了传统消息引擎系统的两大模型：点对点模型，订阅发布模型。

一个Group下Consumer实例的理想数量：
	Consumer实例的数量等于该Group订阅主题的分区总数；
如果，实例数小于分区数，则一个实例可能会消费多个分区；
如果，实例数大于分区数，则部分实例可能闲置，浪费系统资源；

消费者组位移管理

对于 Consumer Group：位移（Offset）是一组KV对，K标识分区，V标识对应 Consumer 消费该分区的最新位移。

老版本：
	Consumer Group 把位移保存在Zookeeper中；
	好处：减少了 Kafka Broker 端的状态保存开销；保证服务器节点的无状态，利于自由扩缩容，实现强伸缩性。
	缺点：位移的写操作十分的频繁，这种大吞吐量的写操作会极大的拖慢 Zookeeper 集群的性能。
	Zookeeper是一个分布式协调服务框架，保证其性能及高可用十分重要，因此将位移保存在 Zookeeper中时不合适的做法；
新版本：
	Consumer Group 采用将位移保存在 Kafka 内部主题（__consumer_offsets）的方法来记录位移；

消费者组的重平衡

Rebalance 本质是一种协议，规定一个 Consumer Group下的所有 Consumer 如何达成一致，来分配订阅 Topic 的每个分区。

重平衡时机

组成员数发生变更。比如有新的 Consumer 实例加入组或者离开组，抑或是有 Consumer 实例崩溃被“踢出”组。
订阅主题数发生变更。Consumer Group 可以使用正则表达式的方式订阅主题，比如 consumer.subscribe(Pattern.compile(“t.*c”)) 就表明该 Group 订阅所有以字母 t 开头、字母 c 结尾的主题。在 Consumer Group 的运行过程中，你新创建了一个满足这样条件的主题，那么该 Group 就会发生 Rebalance。
订阅主题的分区数发生变更。Kafka 当前只能允许增加一个主题的分区数。当分区数增加时，就会触发订阅该主题的所有 Group 开启 Rebalance。

重平衡策略

当 Rebalance 发生时，Group下所有的生产者实例都会协调在一起共同参与，而具体的分配情况跟策略有关：详细参见：https://blog.csdn.net/shenshouniu/article/details/84076930

Range 分区分配策略：即平均分配，分区总数 % 实例数，余数分配给第一个实例；
Round-robin 分区分配策略：如果同一个消费组内所有的消费者的订阅信息都是相同的，那么RoundRobinAssignor策略的分区分配会是均匀的。（你一个我一个他一个，轮询）
使用RoundRobin策略有两个前提条件必须满足：
1. 同一个Consumer Group里面的所有消费者的num.streams必须相等；
2. 每个消费者订阅的主题必须相同。
StickyAssignor分区分配策略
1. 分区的分配要尽可能的均匀；
2. 分区的分配尽可能的与上次分配的保持相同。

当两者发生冲突时，第一个目标优先于第二个目标。鉴于这两个目标，StickyAssignor策略的具体实现要比RangeAssignor和RoundRobinAssignor这两种分配策略要复杂很多。

Rebalance注意事项（弊端）

Rebalance过程中，所有 Consumer 实例都会停止消费，等待 Rebalance 完成；这会对Consumer的 TPS影响很大；整个过程类似JVM的垃圾回收机制–万物静止（stop the world）
Rebalance 的设计是所有 Consumer 实例共同参与，全部重新分配所有分区。其实更高效的做法是尽量减少分配方案的变动。
Rebalance的效率极低，唯一的解决方案就是：避免Rebalance的发生。

避免 Rebalance

在 Rebalance 过程中，所有 Consumer 实例共同参与，在协调者组件（Coordinator）的帮助下，完成订阅主题分区的分配；
协调者组件（Coordinator）：专门为 Consumer Group服务，负责为 Group 执行 Rebalance 以及提供位移管理和组成员管理等；
Consumer 端应用程序再提交位移时，是向 Coordinator 所在的 Broker 提交位移。
同样地，当 Consumer 应用启动时，也是向 Coordinator 所在的 Broker 发送各种请求，然后由 Coordinator 负责执行消费者组的注册、成员管理记录等元数据管理操作。
所有 Broker 在启动时，都会创建和开启相应的 Coordinator 组件。也就是说，所有 Broker 都有各自的 Coordinator 组件。

当 Consumer Group 出现问题时，可以根据以下算法快速定位到正确的 Broker 端，可查看日志：
	1. 确定由位移主题的哪个分区来保存该Group数据：根据groupId的hash值来确定
		partitionId=Math.abs(groupId.hashCode() % offsetsTopicPartitionCount)
	3. 找到该分区 Leader副本所在的 Broker， 该 Broker 即为对应的 Coordinator。

Relalance 在订阅主题数量和分区数发生变化时发生，大多由运维主动操作产生，这类大多是无法避免的；
能避免的时机：组成员发生变化时

如果 Consumer Group 下的Consumer 实例数量发生变化时，一定会引发 Rebalance；
通常的，对于新增Consumer的操作都是计划内的，可能是出于增加TPS或提高伸缩性的需要；
而在某些情况下， Consumer 实例会被 Coordinator 错误地认为“已停止”从而被“踢出”Group。如果是这个原因导致的 Rebalance，那么是可以避免的；

session.timeout.ms : Consumer端参数，表征最大心跳间隔时间；默认 10秒
每个 Consumer 实例会定期的向 Coordinator 发送心跳请求，表示它还存活；
如果 Consumer没有在以上配置项的时间内发送心跳，Coordinator会认为该Consumer死掉，从而将其从 Group中移除，然后开始新的Rebalance；
heartbeat.interval.ms : Consumer端参数，表示心跳发送频率；频繁发送会额外消耗宽带资源；
max.poll.interval.ms ：限定了 Consumer 端应用程序两次调用 poll 方法的最大时间间隔。
默认值是 5 分钟，表示你的 Consumer 程序如果在 5 分钟之内无法消费完 poll 方法返回的消息，
那么 Consumer 会主动发起“离开组”的请求，Coordinator 也会开启新一轮 Rebalance。

Coordinator通知Consumer开启Rebalance的方法：将 REBALANCE_NEEDED 标志封装进心跳请求的响应体中。
不必要的Rebalance分类：

未能及时发送心跳

设置 session.timeout.ms = 6s。
设置 heartbeat.interval.ms = 2s。
要保证 Consumer 实例在被判定为“dead”之前，能够发送至少 3 轮的心跳请求，
即 session.timeout.ms = 3 * heartbeat.interval.ms。

消息消费时间太长

设置 max.poll.interval.ms为一个较大的值，保证下游的业务逻辑能够处理完；

其他

可以检查下Consumer端的 GC 表现，是否是出现频繁的 Full GC 导致的长时间停顿，从而引发的 Rebalance；
 这种情况需要调整 GC设置

位移概述

位移主题

位移主题（Offsets Topic）: 主题名：__consumer_offsets，用于记录消费者消费一个主题的进度；
自 0.8.2.x 版本开始修改，并在最终的新版本 Consumer （稳定版本：0.10.2.2及之后版本）中正式推出新的位移管理机制：通过位移主题管理；
位移主题机制：将 Consumer 的位移数据作为一条条普通的Kafka消息，提交到 __consumer_offsets中；
位移主题也是普通的 Kafka 主题，不过他的消息格式是 Kafka 自己定义的，我们可以手动的创建、修改，甚至删除；不过大部分情况下，我们可以不关注他；

位移主题消息格式

位移主题的 Key 由三部分组成：；
位移主题的 Value，主要保存了位移值；当然还会保存其他一些元数据（时间戳，用户定义的数据），主要用于帮助Kafka执行各种各样的后续操作；

其他格式：

用于保存 Consumer Group 信息的消息；

该格式非常神秘，几乎无法在搜索引擎中搜到他的信息，主要是用来注册 Consumer Group的

用于删除 Group 过期位移甚至是删除 Group的信息

专属名：tombstone消息 --- 墓碑消息（delete mark）
这些消息只出现在源码中而不会对外暴露，主要特点是他的消息体是 空消息体（null）
写入时机： 一旦某个 Consumer Group 下的所有Consumer 实例都停止，而且他们的位移数据都已被删除时， 
Kafka 会向位移主题的对应分区写入 tombstone消息，表明要彻底删除这个Group的信息。

位移主题的创建

通常， 当 Kafka 集群中的第一个 Consumer 程序启动时， Kafka会自动创建位移主题。
在位移主题自动创建时，会根据 Broker端参数 offsets.topic.num.partitions来设置分区数，默认值为50；即在不修改配置的情况下，位移主题默认有50个分区；
对于副本，由另一个Broker端参数控制：offsets.topic.replication.factor, 默认值：3；即每个位移主题的分区有3个副本；

**位移主题也可以手动创建：**在 Kafka 集群尚未启动任何 Consumer 之前，使用 Kafka API创建它；手动创建好处就是，可以根据资源情况自由控制分区副本数量；（不推荐，目前源码中有部分地方硬编码了50分区，因此可能可能出现一些奇怪的问题，该社区bug已修复，但仍在审核）

位移主题的使用

当 Kafka Consumer 提交位移时，会写入该主题；提交方式有两种：

自动提交

enable.auth.commit : Consumer 端参数，为 true时， Consumer在后台默默地定期提交位移；
auth.commit.interval.ms : Consumer 端参数，控制提交时间间隔；
当启动自动提交时，使用者可以不用关注位移这个概念，但正因为完全交给 Kafka 去完成，
因此无法做到精确把控位移；灵活性和可控性很低；

手动提交

通常，很多与Kafka基层的大数据框架都是禁用自动提交位移的：
	enable.auth.commit = false
此时， Consumer应用开发就需要承担起位移提交的责任。Kafka Consumer API 为你提供了位移提交的方法，如 consumer.commitSync

位移主题消息删除策略

当 Consumer消费到某个主题的最新一条消息时，之后没有新的消息产生；在自动提交位移的情况的，会不断向位移主题写入最新位移的消息，这会导致重复消息存在；之前的消息应该进行清理；否则可能会撑爆磁盘；
Compact 策略：删除位移主题中过期消息的策略

大概原理：对于同一个 Key 的两条消息 M1 和 M2，如果 M1 的发送时间早于 M2，那么 M1 就是过期消息。Compact 的过程就是扫描日志的所有消息，剔除那些过期的消息，然后把剩下的消息整理在一起。在这里贴一张来自官网的图片，来说明 Compact 过程。

Kafka 提供了专门的后台线程定期地巡检待 Compact 的主题，看看是否存在满足条件的可删除数据。这个后台线程叫 Log Cleaner。很多实际生产环境中都出现过位移主题无限膨胀占用过多磁盘空间的问题，如果你的环境中也有这个问题，我建议你去检查一下 Log Cleaner 线程的状态，通常都是这个线程挂掉了导致的。

位移提交

Consumer 的消费位移：记录 Consumer 要消费的下一跳消息的位移，而不是目前最新消费消费的位移；
Consumer 需要向 Kafka 汇报自己的位移数据，汇报过程被称为提交位移（Commiting Offsets）；Consumer 可以同时消费多个分区的数据，所以位移的提交实际上是在分区粒度上进行的（Consumer 需要为分配给他的每个分区提交各自的位移数据）；
位移提交时 Kafka 提供的一个工具或语义保障，由使用者维持这个语义保障，如果提交了位移X，那么 Kafka会认为位移值小于 X 的消息均已成功消费；
从用户角度，位移提交分为： 自动提交 和 手动提交；
从Consumer端角度，位移提交分为： 同步提交 和 异步提交；

自动提交

设置：
enable.auto.commit = true ，默认情况下Kafka自动提交是打开的；
auto.commit.interval.ms = 5000 ，默认情况下该值为 5 秒；表示 Kafka 每5秒回自动提交一次位移；

Properties props = new Properties();
    props.put("bootstrap.servers", "localhost:9092");
    props.put("group.id", "test");
    props.put("enable.auto.commit", "true"); // 开启自动提交
    props.put("auto.commit.interval.ms", "2000"); // 设置指定提交间隔为2秒
    props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
    consumer.subscribe(Arrays.asList("foo", "bar"));
    while (true) {
         ConsumerRecords<String, String> records = consumer.poll(100);
         for (ConsumerRecord<String, String> record : records)
             System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
     }

自动提交开启后，Kafka 会保证在开始调用 poll 方法时，提交上次poll 返回的所有信息。因此保证不出现消息不丢失的情况。但可能存在重复消费：当在时间间隔内发生重平衡时，在上次时间到重平衡时间段的消费消息会再次被消费；

手动提交

设置：enable.auto.commit = false；
调用API: KafkaConsumer#commitSync()，该方法会自动提交 KafkaConsumer#poll() 返回的位移；为同步提交；

while (true) {
	ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
	process(records); // 处理消息
	try {
		consumer.commitSync();
	} catch (CommitFailedException e) {
	 handle(e); // 处理提交失败异常
	}
}

同步提交缺陷：影响整个应用的 TPS；在任何系统中，因为程序而非自愿限制而导致的阻塞都可能是系统的瓶颈。
异步API： KafkaConsumer#commitAsync()，调用该方法后会立即返回，不会阻塞；通过回调函数来实现提交后的逻辑；

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
    process(records); // 处理消息
    consumer.commitAsync((offsets, exception) -> {
	if (exception != null)
		handle(exception);
	});
}

异步提交异常重试毫无意义，因为可能重试时已经消费到更大位移处。
手动提交最佳实践：

try {
	while(true) {
		ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
		process(records); // 处理消息
		commitAysnc(); // 使用异步提交规避阻塞
	}
} catch(Exception e) {
	handle(e); // 处理异常
} finally {
	try {
		consumer.commitSync(); // 最后一次提交使用同步阻塞式提交
	} finally {
		consumer.close();
	}
}

在正常处理流程中，我们使用异步提交来提高性能，但最后使用同步提交来保证位移提交成功。
上述方法，都是提交 poll 方法返回的所有消息的位移，即直接提交这一批消息中最新一条消息的位移；
Kafka提供了更细粒度的位移提交API：
commitSync(Map)
commitAsync(Map)
它们的参数是一个 Map 对象，键就是 TopicPartition，即消费的分区，而值是一个 OffsetAndMetadata 对象，保存的主要是位移数据。

private Map<TopicPartition, OffsetAndMetadata> offsets = new HashMap<>();
int count = 0;
……
while (true) {
	ConsumerRecords<String, String> records = consumer.poll(Duration.ofSeconds(1));
	for (ConsumerRecord<String, String> record: records) {
		process(record);  // 处理消息
		offsets.put(new TopicPartition(record.topic(), record.partition()), new OffsetAndMetadata(record.offset() + 1)；
		if（count % 100 == 0）
			consumer.commitAsync(offsets, null); // 回调处理逻辑是 null
		count++;
	}
}

问题1：对于手动同步和异步提交结合的场景，如果poll出来的消息是500条，而业务处理200条的时候，业务抛异常了，后续消息根本就没有被遍历过，finally里手动同步提交的是201还是000，还是501？
答：如果调用没有参数的commit，那么提交的是500

CommitFailedException异常

Consumer 客户端在提交位移时出现的不可恢复的严重错误或异常；如果异常时可恢复的瞬时错误，API大多会自动错误重试；
异常原因：提交位移失败，原因是消费者组已经开启了 Rebalance 过程，并且将要提交位移的分区分配给了另一个消费者实例。出现这个情况的原因是，你的消费者实例连续两次调用 poll 方法的时间间隔超过了期望的 max.poll.interval.ms 参数值。这通常表明，你的消费者实例花费了太长的时间进行消息处理，耽误了调用 poll 方法。

解决方案：

增加期望的时间间隔 max.poll.interval.ms 参数值。
减少 poll 方法一次性返回的消息数量，即减少 max.poll.records 参数值。

异常场景

消息处理的总时间超过预设的 max.poll.interval.ms 参数值
a. 缩短单挑消息处理时间；
b. 增加 Consumer 端允许下游系统消费一批消息的最大时长, max.poll.interval.ms, 默认值为5分钟； 0.10.1.0之前版本需要设置 session.timeout.ms, 但需要注意该参数还有其他作用；
c. 减少下游系统一次性消费的消息总数；
d. 下游系统使用多线程来加速消费；（实现难度大，主要是位移提交）
独立消费需要指定 group.id才可以手动提交位移；当一个消费者组合独立消费者同时存在时，如果group.id相同，那么当独立消费者手动提交位移时，也会抛出该异常。表明它不是消费者组中合法的成员。

多线程开发

Kafka消费者进行多线程开发，可以大大提高系统下游的处理速度；同时能够更充分的利用系统资源；

Kafka Java Consumer 设计原理

0.10.1.0 之后， KafkaConsumer 包含两个线程：用户主线程，心跳线程；
心跳线程（Heartbeat Thread）只负责定期给对应的 Broker 机器发送心跳请求，以标识消费者应用的存活性（liveness）；同时解耦真实的消息处理逻辑与消费者组成员存活性管理；

对于消息处理来说，Consumer 端是单线程设计，这很好的把消息处理的多线程管理策略从 Consumer 端代码中剥离出去；更有利于其他编程语言移植；

多线程方案

**KafkaConsumer类不是线程安全的，多个线程中不能共享同一个 KafkaConsumer 实例，否则抛出 **ConcurrentModificationException异常。但 KafkaConsumer.wakeup()可以安全的在其他线程中调用，用来唤醒Consumer。

多个线程同时消费 + 逻辑处理

在消费者程序中启动多个线程，每个线程维护专属的 KafkaConsumer 实例，负责完整的消息获取、消息处理流程。

优势：

实现简单；在每个线程中创建KafkaConsumer实例即可。
线程间无交互，可减少保障线程安全方面的开销。
由于同一个消费者组中，一个分区仅会被一个Consumer消费，因此可以很容易可以保障分区内的消息消费顺序。对于有时间先后顺序保证的场景，这尤为重要。

缺点：

占用更多的系统资源（内存、TCP连接等）。
受限于Consumer订阅主题的总分区数；同一个消费者组中，一个分区仅会被一个Consumer消费。可以多启动线程，但线程会闲置。
消费和逻辑在同一线程，当业务阻塞时，消费会被影响，容易出现不必要的 rebalance；

单个或多个线程消费 + 多个线程逻辑处理

从Kafka中获取消息的线程是一个或多个，每个线程维护专属的 KafkaConsumer 实例，但 对于逻辑处理部分移交特定线程池来完成，实现消息消费与业务逻辑的解耦；

优势：
具有更高的伸缩性，不用考虑业务对消息消费的影响；
缺陷：

实现难度相对较大；
无法保证分区内的消费顺序；同一分区的消息可能被多个线程消费；
消费位移的正确提交异常困难，可能导致消息重复消费；

TCP连接管理

和生产者不同，构建 KafkaConsumer 实例时不会创建任何TCP 连接，而是在调用 KafkaConsumer.poll 方法时被创建的。（构造函数中启动线程，会造成this指针逃逸）
在 poll 中创建TCP连接的时机：

发起 FindCoordinator 请求时
连接协调者时
消费数据时

你可能感兴趣的:(消息引擎,kafka,消息引擎,消费者,重平衡)

【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
Cesium：开源的三维地球可视化引擎 ZD1 信息可视化
简介：Cesium是一款开源的三维地球可视化引擎，为开发者和用户提供了强大且易于使用的工具，用于创建令人惊叹的虚拟地球场景。它基于WebGL技术，能够在现代的Web浏览器上运行，并支持各种平台和设备。本文将详细介绍Cesium的特点和应用领域。特点：a.高性能：Cesium利用GPU加速和流式处理技术，能够处理大规模的地理数据，并实时渲染出逼真的三维地球场景。b.开放性：Cesium是一个开源项目
InfluxDB写入测试 PascalMing 编程 influxdb java 读写测试
早几年测试时序库时，采集数据到kafka，然后用不同数据进行存储验证。Influxdb是花时间比较多的，它的数据建模方法、读写方法都需要使用特殊的API。时间久了自己也经常忘记，把当时的测试关键代码记录下来，也方便日后查找。代码基于java编写。1、接口数据定义，clientid+tag组合必须唯一publicclassKafkaInfo{//客户端idpublicStringclientid;/
大模型联网搜索组件 SearXNG 部署和使用「已注销」
SearXNG是一个免费的互联网元搜索引擎，它整合了来自超过70个搜索服务的结果。用户不会被跟踪或进行特征分析，很好地保护了用户隐私。2022年11月OpenAI发布ChatGPT后，大模型和知识库开始火爆，联网搜索成为弥补大模型知识陈旧的重要工具。提供元搜索功能的SearXNG开始被很多大模型应用比如ChatNio[1]采用，在大模型时代发挥了巨大作用。本文将介绍如何基于docker部署私人的S
RabbitMQ在Spring Boot中的使用 VioletAmaranth java-rabbitmq rabbitmq spring
在SpringBoot中使用RabbitMQ涉及多个步骤，包括配置、创建监听器和发送消息。以下是详细的使用指南：1.添加依赖需要在项目的pom.xml文件中添加spring-boot-starter-amqp依赖：org.springframework.bootspring-boot-starter-amqp这将触发自动配置。2.配置文件在application.properties或applic
在Spring Boot中使用RabbitMQ实现延迟队列 angen2018 #spring boot rabbitMQ java-rabbitmq spring boot rabbitmq
要在SpringBoot中使用RabbitMQ实现延迟队列，有两种主要的方法：1.**使用TTL（TimeToLive）和DLX（DeadLetterExchange）**：这种方法不需要安装额外的插件，通过设置消息的TTL或者队列的TTL属性来实现延迟效果。当消息达到设定的TTL时间且未被消费时，它会变成死信（DeadLetter），并根据DLX和死信路由键转发到指定的延迟消费队列。这种方式的一
Spring Boot中使用RabbitMQ实现简单的消息发送与接收 Takumilovexu MQ java-rabbitmq rabbitmq spring boot
文章目录环境准备1.RabbitMQ的基础配置2.实现消息发送功能3.实现消息接收功能4.总结在微服务架构和分布式系统中，消息队列是实现异步通信和解耦的重要工具。RabbitMQ作为一种常见的消息中间件，广泛应用于消息传递、任务分发等场景。本文将带你一步步实现如何在SpringBoot应用中使用RabbitMQ进行消息的发送和接收。我们将构建一个消息发送者（Publisher）和一个消息接收者（C
用Java爬虫轻松获取微店店铺所有商品信息数据小爬虫@ java 爬虫开发语言
在当今电商蓬勃发展的时代，微店作为一个轻量级且功能强大的电商平台，吸引了众多商家和消费者。无论是进行市场调研、数据分析，还是寻找热门商品，获取微店店铺的所有商品信息都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写Java爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用Java爬虫获取微店店铺的所有商品信息。一、为什么选择Java爬虫？Jav
基于内容分块（CDC）的重删算法详解：原理、实现与优化这个懒人算法
引言在数据爆炸式增长的时代，存储资源优化成为技术领域的重要课题。重复数据删除（Deduplication）技术通过消除冗余数据副本，可将存储需求降低90%以上。其中基于内容分块（Content-DefinedChunking,CDC）算法凭借其对数据局部修改的强适应性，成为企业级备份系统、云存储服务的核心技术。一、CDC算法核心原理1.1动态分块vs静态分块传统固定分块算法将数据按固定大小（如4K
OSPO Summit 2025 正式定档！议题征集同步开启开源
历经二十余年的发展，OSPO已然成为企业数字化转型的战略枢纽、产学研协同创新的关键桥梁、公共领域开放生态建设的核心引擎。作为这一进程的重要见证者和推动者，OSPOSummit也将在2025年6月12日迎来它的第三次进化。会议信息时间：2025年6月12日地点：北京议题征集，期待你的声音现在，我们面向全球开源社区决策者、企业技术管理者、学术机构研究者及一线开发者，发起议题征集！诚邀您分享OSPO如何
【第十节】windows sdk编程：截获控件消息攻城狮7号 Windows编程(C++)windows windows编程 windows sdk c++
目录一、控件消息的截获概述二、相关函数三、示例代码四、高级技巧与注意事项五、常见问题解答六、总结一、控件消息的截获概述控件的消息处理函数通常由系统定义，开发者无需干预。但在需要实现特殊交互逻辑（如自定义点击效果、消息过滤或增强功能）时，可通过消息处理函数替换技术截获控件消息。此技术通过替换控件的默认消息处理函数（WindowProcedure），在自定义处理完成后，调用原函数确保消息链完整。该技术
信息收集之子域名收集，子域名爆破_dnsdumpster 2401_89829398 网络
「作者主页」：士别三日wyx「作者简介」：CSDNtop100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「专栏简介」：此文章已录入专栏《网络安全快速入门》子域名收集一、域名爆破原理二、搜索引擎收集子域名三、第三方网站收集子域名1.VirusTotal2.DNSdumpster四、工具收集子域名子域名就是下一级域名的意思，比如map.baidu.com和image.baidu.com就是
探索大模型应用：构建基于检索的RAG实战指南李逍遥猿人工智能计算机视觉 microsoft AIGC 开源深度学习神经网络
在AI技术的浪潮中，大模型以其强大的问题回答能力，正逐渐渗透到各行各业，成为推动行业发展的新引擎。然而，大模型并非万能，它在实时性和私有领域知识覆盖上存在局限。为了克服这些限制，本文将带你深入了解如何利用检索增强生成模型（RAG）来扩展大模型的能力，并通过一个实战案例，展示如何构建一个基于RAG的AI知识库。一、大模型的局限与RAG的机遇大模型虽然在处理通用问题上表现出色，但在面对实时数据和私有领
【go语言】Gin框架介绍和使用加油，旭杏 Go语言 gin
一、简单使用Gin框架搭建一个服务器packagemainimport("github.com/gin-gonic/gin")funcmain(){//创建一个默认的路由引擎r:=gin.Default()//GET请求方法r.GET("/hello",func(c*gin.Context){//c.JSON返回的是JSON格式的数据c.JSON(200,gin.H{"message":"hell
地理数据中的分辨率转换木叶清风666 地理信息数据处理 matlab python 开发语言
数据分辨率问题气象海洋数据在实际应用中，常常涉及到重采样，即分辨率的提高或降低等操作。本文提供了matlab以及python的样例程序，以降低（网格平均）或提高（线性插值）数据的分辨率。1.高分辨率——>低分辨率可以使用循环逐个网格进行操作,但循环次数过多,存在效率低下的问题。%---需要的分辨率0.25°,以及经纬度网格点deg=0.25;lat_era=16:deg:47.75;lon_era
加密狗工作原理和破解方法简介阿湯哥安全加密狗硬件加密软件加密
加密狗破解原理和破解方法介绍工作原理破解方法总结参考工作原理加密狗是目前流行的一种软件加密工具。它是插在计算机接口上的软硬件结合的软件加密产品。一般有USB口和并口两种，又称USB加密狗和并口加密狗，目前流行的一般是USB加密狗，并口加密狗在前几年的时候用得比较多。加密狗内部一般都有几十到几十K字节的存储空间可供读写，有的内部还增添了一个单片机。软件运行时通过向狗发送消息，判断从接口返回密码(简单
rStar论文精读 MoyiTech 推理模型 OpenAI-O1原理
论文简介论文标题：《MutualreasoningmakessmallerLLMsstrongerproblem-solvers》论文地址：https://arxiv.org/abs/2408.06195录用会议：ICLR2025背景与挑战挑战1：在SLM中平衡exploration与exploitation。一些方法有很大的exploitation但限制任务多样性泛化性不好；一些方法有很大的ex
浩方wms:什么是海外仓WMS系统?作用是什么？ haofang_software 大数据个人开发 sass 数据库科技
浩方动力科技认为，海外仓作为连接卖家与海外消费者的关键节点，其重要性愈发凸显。海外仓WMS系统（WarehouseManagementSystem），作为一种专门针对海外仓运营的信息化管理系统，正成为提升海外仓运营效率和服务水平的得力助手。什么是海外仓WMS系统呢？海外仓管理系统又有什么作用？浩方WMS，今天来为大家讲解一下海外仓WMS的作用和意义。海外仓WMS系统，顾名思义，是专为海外仓储业务设
【前端】如何依靠纯前端实现拍照获取/选择文件等文字识别OCR技术爱上大树的小猪前端 ocr 前端框架 react.js
本文仅介绍第三方依赖包Tesseract.js，Tesseract.js是一个基于网页的OCR（光学字符识别）引擎，可以识别图像中的文本并将其转换为可供计算机处理的文本数据。支持多框架编译，如Vue、React等，这里展示步骤为React开发。下面直接进入主题：附Tesseract.js官方（https://github.com/naptha/tesseract.js）下载安装依赖包npminst
AI大模型从入门到精通，2025终极指南！好卷啊，又不能躺平，只能悄悄卷你们了！大模型教程人工智能大模型训练 LLM 知识库大模型大模型入门大模型学习
什么是AI大模型？AI大模型是指使用大规模数据和强大的计算能力训练出来的人工智能模型。这些模型通常具有高度的准确性和泛化能力，可以应用于各种领域，如自然语言处理、图像识别、语音识别等。为什么要学AI大模型？2024人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于
HarmonyNext实战：基于ArkTS的高性能3D渲染引擎开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能3D渲染引擎开发引言3D渲染引擎是现代图形应用的核心，广泛应用于游戏开发、虚拟现实、工业设计等领域。HarmonyNext作为新一代操作系统，提供了强大的图形处理能力，而ArkTS作为其开发语言，能够帮助开发者高效实现高性能的3D渲染引擎。本文将详细讲解如何在HarmonyNext平台上使用ArkTS开发一个3D渲染引擎。我们将从3D渲染的基本原理
RabbitMQ 高级特性：从 TTL 到消息分发的全面解析（下） ngioig RabbitMQ ruby 开发语言后端
RabbitMQ高级特性RabbitMQ高级特性解析：RabbitMQ消息可靠性保障（上）-CSDN博客RabbitMQ高级特性：从TTL到消息分发的全面解析（下）-CSDN博客引言RabbitMQ作为一款强大的消息队列中间件，在分布式系统中发挥着至关重要的作用。除了基本的消息收发功能外，它还具备许多高级特性，如TTL、死信队列、延迟队列、事务和消息分发等。本文将详细介绍这些高级特性。1.TTL（
【技术实测】单一世界承载数万单位无分片同步！全球低延迟互动DEMO开放测试微网兔子後端技術 c++服务器 unity 后端分布式
核心突破分散式同步引擎`实现三大关键指标：✅无分片架构-全域实体即时同步✅毫秒级延迟-跨洲网路优化✅万级货运-秒登入不排队万人单一世界最新技术测试影片目前，我们已实现一定的技术突破，并希望收集开发者的回馈，以确定下一步的优化方向。为了验证这项技术，我们部署了一个测试环境，具体情况如下：3万名玩家的即时互动3D测试环境(512×512平方米)已部署12,000个模拟客户端，开放18,000个名额给开
第七篇：数据治理实践工具与资源小技工丨数据治理网络数据库大数据数据治理
1.数据治理实践工具与资源1.1数据治理成熟度评估工具数据治理成熟度评估是企业了解自身数据治理现状、识别改进机会的重要工具。通过系统化的评估，企业可以明确数据治理的发展阶段，制定有针对性的改进计划。1.1.1IBM数据治理成熟度评估模型IBM数据治理成熟度评估模型是业界广泛应用的评估工具之一，它从多个维度评估企业的数据治理成熟度。“数据被认为是推动企业增长和商业创新引擎的燃料。数据无疑被组织认定且
mcp 是一种什么协议，怎么构建mcpserver,怎么实现多智能体的调用 MonkeyKing.sun MCP协议 MCP server
MCP（MessageControlProtocol）是一种用于分布式系统中多智能体通信的协议框架，特别适合于构建多智能体系统。下面我将介绍MCP协议的基本原理以及如何构建MCP服务器和实现多智能体调用。MCP协议概述MCP协议主要用于定义智能体之间如何交换消息、协调任务和共享资源。它通常包含以下核心组件：消息格式定义会话管理路由机制错误处理安全认证构建MCP服务器以下是构建基本MCP服务器的步骤
实现拖动无标题栏 CEF的方法三：创建蒙版层窗口拖动清水迎朝阳 CEF应用 c++CEF 无标题栏CEF 蒙版 WM_MOVE
目录一、蒙版层窗口1、蒙版层窗口类2、在创建CEF窗口后，同时创建蒙版窗口3、蒙版显示时机1）注入JS监听点击触摸事件2）点击或触摸时显示蒙版4、蒙版初始位置5、拖动蒙版时，动态调整CEF窗口位置1）蒙版移动消息2）根据蒙版位置，调整父窗口思路：在CEF窗口之上，创建其子窗口，背景半透明，通过拖动这个子窗口，动态调整CEF窗口位置，从而实现拖动无标题栏CEF窗口的目的。一、蒙版层窗口1、蒙版层窗口
荣耀CEO赵明内网发布告别文章，正式告别荣耀和职场国货崛起其他智能手机智能硬件
2025年1月17日，荣耀终端有限公司CEO赵明在内部论坛发布长文，正式宣布告别荣耀和职场。这封告别信在荣耀内部引发强烈反响，员工们纷纷留言表达不舍与祝福。赵明在信中回顾了他在荣耀的职业生涯。2015年，他从华为消费者业务CMO调任荣耀总裁，带领荣耀从互联网手机品牌发展成为全球领先的智能终端提供商。在任期间，他主导了荣耀品牌的独立运营，成功打造了荣耀Magic系列、数字系列等多款爆款产品，使荣耀在
使用Unity引擎开发的Windows 11系统3D打地鼠游戏的方案 1079986725 手机游戏开发者 Windows 游戏 java 玩游戏
创建Unity项目：使用UnityHub新建3D项目设置目标平台为Windows场景搭建：csharp//地鼠控制器WhackAMole.csusingUnityEngine;usingSystem.Collections;publicclassWhackAMole:MonoBehaviour{publicfloatpopupDuration=1.5f;publicfloatminHideTime
kafka生成者发送消息失败报错：RecordTooLargeException 青椒1013 kafka 分布式
kafka生成者发送消息典型案例生产者发送消息失败：Failedtosend;nestedexceptionisorg.apache.kafka.common.errors.RecordTooLargeException:Themessageis1053512byteswhenserializedwhichislargerthanthemaximumrequestsizeyouhaveconfig
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><