vnjohn

Kafka 实战开篇-讲解架构模型、基础概念以及集群搭建

- 前言
- AKF 划分原则
- 架构模型
- 角色概述
- Kafka 集群搭建
- - 安装
  - 使用
  - 元数据
  - 拓扑回顾图
- 总结

前言

什么是 Kafka？是做什么的，官网定义如下：

Kafka is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies.

翻译过来，大概意思就是：这是一个实时数据处理系统，可以横向扩展以及高可靠！
实时数据处理，从名字上看，很好理解，就是将数据进行实时处理，在现在流行的微服务开发当中，最常用的实时数据处理平台包括了：RocketMQ、RabbitMQ 等消息中间件.

官网：https://kafka.apache.org/

从网上整理资料加上自身理解，对 Kafka、RocketMQ、RabbitMQ 这三种中间件做一下对比，如下：

这些中间件，最大的特点主要有两个：

服务/业务解耦，中间件与程序无强关联
流量削峰，将服务的一部分流量交给中间件去作处理

AKF 划分原则

通过 AKF 划分原则来认识 Kafka

X 轴：处理的服务节点的单点问题，支持横向扩展、全量镜像
Y 轴：在 Kafka 服务节点基础上根据业务来划分出不同的 Topic
Z 轴：基于 Topic 分配出不同的 partition 分区，每个 partition 分散到不同的服务节点上

架构模型

一个好的中间件设计，必然要关注它的架构模型；对于大数据处理下，一个重要、必然的概念：分而治之

无关联的数据将其分散到不同的分区上，以追求并发并行的目标，分区外部是无序的
有关联的数据，保证按顺序发送到同一个分区上，通过 offset 偏移量 来保证分区内部是有序执行的

如下关注它的架构模型图

架构模型图简述：

在 Kafka 0.9 版本之前，由 ZK 来获取所有的客户端元数据信息（生产者、消费者、偏移量）信息；在 Kafka 0.9 版本之后，新版本会把这些信息保存在一个 Kafka 内部主题【_consumer_offsets】内，通过集群中一个名为 Coordinator 组件进行管理
服务端元数据【broker 节点元数据信息、Controller 信息（ids、broker metadata、topic、partitio）】仍然是从 ZK 中获取，Controller 会从 ZK 中获取最新的元数据信息缓存在服务节点的内存中；这些信息后面通过使用 Kafka 操作时再来观察是否如此！
在生产者产生数据时，在并发场景下需要保证一致性（数据从 partition -> Kafka 入地）时，需要 Producer 在锁粒度范围内将数据发送到 broker 中
Partition、Consumer 关系只有 1:1 或 N:1，而绝不能是 1:N 关系，主要是一个分区内的数据必须保证顺序的在一个消费者中执行完毕

在实际应用中，建议消费者 consumer 数量与 partition 数量保持一致，若消费者数量多于分区数量的情况下，会出现消费者处于闲置的情况；若分区数量多于消费者数量的话，会出现消费性能不均衡的情况

在运行时，内存需要维护 partition 读取数据的 offset，在旧版本中，由 ZK 来负担这一块的业务需求，在新版本未出现自身来确保 Topic 维护 offset 时，而不得已要采用第三方处理的方式来进行过渡【Redis、MySQL等】
数据重复利用：Kafka -> Broker -> Partition，保存了来自 Producer 发送的数据，重点是 “数据” 怎么可以重复利用，在使用场景下，先要保证即便为了追求性能，使用多个 Consumer，也应该要注意，不能一个分区被多个消费者去消费【浪费资源】

数据的重复利用是建立在 Group 上的，但是在 Group 内要保证第四点所描述的
一个分区内的数据不能被多个 consumer 消费，也就是决不能存在 1:N 关系

【问题】： 在 Consumer 消费时，会出现数据重复消费或丢失的问题，围绕的就是 offset 消费的进度【节奏？频率？先后】以下是在消费数据时所遇到的几种情况

异步：5 秒之内，先干活，再持久化 offset，若干活的时候突然宕机了，导致 offset 没被写入，会造成重复消费
同步：业务操作、offset 持久化，虽然安全但会造成性能的下降
没有控制好顺序，offset 持久了，但是业务写失败了

角色概述

Broker：一个 Kafka 节点就是一个 Broker，一个集群由多个 Broker 组成，一个 Broker 可以容纳多个 Topic

Broker 接受来自生产者产生的消息，为消息设置偏移量，提交消息到磁盘持久化
Broker 为消费者提供服务，对读取分区的请求作出响应，返回给消费者在磁盘持久化后的消息

Producer：消息的生产方，即消息的入口

Consumer：消息的消费方，即消息的出口

Topic：消息通过业务划分，生产者向 Broker 发送消息时指定 Topic，消费者读取消息时也要指定 Topic

Partition：Topic 分为多个 Partition，相关的数据放入到一个 Partition 中，无关的数据放入到不同的 Partition 中，消息以追加方式写入到 Partition，后以先进先出的顺序读取

Replication：一个分区存在多个副本，副本作用是备胎 -> 高可用，主分区（Leader）会将数据同步到从分区（Follower）当主分区故障时会选择一个备胎（Follower）上位，成为 Leader

在 Kafka 中，默认副本最大数量是 10 个，且副本的数量不能大于 Broker 数量，Follower、Leader 绝对是在不同的节点上，一台节点对同一个分区也只只可能存放一个副本

Consumer Group：按业务线（开发小组）不同来划分不同的消费组，以促使可以重复消费数据

Offset：偏移量，Kafka 存储文件是按照 offset.kafka，用 offset 作为名字的好处是方便查找！

Kafka 集群搭建

下载 Kafka 版本：2.1.0，准备三台虚拟机节点 -> node1～node3

由于 Kafka 依赖于 ZooKeeper 作分布式协调处理，前置环境要求：Jdk 8、ZooKeeper，博主整理了这两篇文章帮你完成前置环境的准备

Mac M1 搭建虚拟机节点集群过程及软件分享
分布式组件 ZooKeeper 介绍、术语概述以及集群搭建篇

Kafka 安装包下载地址：https://archive.apache.org/dist/kafka/2.1.0/kafka_2.12-2.1.0.tgz

安装

将下载好的包放入虚拟机节点目录下，比如：/opt/vnjohn

1、解压安装包：tar -xzf /opt/vnjohn/kafka_2.12-2.1.0.tgz

2、更改名字：mv kafka_2.12-2.1.0 kafka

3、更新 config 目录下 server.properties 文件

# 每台 Kafka 节点配置的都不一样
broker.id=0  
# 每台 Kafka 节点要配上自己的 主机:端口号
listeners=PLAINTEXT://node1:9092

# hostname、port 都会广播给 producer、consumer
# 如果你没有配置了这个属性【advertised.listeners】的话，则使用 listeners 的值
# 如果 listeners 值也没有配置的话，则使用 java.net.InetAddress.getCanonicalHostName() 返回值
# java.net.InetAddress.getCanonicalHostName() 返回值就是 localhost
# advertised.listeners=PLAINTEXT://node-1:9092

# 日志文件存储到什么位置下
log.dirs=/var/vnjohn/kafka
# 配置上 ZK 连接信息及目录节点 /kafka  
zookeeper.connect=node1:2181/kafka,node2:2181/kafka,node3:2181/kafka

4、调整 /etc/profile 配置文件内容【Shift+G 跳转至最后一行】，追加内容如下：

export KAFKA_HOME=/opt/vnjohn/kafka
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$ZOOKEEPER_HOME/bin:$KAFKA_HOME/bin

刷新配置文件：source /etc/profile
若配置文件修改出现问题，导致所有命令都不生效了，运行✅：export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin 后，再重新调整配置

若配置没有问题的话，输入 kafka 后 Tab 键会出现如下图：

5、node1 配置好了，同步这段配置给 node2、node3，将 kafka 导出到本地，通过 SFTP 方式传给 node2、node3 虚拟机节点上，最后，修改 server.properties 配置文件即可，如下：

# node2
broker.id=1
listeners=PLAINTEXT://node2:9092

# node3
broker.id=2
listeners=PLAINTEXT://node3:9092

更改【node2、node3】/etc/profile 文件，再刷新配置即可

6、node1~node3 启动 Kafka 之前，先通过后台方式启动 ZK【zkServer.sh start】，然后执行命令：kafka-server-start.sh /opt/vnjohn/kafka/config/server.properties

启动出现错误，告知我们，使用 G1 垃圾回收器时必须开启 -XX:+UnlockExperimentalVMOptions

Kafka 默认采用 G1 垃圾回收器，通过脚本可查看：

之前在 Windows 搭建的虚拟机节点不会出现这样的错误，在 Mac 搭建出现了这样的问题，猜测可能是内核的原因导致作了这样的限制吧，查阅网上资料，得知，这是与我们的 Jdk 版本相关，它使用了 Graal 作了 JIT 即时编译器

注意：Graal 是一项实验性功能，仅在 Linux-x64 上受支持

所以，我们要启用 Graal 作为 JIT 编译器，VM 参数要追加配置如下：

-XX:+UnlockExperimentalVMOptions

调整 /opt/vnjohn/kafka/bin/kafka-run-class.sh 脚本内容，如下：

在执行创建生产者、消费者命令【kafka-console-producer.sh、kafka-console-consumer.sh】也会出现这个错误，只需要将一段脚本配置删除，让它默认引用 kafka-run-class.sh 脚本的 JVM 配置即可.

最后，在 node1~node3 执行 kafka-server-start.sh /opt/vnjohn/kafka/config/server.properties 命令启动 Kafka；默认的是在前台运行，会打印日志，后台运行 Kafka 命令：nohup /opt/vnjohn/kafka/bin/kafka-server-start.sh /opt/vnjohn/kafka/config/server.properties >/dev/null 2>&1 &

启动 Kafka 集群成功！！！

7、连接 ZK 客户端【zkCli.sh】，观察它下面的目录节点，看 Controller 角色对应的是哪一台节点【get /kafka/controller】

brokerid =1 ，controller 分配给到了 node2 节点！

使用

Kafka 集群搭建完毕，现在是如何通过命令方式操作它了

1、创建 Topic

执行创建 Topic 操作，示例：topic（order-score）下有两个分区，每个分区对应两个副本

[root@node1 bin]# kafka-topics.sh --zookeeper node1:2181/kafka --create --topic order-score --partitions 2 --replication-factor 2
Created topic "order-score".

2、查看所拥有的 Topic

[root@node1 bin]# kafka-topics.sh --zookeeper node1:2181/kafka --list
order-score

3、查看指定 Topic 描述信息

[root@node1 bin]# kafka-topics.sh --zookeeper node1:2181/kafka --describe --topic order-score
Topic:order-score       PartitionCount:2        ReplicationFactor:2     Configs:
        Topic: order-score      Partition: 0    Leader: 2       Replicas: 2,0   Isr: 2,0
        Topic: order-score      Partition: 1    Leader: 0       Replicas: 0,1   Isr: 0,1

Leader 值是我们配置的 broker.id 值
分区的数量再多，也只是为了增加数据的可靠性，R/W 操作仍然只会发生在主（Leader）分区上

4、创建 consumer

创建一个消费者连接 Kafka 集群，订阅 order-score Topic，并分到 vnjohn 这个 group 组中

kafka-console-consumer.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --topic order-score --group vnjohn

该窗口会停顿在前台，一直是否有数据到来，比如，通过第五点 往这个 Topic 生产一些数据，它马上就会来响应到来！

5、创建 Producer

创建一个生产者连接 broker 节点拿到元数据信息，为 order-score 这个 topic 分发消息，接着会有输入框等待输入信息，输入/生产什么，上面的消费者就会消费什么

kafka-console-producer.sh --broker-list node1:9092,node2:9092,node3:9092 --topic order-score

6、结合第 4、5 点来看下效果

第一种：若只开启了一个消费者，所有的消息只会分发到那个消费者上

第二种：若开启了多个消费者并且在同一个组上，就会均匀分配消息（每一个消费者分配到了不同的分区上）

第三种：若开启了多个消费者但不是在同一个组上，消息是会被重复消费在不同的组中的

最后一种：如果在同一个组中，消费者多于分区的数量，那么多于分区数量的那些消费者是无法消费到数据的，因为 partition:consumer 1:N 是不成立的

前面我们在创建 order-score Topic 时，只为它分配了两个分区，这时我们开启四个消费者同时消费，看看是否有超过两个消费者在进行消费消息？

从图中可以看出，生产者产生的消息只有两个消费者一直在消费，而其他的两个消费者根本没有起作用，这证明了 partition:consumer 1:N 是不成立的 合理性

7、查看消费组 Group 信息

kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --list

[root@node1 ~]# kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --list
vnjohn01
vnjohn02
vnjohn

8、查看指定消费组 Group 信息

kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn
kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn01
kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn02

[root@node1 ~]# kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn

TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID                                     HOST            CLIENT-ID
order-score     0          8               8               0               consumer-1-4e2ad0fa-788e-48dd-8831-381f4bc06193 /172.16.249.10  consumer-1
order-score     1          9               9               0               consumer-1-8b056660-9d2f-450a-ac30-5480b72d6dfb /172.16.249.10  consumer-1

[root@node1 ~]# kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn01
Consumer group 'vnjohn01' has no active members.
TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID     HOST            CLIENT-ID
order-score     1          4               9               5               -               -               -
order-score     0          3               8               5               -               -               -

[root@node1 ~]# kafka-consumer-groups.sh --bootstrap-server node1:9092,node2:9092,node3:9092 --describe --group vnjohn02
Consumer group 'vnjohn02' has no active members.
TOPIC           PARTITION  CURRENT-OFFSET  LOG-END-OFFSET  LAG             CONSUMER-ID     HOST            CLIENT-ID
order-score     1          4               9               5               -               -               -
order-score     0          3               8               5               -               -               -

从控制台输出的偏移量结果来看，group：vnjohn 将所有的消息都处理完了，group：vnjohn01、vnjohn02 两个组都各自还有 5 条数据未处理，因为刚刚产生了 10 条数据，按分区数量来分配，每个分区均匀分配，也就是各自 5 条

元数据

在【架构模型】上提及到了，服务端元数据【broker 节点元数据信息、Controller 信息（ids、broker metadata、topic、partition）】以及 Kafka 内部主题【_consumer_offsets】 ，接下来我们从 ZK 客户端上来对这些信息进行具体的查看！

1、查看 broker 节点信息：ls /kafka/brokers/ids

ls /kafka/brokers/ids
[0, 1, 2]

2、查看指定 broker 节点的元数据信息：get /kafka/brokers/ids/0

get /kafka/brokers/ids/0
{"listener_security_protocol_map":{"PLAINTEXT":"PLAINTEXT"},"endpoints":["PLAINTEXT://node1:9092"],"jmx_port":-1,"host":"node1","timestamp":"1680229446282","port":9092,"version":4}

在配置文件中配置的 listeners 值、端口、host 都存储在这里！

3、获取所有的 Topic：ls /kafka/brokers/topics

ls /kafka/brokers/topics
[order-score, __consumer_offsets]

__consumer_offsets 不就出来了嘛！

4、获取 Topic：order-score 下分区信息： ls /kafka/brokers/topics/order-score/partitions

ls /kafka/brokers/topics/order-score/partitions
[0, 1]

5、获取 Topic：order-score 下指定的分区信息：get /kafka/brokers/topics/order-score/partitions/0/state

获取 Topic order-score 下分区 0 的状态信息：主分区及活跃分区(isr)

get /kafka/brokers/topics/order-score/partitions/0/state
{"controller_epoch":3,"leader":2,"version":1,"leader_epoch":2,"isr":[2,0]}

6、获取内部主题：_consumer_offsets 信息

get /kafka/brokers/topics/__consumer_offsets
{"version":1,"partitions":{"45":[0],"34":[1],"12":[0],"8":[2],"19":[1],"23":[2],"4":[1],"40":[1],"15":[0],"11":[2],"9":[0],"44":[2],"33":[0],"22":[1],"26":[2],"37":[1],"13":[1],"46":[1],"24":[0],"35":[2],"16":[1],"5":[2],"10":[1],"48":[0],"21":[0],"43":[1],"32":[2],"49":[1],"6":[0],"36":[0],"1":[1],"39":[0],"17":[2],"25":[1],"14":[2],"47":[2],"31":[1],"42":[0],"0":[0],"20":[2],"27":[0],"2":[2],"38":[2],"18":[0],"30":[0],"7":[1],"29":[2],"41":[2],"3":[0],"28":[1]}}

旧版本中将读取数据的 offset 持久化到 ZK 中，新版本是 Kafka 集群内部通过 Topic 来持久化的
可以看出除了我们自己创建的 Topic 以外，Kafka 还自身创建了一个消费数据时的 Offset Topic，以此来确保读取数据的准确性

拓扑回顾图

创建 Topic 会先经过 ZK，再找到 Controller 角色的 Broker，由它来进行创建，Topic 是横跨集群下所有 Kafka 节点的
Topic 划分了不同的 Partition，可以为每个 Partition 分配副本数量，Partition 副本是为了保证数据的可靠性，并不会参加 R/W 操作
Producer 生产的数据会均匀地分配到各个 Partition 中，每一个分区对应一个 Consumer，可形成 1:1 或 N:1 关系
同一个消费组中，消费者是不能重复消费的；不同的消费组，消费者是可以重复消费的

总结

该博文作为专栏【Kafka】第一篇，为大家了整理了各大消息中间件之间的特性以及优劣势，结合 AKF 划分原则对 Kafka 集群、Topic、Partition 作了划分；通过自身理解的【架构模型】为大家提前梳理清楚一些概念以及问题，在 Kafka 中存在的角色作了一些概述；最后，以实践校验真理的唯一准则，搭建了 Kafka 集群以及通过控制台方式整理了一些常用命令以及对前面所描述的一些问题作了验证操作！

若此文有帮助到您，实属开心，博主喜欢用图+理论梳理每一个学习到的知识点，一起开启学习之旅，后续博主会在该专栏【Kafka】中持续更新 Kafka 核心知识、实践问题以及如何避免，最重要的是会包含从源码角度为大家认证此前所梳理的内容，达到融会贯通！

如果觉得博文不错，关注我 vnjohn，后续会有更多实战、源码、架构干货分享！
大家的「关注❤️ + 点赞 + 收藏⭐」就是我创作的最大动力！谢谢大家的支持，我们下文见！

你可能感兴趣的:(Kafka,kafka,架构,java-rabbitmq)

到底DB::listen(function ($query) { ... })；为什么是回调函数？快点好好学习吧 Laravel 数据库
DB::listen(function($query){...});是Laravel中用于监听数据库查询的一个方法。它的核心作用是通过回调函数捕获和处理每个执行的SQL查询及其相关信息。这种设计的选择（使用回调函数）是基于灵活性、解耦性和事件驱动架构的考虑。1.为什么使用回调函数？在DB::listen()方法中，使用回调函数的主要原因包括：a)灵活性回调函数允许开发者以灵活的方式处理每个查询事件
到底如何从零开始使用Hyperf 搭建微服务架构？具体步骤是怎样的？底层原理是什么？
一、Hyperf的底层原理Hyperf是一个基于Swoole的高性能PHP微服务框架，其核心特点包括：协程支持：基于Swoole提供的协程能力，Hyperf实现了非阻塞I/O和高并发处理。协程是轻量级线程，允许在单个进程中处理大量并发请求。依赖注入(DI)：使用PSR-11标准的依赖注入容器，简化组件管理和服务解耦。AOP（面向切面编程）：通过注解和AOP机制，可以在方法执行前后插入逻辑，例如日志
统一内存架构的可行性与科学性恣艺架构
1.统一内存架构的技术定义与演进1.1核心概念与实现机制苹果的统一内存架构（UMA）通过将内存直接集成于SoC（系统级芯片），使CPU、GPU、神经引擎等计算单元共享同一物理内存池。其关键技术包括：内存池化与动态分配：内存控制器实时调配资源，消除传统架构中CPU/GPU间的数据复制开销。硅中介层互联：计算单元与内存通过硅中介层（SiliconInterposer）直连，提供800GB/s的超高带宽
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
Python爬虫【二十四章】分布式爬虫架构实战：Scrapy-Redis亿级数据抓取方案设计程序员_CLUB Python入门到进阶 python 爬虫分布式
目录一、背景：单机爬虫的五大瓶颈二、Scrapy-Redis架构深度解析1.架构拓扑图2.核心组件对比三、环境搭建与核心配置1.基础环境部署2.Scrapy项目配置四、分布式爬虫核心实现1.改造原生Spider2.布隆过滤器集成五、五大性能优化策略1.动态优先级调整2.智能限速策略3.连接池优化4.数据分片存储5.心跳监控系统六、实战：新闻聚合平台数据抓取1.集群架构2.性能指标七、总结1.核心收
Python,Rust开发关停大脑APP Geeker-2025 python rust
要关停名为“大脑”的APP，具体实现方式取决于APP的运行环境和架构。以下是针对不同场景的Python和Rust解决方案：---###**场景1：终止本地进程（适合桌面/服务端应用）**####Python方案（使用`psutil`库）```pythonimportpsutildefstop_brain_app():target_name="brain_app"#替换为实际进程名forprocin
Python,Java,C++开发磁悬浮原理与技术实操APP Geeker-2025 python java c++
#磁悬浮原理与技术实操APP技术方案基于Python、Java和C++开发的磁悬浮原理学习与应用APP，结合理论教学与实操模拟：##系统架构设计```mermaidgraphTDA[跨平台客户端-C++/Qt]-->|API调用|B[后端服务-Java/Spring]B-->C[磁悬浮模拟引擎-Python]B-->D[硬件控制接口]C-->E[物理模型计算]D-->F[磁悬浮套件]A-->G[3
Python,C++开发电学/动力学与发明创造APP
#电学/动力学与发明创造APP-Python与C++集成解决方案##系统架构设计```mermaidgraphTDA[用户界面-Qt/PyQt]-->B[应用逻辑层-Python]B-->C[核心引擎-C++]C-->D[硬件接口]C-->E[物理引擎]B-->F[3D可视化]F-->G[OpenGL/Vulkan]```##技术栈分工|组件|技术|功能||------|------|------
Python,Go开发光电效应与日常应用APP Geeker-2025 python golang
以下是一个基于Python与Go开发的光电效应科普与应用APP的完整技术方案，结合了物理原理模拟、实时数据处理及生活场景应用，参考了工业级开发实践（如光电实验数据处理和能源设备控制）：---###一、系统架构设计```mermaidgraphLRA[Go微服务层]-->B[Python科学计算层]A-->C[数据库/物联网]B-->D[硬件接口]D-->E[传感器/实验设备]subgraph前端A
Python,Go are applicated to develop the app “Star travel and your preparation”
为了开发“星际旅行准备”应用（**StarTravelandYourPreparation**），结合**Python**和**Go**的技术优势，可设计如下分层架构，融合深空导航、生命维持系统（LSS）优化与跨星域资源管理功能：---###**1.核心架构设计**####**(1)星际导航引擎（Go）**-**角色**：实时多维空间路径规划与异常规避-**实现**：-**曲速走廊计算**：基于A
分布式爬虫：设计一个分布式爬虫架构来抓取大规模数据 Python爬虫项目 2025年爬虫实战项目分布式爬虫架构开发语言 redis 测试工具 python
✨引言随着互联网信息的爆炸式增长，单机爬虫面对大规模网站数据抓取显得力不从心。特别是爬取新闻、商品、社交平台等网站时，经常遇到响应慢、IP被封等问题。为了解决这些问题，分布式爬虫系统应运而生。在本文中，我们将手把手带你打造一个基于Scrapy+Redis+Celery+FastAPI+Docker的现代分布式爬虫架构，实现任务调度、去重控制、分布式抓取与结果存储。本文代码均基于Python3.10
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
互联网架构“高并发” 极课编程
一、什么是高并发高并发（HighConcurrency）是互联网分布式系统架构设计中必须考虑的因素之一，它通常是指，通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间（ResponseTime），吞吐量（Throughput），每秒查询率QPS（QueryPerSecond），并发用户数等。响应时间：系统对请求做出响应的时间。例如系统处理一个HTTP请求需要200ms，这
分布式爬虫架构：Scrapy-Redis+Redis集群实现百万级数据采集傻啦嘿哟分布式爬虫架构
目录当单机爬虫遇到百万数据量架构设计核心原理分布式任务调度弹性去重机制Redis集群部署实践集群规模计算高可用配置Scrapy项目改造分布式爬虫编写百万级数据优化策略流量控制机制动态IP代理数据存储优化实战案例分析监控与维护集群健康检查日志分析架构演进方向当单机爬虫遇到百万数据量想象你正在搭建一个电商价格监控系统，需要每天抓取十万条商品数据。使用传统Scrapy框架时，单台服务器每天最多只能处理3
Python,C++开发磁流体研究以及应用APP Geeker-2025 python c++
#Python与C++开发磁流体研究与应用APP方案以下是一个结合Python与C++的磁流体(MHD)研究与应用APP的完整技术方案，融合了高性能计算、实时仿真和工业应用场景：##系统架构设计```mermaidgraphTDA[用户界面层]-->B[Python应用层]B-->C[C++核心计算层]C-->D[硬件接口层]D-->E[实验设备/传感器]subgraph前端A1[桌面端-PyQt
三轴云台之控制算法协同技术篇 SKYDROID云卓小助手人工智能算法机器学习网络自动化
三轴云台的控制算法协同技术是确保云台在复杂动态环境下实现高精度、高稳定性运动控制的核心，其技术体系涵盖多传感器融合、多算法协同以及多目标优化三个关键维度。以下从技术架构与实现路径展开分析：一、多传感器融合：构建环境感知基础三轴云台通过集成IMU（惯性测量单元）、编码器、视觉传感器等多源数据，构建高鲁棒性的环境感知系统。IMU与编码器融合IMU提供高频率的姿态角速度数据，编码器提供低延迟的关节位置反
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
19、大规模 MIMO系统中的混合预编码与自动重传请求性能分析 wood5 大规模MIMO 混合预编码自动重传请求(ARQ)
大规模MIMO系统中的混合预编码与自动重传请求性能分析1引言现代无线通信系统中，大规模多输入多输出（MIMO）技术通过增加天线数量显著提升了频谱效率和链路可靠性。然而，由于硬件复杂性和功耗的限制，传统的全数字实现方式在大规模天线阵列中变得不切实际。混合射频-基带预编码/合并架构通过引入射频模拟预编码阶段，有效降低了硬件复杂性，并在频谱效率和可靠性方面表现出色。本篇文章将探讨在大规模MIMO系统中，
面试真题 | 小红书-C++引擎架构
文章目录1.自我介绍2.项目3.c++多态，如何实现的，虚表、虚表指针存储位置C++多态的实现机制虚表指针的存储位置面试官的深度追问4.explicit关键字explicit关键字的回答面试官可能的追问5.unique_ptr、shared_ptr、weak_ptr的原理，有没有线程安全问题，weak_ptr的解决了什么问题？可以用裸指针吗？会有什么问题回答unique_ptrshared_ptr
零信任架构深度实战：从SPA到持续认证（含军工级部署方案）全息架构师 AI 行业应用实战先锋架构网络
️零信任架构深度实战：从SPA到持续认证（含军工级部署方案）提示语：文末提供《ZTNA部署工具包》+价值15999元的策略配置生成器！基于美国国防部零信任参考架构，揭秘如何3个月完成企业级改造！一、零信任演进历程1.1传统架构vs零信任对比单点突破即沦陷动态验证城堡式防御传统安全细胞级防护零信任1.2关键技术成熟度评估技术成熟度部署成本典型厂商单包授权(SPA)★★★★☆中Cloudflare,Z
Kafka面试问题1 小小少年Boy
1请说明什么是ApacheKafka?Kafka是分布式发布-订阅消息系统。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。它可以同时用于在线消息数据处理，和离线的数据文件处理。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种：排队：在队列中，一组用户可以从服务器中读取消息，每条消息都发送给其中一个人。发布-订阅：在这个模型中，消息被广播
小架构step系列18：工具秋千码途架构
1概述在写代码的时候，有很多通用的、与业务无关逻辑，这些一般写成工具类方法。这些工具类方法慢慢地被积累起来，变成了开源包，可以直接使用开源包，而不是自己再花时间来重复造这些轮子。这些工具类的开源包比较多，公司如果没有控制的话，不同的开发人员就会选自己熟悉的开源包，甚至都拿来练练手。这样的后果就是，在一个工程内使用了五花八门的工具类包，维护代码的时候不好维护，如果要升级一些框架包或者扫描漏洞，发现很
车载诊断架构 --- 故障码DTC严重等级定义汽车电子实验室车辆信息安全汽车行业架构大数据电子电气架构电气电子架构开发的应对策略开发语言 ECU刷写与busoff原则
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：钝感力的“钝”，不是木讷、迟钝，而是直面困境的韧劲和耐力，是面对外界噪音的通透淡然。生活中有两种人，一种人格外在意别人的眼光;另一种人无论别人如何，他们始终有自己的节奏。过度关注别人的看法，会搅乱自己的步调，让自己更加慌乱。与其把情绪的开关交到别人手中，不如把有限的精力用在提升自己上
手把手教会你使用Unity新版输入系统
Unity新版输入系统详解(2025)一、新版输入系统概述Unity的新版输入系统(InputSystem)是一个现代化、灵活且高效的输入处理框架，相比旧版输入系统(InputManager)有以下优势：跨平台一致性：统一处理各种输入设备（键盘、鼠标、手柄、触摸屏等）事件驱动：基于事件的输入处理，减少不必要的轮询可配置性：通过InputActions灵活配置输入映射更好的性能：优化的底层架构减少C
2018-10-10 张赟ZhangYun
我想分享的是，如何更好地塑造你的身体、架构你的思想、架构你的事业、培养你的兴趣爱好、如何交更多的朋友、如何更懂人性、如何更高效的利用你的时间去工作、甚至是什么样才是能产生投资回报比，更有意义的工作。天字第一条；就是善于分享你自己，才能让更多的人认识你图片发自App
我的架构梦：（五十三）分库分表实战及中间件之ShardingSphere实战老周聊架构我的架构梦
上一篇：我的架构梦：（五十二）分库分表实战及中间件之实战背景分库分表实战及中间件之ShardingSphere实战二、ShardingSphere实战1、ShardingSphere2、Sharding-JDBC3、数据分片剖析实战5、强制路由剖析实战6、数据脱敏剖析实战7、分布式事务剖析实战8、SPI加载剖析9、编排治理剖析10、Sharding-Proxy实战二、ShardingSphere实
基于CentOS的分布式GitLab+Jenkins+Docker架构：企业级CI/CD流水线实战全记录 loopdeloop 其他 centos 分布式 docker
引言：从单机到分布式容器架构的演进在传统Web应用部署中，我们常常面临环境不一致、部署效率低下等问题。我曾经维护过一个需要手动在5台服务器上重复部署的游戏项目，每次发布都如同走钢丝。本文将详细分享如何基于CentOS系统，构建完整的分布式Docker架构，实现GitLab+Jenkins+生产环境的三节点CI/CD流水线，最终成功部署Web游戏项目的全过程。第一部分：架构设计与环境规划1.1分布式
gitlab-runner配置问题记录
引言笔者曾通过2种方式部署过gitlab-runner，在gitlab中使用这个runner拉起cijob的过程中或多或少遇到些问题，主要都是job中无法访问宿主机的docker等组件。本篇文档主要记录gitlab-runner安装及相关配置。二进制部署gitlab-runner部署以arm64架构的为例arch="arm64"curl-LJO"https://s3.dualstack.us-ea
全链路压测：影子库与影子表之争阿里巴巴中间件数据库分布式 java 人工智能大数据
01业界盛传的全链路压测是什么Aliware全链路压测诞生于阿里巴巴双11备战过程，如果说双11大促是阿里业务的“期末考试”，全链路压测就是大考前的“模拟考试”，诞生后被誉为双11稳定性保障的“核武器”。全链路压测通过在生产环境对业务大流量场景进行高仿真模拟，获取最真实的线上实际承载能力、执行精准的容量规划，确保系统可用性。分布式架构和业务快速发展给业务系统带来了不确定性。分布式环境的任意节点都可
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地