Zong_0915

深入理解Kafka系列（七）--管理Kafka

系列文章目录
前言
正文
- 主题操作
- - 创建主题
  - 增加分区
  - 其他操作
- 消费者群组
- - 偏移量管理
- 动态配置变更
- - 覆盖主题的配置项
  - 覆盖客户端的配置
  - 其他相关操作
- 分区管理
- - 首选的首领选举
  - 修改分区副本
  - 转储日志片段
- 消费和生产
- - 控制台生产者
  - 控制台消费者
- 不安全的操作
- - 移动集群控制器
  - 取消分区重分配
  - 移出待删除的主题
  - 手动删除主题
总结

系列文章目录

Kakfa权威指南系列文章

前言

本系列是我通读《Kafka权威指南》这本书做的笔录和思考。

正文

本篇文章主要从Kafka的一些脚本工具来介绍。

主题操作

创建主题

在集群当中创建一个主题需要用到3个参数（必须提供）。

主题名字：可以包含字母、数字、下划线、英文状态下的破折号和句号。
复制系数：主题的副本数量。
分区：主题的分区数量。

不建议在单个集群里面使用英文状态下的句号或者下划线来命名，因为主题的名字会被用在度量指标上，句号会被替换成下划线，如topic.1会变成topic_1。

标准的创建主题的格式：

./bin/kafka-topics.sh --zookeeper  --create --topic <主题名称> --replication-factor <复制系数> --partitions <分区数量>

如案例：

./bin/kafka-topics.sh --zookeeper 192.168.237.130:2181 --create --topic test19 --replication-factor 1 --partitions 3

如果出现Created topic xxx则代表创建主题成功。

忽略重复创建主题的错误：
首先我们知道，如果topic已经存在，会报错，如下图：

这里可以使用参数 –if-not-exists来忽略错误，即使主题存在，也不会抛出异常。

增加分区

有时候，我们创建完一个topic之后，我们可能需要为这个主题增加分区数量。而增加分区数量的目的主要是为了拓展主题的容量以及降低单个分区的吞吐量。并且如果要在单个消费者群组里面运行更多的消费者，那么主题数量也需要增加，因为一个分区只能由群组里的一个消费者读取。
示例：把topic的主题增加到16个

./bin/kafka-topics.sh --zookeeper 192.168.237.130:2181 --alter --topic test19 --partitions 16

输入后会出现以下提示：

对于主题分区的操作需要注意这么几个点：

1.调整基于键的主题
从消费者角度来看，为基于键的主题添加分区是很困难的，因为如果改变了分区的数量，键到分区之间的映射也会发生改变，所以，如果是基于键的主题来说，建议一开始就设置好分区数量，不要后期进行更改。
2.减少分区数量
我们无法减少分区的数量，注意，如果删除了分区，分区里的数据也会被一并删除，导致数据不一致。我们也无法将数据分配给其他分区，会导致消息乱序。所以如果要减少分区数量，只能删除整个主题，然后重新创建他。

其他操作

1.删除主题
如果说一个主题不再被使用，只要他还存在集群当中，就会占用一定数量的磁盘空间和文件句柄。为了能够删除主题，broker的delete.topic.enable参数必须设置为true。否则该参数被设置为false的话，删除主题的请求会被忽略。

具体命令：–delete

./bin/kafka-topics.sh --zookeeper 192.168.237.130:2181 --topic test19 --delete

其实Kafka并不是马上把这个主题删除，而是对这个主题进行一个标记。那么zookeeper在下一次扫描的时候，会把带有删除标记的主题从zookeeper上删除，这时候才是真正意义上的删除主题。

2.列出集群当中的所有主题:–list

./bin/kafka-topics.sh --zookeeper 192.168.237.130:2181 --list

3.列出主题的详细信息:–describe

./bin/kafka-topics.sh --zookeeper 192.168.237.130:2181 --describe

一般来说这个命令是用来排查问题的，比如：

结合使用 –under-replicated-partitions 参数可以列出所有包含不同步副本的分区。
结合使用 –unavailable-partitions 参数可以列出所有没有首领的分区，这些分区已经处于离线状态。

消费者群组

在Kafka里面，有两个地方保存着消费者群组的信息。

新版本的消费者：信息保存在zookeeper上。
旧版本的消费者：信息保存在broker上。

而kafka-consumer-group.sh工具可以用于列出上述两种消费者群组。

对于新版本的命令格式：

./bin/kafka-consumer-groups.sh --bootstrap-server 192.168.237.130:9092 --list --new-consumer

对于旧版本的命令格式：

./bin/kafka-consumer-groups.sh --zookeeper 192.168.237.130:2181 --list

这里可以看出有个消费者组：console-consumer-79432
，在这基础上，我们可以查看旧版本消费者群组的详细信息，使用 –describe --group <消费者组名称>

./bin/kafka-consumer-groups.sh --zookeeper 192.168.237.130:2181 --describe --group console-consumer-79432

结果：

参数说明：

字段	描述
TOPIC	正在被读取的主题名称
PARTITION	正在被读取的分区ID
CURRENT-OFFSET	消费者群组最近提交的偏移量，也就是消费者在分区里读取的当前位置
LOG-END-OFFSET	当前高水位偏移量，也就是最近一个被读取消息的偏移量
LAG	消费者的CURRENT-OFFSET 和broker的LOG-END-OFFSET之间的差距
OWNER	消费者群组正在读取该分区的消费者，消费者ID
GROUP	消费者群组的名称

偏移量管理

以上命令还可以获取偏移量，并保存批次的最新偏移量，从而实现偏移量的重置。

Kafka使用kafka-run-class.sh脚本来调用底层的Java实现类来实现导出。在导出偏移量的时候，会生成一个文件，文件里包含了分区和偏移量的信息。偏移量信息以一种导入工具能够识别的格式保存在文件里，每个分区在文件里占用一行。

1.导出偏移量
示例：将群组中的偏移量导出到offsets文件里

./bin/kafka-run-class.sh kafka.tools.ExportZkOffsets --zkconnect 192.168.237.130:2181 --group console-consumer-79432 --output-file offsets

查看内容：

 cat offsets
 ## 格式为：/consumers/[消费者组名称]/offsets/topic/[主题名称]/[分区Id]:[偏移量]
 /consumers/console-consumer-79432/offsets/test2/0:8

2.导入偏移量：
示例：

./bin/kafka-run-class.sh kafka.tools.ImportZkOffsets --zkconnect 192.168.237.130:2181 --input-file offsets

注意：
在导入偏移量之前，必须先关闭所有的消费者，如果消费者群组处于活跃状态，他们不会读取新的偏移量，反而有可能将新导入的偏移量覆盖掉。

动态配置变更

啥叫动态配置变更，意思是，我们可以在集群处于运行状态的时候，覆盖主题、客户端的配置参数。 一旦设置完毕，他们就成为集群的永久配置，被保存在zookeeper上，broker启动的时候会读取他们。

覆盖主题的配置项

更改主题配置的命令格式如下：

kafka-configs.sh --zookeeper  --alter --entity-type topics --entity-name <主题名称> --add-config =,=……

可用的主题配置参数表如下图（内容太多了，直接截图过来）：

示例：将主题test19的消息保留时间设置为1个小时

./bin/kafka-configs.sh --zookeeper 192.168.237.130:2181 --alter --entity-type topics --entity-name test19 --add-config retention.ms=3600000

覆盖客户端的配置

对于kafka客户端来说，只能覆盖生产者or消费者的配置参数，配额都以字节每秒为单位，表示客户端在每个broker上的生产or消费速率。
更改客户端配置的命令格式如下：

kafka-configs.sh --zookeeper  --alter --entity-type clients --entity-name  --add-config =,=……

可用的客户端配置参数表：

其他相关操作

1.查找被覆盖的配置
在更改了某一个默认配置后，可以使用命令行工具列出所有被覆盖过的配置，从而用于检查主题或者客户端的配置。通过–describe命令实现。
示例：

./bin/kafka-configs.sh --zookeeper 192.168.237.130:2181 --describe --entity-type topics --entity-name test19

2.删除被覆盖的配置
动态的配置完全可以被移除，从而恢复到集群的默认配置。
示例：

./bin/kafka-configs.sh --zookeeper 192.168.237.130:2181 --alter --entity-type topics --entity-name test19 --delete-config retention.ms

验证：空的则代表删除成功。

分区管理

首选的首领选举

之前提到过，使用多个分区副本可以提升可靠性。但是只有其中的一个副本可以作为分区首领，而且只有首领所在的broker可以进行生产和消费活动。Kafka将副本清单里的第一个同步副本选为首领，但是在关闭并重启broker的时候，并不会自动恢复原先首领的身份。

那么通过触发首选的副本选举，可以让broker重新获得首领。可以使用kafka-preferred-replica-election.sh工具手动触发选举。

./bin/kafka-preferred-replica-election.sh --zookeeper 192.168.237.130:2181

修改分区副本

在某些时候，可能需要修改分区的副本。

主题分区再整个集群里的不均匀分布造成了集群的不均衡。
broker离线造成分区不同步。
新加入的broker需要从集群里面获得负载。

可以使用kafka-reassign-partitions.sh工具来修改分区。一般修改的步骤有两个：

根据broker清单和主题清单生成一组迁移步骤。
执行这些迁移步骤。

操作：
1.创建一个包含主题清单的json文件，文件格式如下：

{
	"topics":[
		{
			"topic":"test19"
		},
		{
			"topic":"test"
		}
	],
	"version":1
}

2.执行迁移步骤：

./bin/kafka-reassign-partitions.sh --zookeeper 192.168.237.130:2181 --generate --topics-to-move-json-file topics.json --broker-list 0
# 结果，输出2个json对象。
# 当前的分区分配情况
Current partition replica assignment
{"version":1,"partitions":[{"topic":"test19","partition":0,"replicas":[0]},{"topic":"test19","partition":2,"replicas":[0]},{"topic":"test","partition":0,"replicas":[0]},{"topic":"test19","partition":1,"replicas":[0]}]}
# 建议的分区情况
# 建议把第一个json对象存起来，以便在必要的时候进行回滚，第二个json对象应该被保存到另外一个文件当中
# 作为kafka-reassign-partitions.sh工具的输入来执行第二个步骤
Proposed partition reassignment configuration
{"version":1,"partitions":[{"topic":"test19","partition":0,"replicas":[0]},{"topic":"test19","partition":2,"replicas":[0]},{"topic":"test","partition":0,"replicas":[0]},{"topic":"test19","partition":1,"replicas":[0]}]}

将上述第二段json保存到一个文件当中，名叫reassign.json，然后执行以下命令来执行建议的分区分配方案：

./bin/kafka-reassign-partitions.sh --zookeeper 192.168.237.130:2181 --execute --reassignment-json-file reassign.json

结果：

该命令会将指定分区的副本重新分配到新的broker上。（我都是一台机器操作的，所以实际上没有改变，但是操作步骤大概就是这样）

转储日志片段

如果需要查看某个特定消息的内容，可以使用工具来解码分区的日志片段。

示例1：解码日志片段，显示消息的概要信息。

./bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files logs/mysql.login-0/00000000000000000000.log

示例2：解码日志片段，显示消息的数据内容。（多个参数–print-data-log）

./bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files logs/mysql.login-0/00000000000000000000.log --print-data-log

消费和生产

控制台生产者

kafka-console-producer.sh工具用于向Kafka主题中写入消息，默认情况下，该工具将命令行输入的每一行视为一个消息。
使用控制台生产者时，有两个参数必须指定：

–broker-list：指定broker
–topic：指定目标主题

./bin/kafka-console-producer.sh --broker-list 192.168.237.130:9092 --topic test2

同时，控制台生产者也可以接受配置参数，接收配置参数也有两种方式：

通过–producer.config <文件路径>来指定配置文件。
通过命令行以–producer-property KEY=VALUE来实现。

如：

./bin/kafka-console-producer.sh --broker-list 192.168.237.130:9092 --topic test2 --producer-property linger.ms=360000

还有其他的命令行参数用于调整行为：

–key-serializer ClassName 指定消息键的编码器类名，默认是kafka.serializer.DefaultEncoder
–value-serializer ClassName指定消息值的编码器类名，默认是kafka.serializer.DefaultEncoder
–compression-codec String 指定生成消息所使用的压缩类型，可以是none、gzip、snappy、lz4
–sync 指定已同步的方式生成消息，也就是说在发送下一条消息之前会等待当前消息得到确认。

控制台消费者

kafka-console-consumer.sh工具提供了一种从一个或者多个主题上读取消息的方式。该消息默认下，会打印没有经过格式化的原始消息字节。
一般有两个参数是必选的：

zookeeper（旧版本）：zookeeper的地址，ip：端口
topic：需要连接的主题名称

如果使用的是新版本的kafka，必须使用**–new-consumer和–broker-list**

./bin/kafka-console-consumer.sh --zookeeper 192.168.237.130:2181 --topic test2

同时，控制台消费者也可以接受配置参数，接收配置参数也有两种方式：

通过–consumer.config <文件路径>来指定配置文件。
通过命令行以–consumer-property KEY=VALUE来实现。

有这么几个常用的控制台消费者的配置：

–formatter ClassName 指定消息格式化器的类名，用于解码消息，默认值是kafka.tools.DefaultFormatter
–from-beginning 指定从最旧的偏移量开始读取数据，否则从最新的偏移量处开始读取
–max-messages Num 指定在退出前最多读取num个消息
–partition Num 指定只读取Id为num的分区（需要新版本消费者）

不安全的操作

在这里，列举一些常见的操作，一般在紧急情况下可以使用，但是不建议执行，因为这些操作是不安全的。

移动集群控制器

每个Kafka集群都有一个控制器，他是运行在集群上某个broker上的线程。负责管理集群，但是有时候我们可能需要将控制器从一个controller迁移到另外一个broker上。例如：由于某些异常，控制器虽然还在运行，但是无法提供正常的功能。

操作：

当前控制器一般会将自己注册到zookeeper上的一个节点，这个节点处于集群路径的最顶层，名字叫做/controller。
我们需要手动删除这个节点，那么会释放当前控制器，集群将会进行新的控制器选举。

取消分区重分配

一般分区重分配的流程为：

发起重分配请求（创建Zookeeper节点）
集群控制器将分区添加到broker上
新的broker开始复制分区，直到副本达到同步状态
控制器从分区副本清单里面移出旧的broker

因为分区重分配是并行进行的，所以一般情况下没有理由取消一个正在进行中的重分配任务。 不过有个例外：重分配进行到一半的时候， broker发生了故障并且无法立即重启，这会导致重分配过程无法结束，进而妨碍其他重分配任务的进行， 这种情况下可以让集群取消重分配任务。

操作：

从zookeeper上删除/admin/reassign_partitions节点
重新选举控制器（删除/controllerj节点）

移出待删除的主题

一般使用命令行工具删除主题的时候，会在zookeeper上创建一个节点叫做删除主题的请求。正常情况下，集群会立即执行这个请求， 但是命令行工具不知道集群是否启用了主题删除功能，因此如果集群的主题删除功能是禁用的，那么命令行工具发起的请求会被一直挂起。 当然这种请求是可以被删除的。

操作：

主题的删除是通过在/admin/delete_topic节点下创建一个待删除主题为名的子节点来实现的。
删除对应目录下的节点即可移出被挂起的请求（待删除的主题）

手动删除主题

如果集群禁用了主题删除功能，那么可以进行手动删除，但是这个要求线下关闭及群里的所有broker。

为什么要关闭broker？

答：在集群还在运行的时候修改zookeeper里面的元数据是非常危险的，会造成集群的不稳定，所以要把broker关闭。

手动删除主题的操作：

关闭集群中所有的broekr
删除zookeeper路径中/brokers/topics/[topicName]（先删除节点下的子节点）
删除每个broker的分区目录，这些目录的名字可能是[topicName]-Num(分区Id)
重启所有broker

总结

本文大概讲了这么几个点：

kafka-topics.sh的主题操作。
kafka-consumer-groups.sh的消费者组操作。
kafka-run-class.sh的偏移量导入导出操作以及日志数据查看操作。
kafka-configs.sh的主题覆盖操作。
kafka-preferred-replica-election.sh的首领选举操作。
kafka-reassign-partitions.sh的分区管理操作。
kafka-console-consumer.sh和kafka-console-producer.sh的控制台消费者生产者操作。
一些常见的不安全操作。

基本上总结了kafka自带工具中几个常见的工具和用法。

下一篇文章准备从Kafka的流式处理来讲。

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

深入理解Kafka系列（七）--管理Kafka

深入理解Kafka系列（七）--管理Kafka

系列文章目录

前言

正文

主题操作

创建主题

增加分区

其他操作

消费者群组

偏移量管理

动态配置变更

覆盖主题的配置项

覆盖客户端的配置

其他相关操作

分区管理

首选的首领选举

修改分区副本

转储日志片段

消费和生产

控制台生产者

控制台消费者

不安全的操作

移动集群控制器

取消分区重分配

移出待删除的主题

手动删除主题

总结

你可能感兴趣的:(Kafka)