mozhw

kafka知识汇总

什么是kafka

Kafka是分布式发布-订阅消息系统，它最初是由LinkedIn公司开发的，之后成为Apache项目的一部分，Kafka是一个分布式，可划分的，冗余备份的持久性的日志服务，它主要用于处理流式数据。

Kafka的流处理是什么意思

连续、实时、并发和以逐记录方式处理数据的类型，我们称之为Kafka流处理

为什么要使用 kafka，为什么要使用消息队列

缓冲和削峰：上游数据时有突发流量，下游可能扛不住，或者下游没有足够多的机器来保证冗余，kafka在中间可以起到一个缓冲的作用，把消息暂存在kafka中，下游服务就可以按照自己的节奏进行慢慢处理。

解耦和扩展性：项目开始的时候，并不能确定具体需求。消息队列可以作为一个接口层，解耦重要的业务流程。只需要遵守约定，针对数据编程即可获取扩展能力。

冗余：可以采用一对多的方式，一个生产者发布消息，可以被多个订阅topic的服务消费到，供多个毫无关联的业务使用。

健壮性：消息队列可以堆积请求，所以消费端业务即使短时间死掉，也不会影响主要业务的正常进行。

异步通信：很多时候，用户不想也不需要立即处理消息。消息队列提供了异步处理机制，允许用户把一个消息放入队列，但并不立即处理它。想向队列中放入多少消息就放多少，然后在需要的时候再去处理它们。

Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么

ISR:In-Sync Replicas 副本同步队列
AR:Assigned Replicas 所有副本
ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max.ms和延迟条数replica.lag.max.messages两个维度, 当前最新的版本0.10.x中只支持replica.lag.time.max.ms这个维度），任意一个超过阈值都会把follower剔除出ISR, 存入OSR（Outof-Sync Replicas）列表，新加入的follower也会先存放在OSR中。AR=ISR+OSR。

kafka中的broker 是干什么的

broker 是消息的代理，Producers往Brokers里面的指定Topic中写消息，Consumers从Brokers里面拉取指定Topic的消息，然后进行业务处理，broker在中间起到一个代理保存消息的中转站。

什么是消费者组

1、定义：即消费者组是 Kafka 提供的可扩展且具有容错性的消费者机制。
2、原理：在 Kafka 中，消费者组是一个由多个消费者实例 构成的组。多个实例共同订阅若干个主题，实现共同消费。同一个组下的每个实例都配置有 相同的组 ID，被分配不同的订阅分区。当某个实例挂掉的时候，其他实例会自动地承担起 它负责消费的分区。

kafka中的 zookeeper 起到什么作用，可以不用zookeeper么

zookeeper 是一个分布式的协调组件，早期版本的kafka用zk做meta信息存储，consumer的消费状态，group的管理以及 offset的值。考虑到zk本身的一些因素以及整个架构较大概率存在单点问题，新版本中逐渐弱化了zookeeper的作用。新的consumer使用了kafka内部的group coordination协议，也减少了对zookeeper的依赖，

但是broker依然依赖于ZK，zookeeper 在kafka中还用来选举controller 和 检测broker是否存活等等。

目前，Kafka 使用 ZooKeeper 存放集群元数据、成员管理、Controller 选举，以及其他一些管理类任务。之后，等 KIP-500 提案完成后，Kafka 将完全不再依赖 于 ZooKeeper

kafka follower如何与leader同步数据

Kafka的复制机制既不是完全的同步复制，也不是单纯的异步复制。完全同步复制要求All Alive Follower都复制完，这条消息才会被认为commit，这种复制方式极大的影响了吞吐率。而异步复制方式下，Follower异步的从Leader复制数据，数据只要被Leader写入log就被认为已经commit，这种情况下，如果leader挂掉，会丢失数据，kafka使用ISR的方式很好的均衡了确保数据不丢失以及吞吐率。Follower可以批量的从Leader复制数据，而且Leader充分利用磁盘顺序读以及send file(zero copy)机制，这样极大的提高复制性能，内部批量写磁盘，大幅减少了Follower与Leader的消息量差。

什么情况下一个 broker 会从 isr中踢出去

leader会维护一个与其基本保持同步的Replica列表，该列表称为ISR(in-sync Replica)，每个Partition都会有一个ISR，而且是由leader动态维护 ，如果一个follower比一个leader落后太多，或者超过一定时间未发起数据复制请求，则leader将其重ISR中移除 。

kafka producer如何优化打入速度

增加线程

提高 batch.size

增加更多 producer 实例

增加 partition 数

设置 acks=-1 时，如果延迟增大：可以增大 num.replica.fetchers（follower 同步数据的线程数）来调解；

跨数据中心的传输：增加 socket 缓冲区设置以及 OS tcp 缓冲区设置。

Kafka 中位移(offset)的作用

在 Kafka 中，每个 主题分区下的每条消息都被赋予了一个唯一的 ID 数值，用于标识它在分区中的位置。这个 ID 数值，就被称为位移，或者叫偏移量。一旦消息被写入到分区日志，它的位移值将不能 被修改。

Kafka 中的领导者副本(Leader Replica)和追随者副本 (Follower Replica)的区别

:Kafka 副本当前分为领导者副本和追随者副本。只有 Leader 副本才能 对外提供读写服务，响应 Clients 端的请求。Follower 副本只是采用拉(PULL)的方 式，被动地同步 Leader 副本中的数据，并且在 Leader 副本所在的 Broker 宕机后，随时 准备应聘 Leader 副本。
强调 Follower 副本也能对外提供读服务

如何设置 Kafka 能接收的最大消息的大小

Broker 端参数:message.max.bytes、max.message.bytes(主题级别)和 replica.fetch.max.bytes
Consumer 端参数:fetch.message.max.bytes
Broker 端的最后一个参数比较容易遗漏。我们必须调整 Follower 副本能够接收的最大消 息的大小，否则，副本同步就会失败

监控 Kafka 的框架都有哪些

Kafka Manager:应该算是最有名的专属 Kafka 监控框架了，是独立的监控系统。
Kafka Monitor:LinkedIn 开源的免费框架，支持对集群进行系统测试，并实时监控测
试结果。
CruiseControl:也是 LinkedIn 公司开源的监控框架，用于实时监测资源使用率，以及 提供常用运维操作等。无 UI 界面，只提供 REST API。
JMX 监控:由于 Kafka 提供的监控指标都是基于 JMX 的，因此，市面上任何能够集成 JMX 的框架都可以使用，比如 Zabbix 和 Prometheus。
已有大数据平台自己的监控体系:像 Cloudera 提供的 CDH 这类大数据平台，天然就提 供 Kafka 监控方案。
JMXTool:社区提供的命令行工具，能够实时监控 JMX 指标。答上这一条，属于绝对 的加分项，因为知道的人很少，而且会给人一种你对 Kafka 工具非常熟悉的感觉。如果 你暂时不了解它的用法，可以在命令行以无参数方式执行一下kafka-run-class.sh kafka.tools.JmxTool，学习下它的用法。

Broker 的 Heap Size 如何设置

任何 Java 进程 JVM 堆大小的设置都需要仔细地进行考量和测 试。一个常见的做法是，以默认的初始 JVM 堆大小运行程序，当系统达到稳定状态后，手动触发一次 Full GC，然后通过 JVM 工具查看 GC 后的存活对象大小。之后，将堆大小设 置成存活对象总大小的 1.5~2 倍。对于 Kafka 而言，这个方法也是适用的。不过，业界有 个最佳实践，那就是将 Broker 的 Heap Size 固定为 6GB。经过很多公司的验证，这个大 小是足够且良好的。

如何估算 Kafka 集群的机器数量

通常来说，CPU 和内存资源的充足是比较容易保证的，因此，你需要从磁盘空间和带宽占用两个维度去评估机器数量。
在预估磁盘的占用时，你一定不要忘记计算副本同步的开销。如果一条消息占用 1KB 的磁 盘空间，那么，在有 3 个副本的主题中，你就需要 3KB 的总空间来保存这条消息。
对于评估带宽来说，常见的带宽有 1Gbps 和 10Gbps，但你要切记，这两个数字仅仅是最大值。

Leader 总是 -1，怎么破

删除 ZooKeeper 节点 /controller，触发 Controller 重选举。 Controller 重选举能够为所有主题分区重刷分区状态，可以有效解决因不一致导致的 Leader 不可用问题。

Kafka 能手动删除消息吗

Kafka 不需要用户手动删除消息。它本身提供了留存策略，能够自动删除过期消息。 当然，它是支持手动删除消息的。
对于设置了 Key 且参数 cleanup.policy=compact 的主题而言，我们可以构造一条  的消息发送给 Broker，依靠 Log Cleaner 组件提供的功能删除掉该 Key 的消息。
对于普通主题而言，我们可以使用 kafka-delete-records 命令，或编写程序调用 Admin.deleteRecords 方法来删除消息。这两种方法殊途同归，底层都是调用 Admin 的 deleteRecords 方法，通过将分区 Log Start Offset 值抬高的方式间接删除消息。

__consumer_offsets 是做什么用的

它是一个内部主题，无需手动干预，由 Kafka 自行管理。当然，我们可以创建该主题。
它的主要作用是负责注册消费者以及保存位移值。
Kafka 的 GroupCoordinator 组件提供对该主题完整的管理功能，包括该主题的创建、 写入、读取和 Leader 维护等。

分区 Leader 选举策略有几种

分区的 Leader 副本选举对用户是完全透明的，它是由 Controller 独立完成的。
Kafka 有 4 种分区 Leader 选举策略
OfflinePartition Leader 选举:每当有分区上线时，就需要执行 Leader 选举。所谓的分区上线，可能是创建了新分区，也可能是之前的下线分区重新上线。这是最常见的分区 Leader 选举场景。
ReassignPartition Leader 选举:当你手动运行 kafka-reassign-partitions 命令，或者是调用 Admin 的 alterPartitionReassignments 方法执行分区副本重分配时，可能触发此类选举。假设原来的 AR 是[1，2，3]，Leader 是 1，当执行副本重分配后，副本集 合 AR 被设置成[4，5，6]，显然，Leader 必须要变更，此时会发生 Reassign Partition Leader 选举。
PreferredReplicaPartition Leader 选举:当你手动运行 kafka-preferred-replica- election 命令，或自动触发了 Preferred Leader 选举时，该类策略被激活。所谓的 Preferred Leader，指的是 AR 中的第一个副本。比如 AR 是[3，2，1]，那么， Preferred Leader 就是 3。
ControlledShutdownPartition Leader 选举:当 Broker 正常关闭时，该 Broker 上 的所有 Leader 副本都会下线，因此，需要为受影响的分区执行相应的 Leader 选举。

部署

下载：
https://archive.apache.org/dist/kafka/2.4.0/kafka_2.11-2.4.0.tgz

配置
[hadoop@master config]$ vi server.properties
[hadoop@master config]$ cat server.properties
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# see kafka.server.KafkaConfig for additional details and defaults

############################# Server Basics #############################

# The id of the broker. This must be set to a unique integer for each broker.
broker.id=0

############################# Socket Server Settings #############################

# The address the socket server listens on. It will get the value returned from 
# java.net.InetAddress.getCanonicalHostName() if not configured.
#   FORMAT:
#     listeners = listener_name://host_name:port
#   EXAMPLE:
#     listeners = PLAINTEXT://your.host.name:9092
listeners=PLAINTEXT://192.168.153.131:9092

# Hostname and port the broker will advertise to producers and consumers. If not set, 
# it uses the value for "listeners" if configured.  Otherwise, it will use the value
# returned from java.net.InetAddress.getCanonicalHostName().
#advertised.listeners=PLAINTEXT://your.host.name:9092

# Maps listener names to security protocols, the default is for them to be the same. See the config documentation for more details
#listener.security.protocol.map=PLAINTEXT:PLAINTEXT,SSL:SSL,SASL_PLAINTEXT:SASL_PLAINTEXT,SASL_SSL:SASL_SSL

# The number of threads that the server uses for receiving requests from the network and sending responses to the network
num.network.threads=3

# The number of threads that the server uses for processing requests, which may include disk I/O
num.io.threads=8

# The send buffer (SO_SNDBUF) used by the socket server
socket.send.buffer.bytes=102400

# The receive buffer (SO_RCVBUF) used by the socket server
socket.receive.buffer.bytes=102400

# The maximum size of a request that the socket server will accept (protection against OOM)
socket.request.max.bytes=104857600


############################# Log Basics #############################

# A comma separated list of directories under which to store log files
log.dirs=/home/hadoop/soft/kafka_2.11-2.4.0/logs

# The default number of log partitions per topic. More partitions allow greater
# parallelism for consumption, but this will also result in more files across
# the brokers.
num.partitions=1

# The number of threads per data directory to be used for log recovery at startup and flushing at shutdown.
# This value is recommended to be increased for installations with data dirs located in RAID array.
num.recovery.threads.per.data.dir=1

############################# Internal Topic Settings  #############################
# The replication factor for the group metadata internal topics "__consumer_offsets" and "__transaction_state"
# For anything other than development testing, a value greater than 1 is recommended to ensure availability such as 3.
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1

############################# Log Flush Policy #############################

# Messages are immediately written to the filesystem but by default we only fsync() to sync
# the OS cache lazily. The following configurations control the flush of data to disk.
# There are a few important trade-offs here:
#    1. Durability: Unflushed data may be lost if you are not using replication.
#    2. Latency: Very large flush intervals may lead to latency spikes when the flush does occur as there will be a lot of data to flush.
#    3. Throughput: The flush is generally the most expensive operation, and a small flush interval may lead to excessive seeks.
# The settings below allow one to configure the flush policy to flush data after a period of time or
# every N messages (or both). This can be done globally and overridden on a per-topic basis.

# The number of messages to accept before forcing a flush of data to disk
#log.flush.interval.messages=10000

# The maximum amount of time a message can sit in a log before we force a flush
#log.flush.interval.ms=1000

############################# Log Retention Policy #############################

# The following configurations control the disposal of log segments. The policy can
# be set to delete segments after a period of time, or after a given size has accumulated.
# A segment will be deleted whenever *either* of these criteria are met. Deletion always happens
# from the end of the log.

# The minimum age of a log file to be eligible for deletion due to age
log.retention.hours=168

# A size-based retention policy for logs. Segments are pruned from the log unless the remaining
# segments drop below log.retention.bytes. Functions independently of log.retention.hours.
#log.retention.bytes=1073741824

# The maximum size of a log segment file. When this size is reached a new log segment will be created.
log.segment.bytes=1073741824

# The interval at which log segments are checked to see if they can be deleted according
# to the retention policies
log.retention.check.interval.ms=300000

############################# Zookeeper #############################
# Zookeeper connection string (see zookeeper docs for details).
# This is a comma separated host:port pairs, each corresponding to a zk
# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".
# You can also append an optional chroot string to the urls to specify the
# root directory for all kafka znodes.
zookeeper.connect=192.168.153.131:2181,192.168.153.134:2181,192.168.153.135:2181

# Timeout in ms for connecting to zookeeper
zookeeper.connection.timeout.ms=6000


############################# Group Coordinator Settings #############################

# The following configuration specifies the time, in milliseconds, that the GroupCoordinator will delay the initial consumer rebalance.
# The rebalance will be further delayed by the value of group.initial.rebalance.delay.ms as new members join the group, up to a maximum of max.poll.interval.ms.
# The default value for this is 3 seconds.
# We override this to 0 here as it makes for a better out-of-the-box experience for development and testing.
# However, in production environments the default value of 3 seconds is more suitable as this will help to avoid unnecessary, and potentially expensive, rebalances during application startup.
group.initial.rebalance.delay.ms=0

配置说明

配置说明：

broker.id：每个broker在集群中的唯一标识，正整数。当该服务器的ip地址发生变更，但broker.id未变，则不会影响consumers的消费情况
listeners：kafka的监听地址与端口，在实际测试中如果写0.0.0.0会报错。
num.network.threads：kafka用于处理网络请求的线程数
num.io.threads：kafka用于处理磁盘io的线程数
socket.send.buffer.bytes：发送数据的缓冲区
socket.receive.buffer.bytes：接收数据的缓冲区
socket.request.max.bytes：允许接收的最大数据包的大小（防止数据包过大导致OOM）
log.dirs：kakfa用于保存数据的目录，所有的消息都会存储在该目录当中。可以通过逗号来指定多个路径，kafka会根据最少被使用的原则选择目录分配新的partition。需要说明的是，kafka在分配partition的时候选择的原则不是按照磁盘空间大小来定的，而是根据分配的partition的个数多少而定
num.partitions：设置新创建的topic的默认分区数
number.recovery.threads.per.data.dir：用于恢复每个数据目录时启动的线程数
log.retention.hours：配置kafka中消息保存的时间，还支持log.retention.minutes和log.retention.ms。如果多个同时设置会选择时间最短的配置，默认为7天。
log.retention.check.interval.ms：用于检测数据过期的周期
log.segment.bytes：配置partition中每个segment数据文件的大小。默认为1GB。超出该大小后，会自动创建一个新的segment文件。
zookeeper.connect：指定连接的zk的地址，zk中存储了broker的元数据信息。可以通过逗号来设置多个值。格式为：hostname:port/path。hostname为zk的主机名或ip，port为zk监听的端口。/path表示kafka的元数据存储到zk上的目录，如果不设置，默认为根目录
zookeeper.connection.timeout：kafka连接zk的超时时间
group.initial.rebalance.delay.ms：在实际环境当中，当将多个consumer加入到一个空的consumer group中时，每加入一个consumer就会触发一次对partition消费的重平衡，如果加入100个，就得重平衡100次，这个过程就会变得非常耗时。通过设置该参数，可以延迟重平衡的时间，比如有100个consumer会在10s内全部加入到一个consumer group中，就可以将该值设置为10s，10s之后，只需要做一次重平衡即可。默认为0则代表不开启该特性。
auto.create.topics.enable：当有producer向一个不存在的topic中写入消息时，是否自动创建该topic
delete.topics.enable：kafka提供了删除topic的功能，但默认并不会直接将topic数据物理删除。如果要从物理上删除（删除topic后，数据文件也一并删除），则需要将此项设置为true

启动

[hadoop@master kafka_2.11-2.4.0]$ ./bin/kafka-server-start.sh config/server.properties


[2020-10-29 10:47:27,656] INFO [/config/changes-event-process-thread]: Starting (kafka.common.ZkNodeChangeNotificationListener$ChangeEventProcessThread)
[2020-10-29 10:47:27,789] INFO [SocketServer brokerId=0] Started data-plane processors for 1 acceptors (kafka.network.SocketServer)
[2020-10-29 10:47:27,791] INFO Kafka version: 2.4.0 (org.apache.kafka.common.utils.AppInfoParser)
[2020-10-29 10:47:27,791] INFO Kafka commitId: 77a89fcf8d7fa018 (org.apache.kafka.common.utils.AppInfoParser)
[2020-10-29 10:47:27,791] INFO Kafka startTimeMs: 1603939647790 (org.apache.kafka.common.utils.AppInfoParser)
[2020-10-29 10:47:27,791] INFO [KafkaServer id=0] started (kafka.server.KafkaServer)

创建一个主题

[hadoop@master config]$ cd  ../bin
[hadoop@master bin]$ ./kafka-topics.sh --create --zookeeper 192.168.153.131:2181,192.168.153.134:2181,192.168.153.135:2181 --replication-factor 1 --partitions 1 --topic test
Created topic test.

查看主题

[hadoop@master bin]$ ./kafka-topics.sh --list --zookeeper 192.168.153.131:2181,192.168.153.134:2181,192.168.153.135:2181
test

发送信息

[hadoop@master bin]$ ./kafka-console-producer.sh --broker-list master:9092 --topic test
>test
>tesssss
>eeeeee

接收信息

[hadoop@master bin]$ ./kafka-console-consumer.sh --bootstrap-server master:9092 --topic test --from-beginning
test
tesssss
eeeeee

你可能感兴趣的:(kafka)

Kafka、RocketMQ、RabbitMQ三款消息中间件的原理家常凉菜 kafka rocketmq rabbitmq
最近学习了Kafka、RocketMQ、RabbitMQ三款消息中间件的原理，本文主要是记录一下Kafka、RabbitMQ、RocketMQ三款中间件之间的区别。下面先对各自的架构进行简单的介绍，然后详细对比一下他们之间的关键不同点。由于学习时间和个人水平有限，文中错误之处在所难免,敬请指正。一、Kafka简介Producer：生产者，向Kafka集群（Broker）中发送消息Consumer：
java八股文之消息中间件 Rverdoser linq c#
org.apache.kafkakafka-clients3.0.02.创建生产者生产者（Producer）是发送消息到Kafka的一个客户端。以下是一个简单的生产者示例：importorg.apache.kafka.clients.producer.KafkaProducer;importorg.apache.kafka.clients.producer.ProducerRecord;impor
flink读kafka写入mysql_Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL 苏远岫
上周六在深圳分享了《FlinkSQL1.9.0技术内幕和最佳实践》，会后许多小伙伴对最后演示环节的Demo代码非常感兴趣，迫不及待地想尝试下，所以写了这篇文章分享下这份代码。希望对于FlinkSQL的初学者能有所帮助。完整分享可以观看Meetup视频回顾：https://developer.aliyun.com/live/1416这份代码主要由两部分组成：1)能用来提交SQL文件的SqlSubmi
Flink SQL 读取 Kafka 数据到 Mysql 实战小技工丨大数据技术学习 flink sql kafka
Flink1.9.2SQL读取Kafka数据到Mysql实战案例需求通过Flinksql使用DDL的方式，实现读取kafka用户行为数据，对数据进行实时处理，根据时间分组，求PV和UV，然后输出到mysql中。1、kafka中的消息的格式数据以JSON格式编码，格式如下：{"user_id":1101,"item_id":1875,"category_id":456876,"behavior":"
本地docker安装zookeeper,kafka,flink a724952091 flink kafka docker
首先安装zookeeper这里zookeeper的安装是为了去使用kafka这里我们安装的是wurstmeister的kafka和zookeeper镜像也是在hub.docker.com网站上，Star最多的kafka镜像直接在cmd执行run命令（前提是有本地docker。。。）第一次使用因为本地没有此镜像会去下载dockerrun-d--namezookeeper-p2181-twurstme
Docker-compose编排部署Kafka伪分布式集群(为后续实验搭建基础环境) F_Hello_World Kafka kafka docker
本实验参照官网http://kafka.apache.org/documentation/构建,为后续了解kafka应用做环境准备。搭建环境：MAC10.15docker19.03.4docker-composeversion1.24.1jdk1.8以上(对于kafka2.x以上版本已遗弃对jdk1.7的支持)zookeeper-3.4.14(这里没使用kafka自带zk,而使用外置zk,这里zk
deepseek+ansible实现AI自动化集群部署大囚长 AIOps 大模型 ansible 人工智能自动化
DeepSeek与Ansible协同配置Linux集群的完整机制方案，涵盖架构设计、工具调用链及Agent提示词体系：一、系统架构设计（四层联动）![架构图示意]用户交互层→AI决策层→执行引擎层→数据反馈层││││▼▼▼▼Web/CLI→DeepSeek引擎→Ansible→监控系统用户交互层Web界面：支持自然语言输入（如"部署10节点Kafka集群"）CLI工具：deepseek-ctlcr
面试基础---分布式架构基础消息队列Kafka vs RabbitMQ vs RocketMQ 对比 WeiLai1112 分布式架构面试分布式架构 java 后端 dubbo spring boot
分布式架构消息队列深度解析：KafkavsRabbitMQvsRocketMQ引言在高并发、高可用的分布式系统中，消息队列是实现异步通信、流量削峰、系统解耦的核心组件。Kafka、RabbitMQ和RocketMQ是当前最主流的消息中间件，各自在性能、可靠性、生态支持等方面有独特优势。本文将深入探讨三者的设计原理、核心特性及适用场景，结合电商、金融等实际案例与源码分析，为技术选型提供全面指导。1.
Kafka 深入解析：架构原理、基本使用及丢数据场景分析唐唐爱吃糖111 kafka 架构分布式云原生云计算 k8s
Kafka是一个高吞吐、分布式的消息队列系统，被广泛应用于日志处理、流式数据处理和事件驱动架构。本篇文章将详细介绍Kafka的架构原理、基本使用方法，并分析Kafka可能的丢数据场景及其解决方案。一、Kafka介绍1.什么是Kafka？Kafka是Apache基金会开源的分布式流处理平台，主要用于：消息队列（MessageQueue）：解耦生产者（Producer）和消费者（Consumer）。日
Java集成消息队列实战：从RabbitMQ到Kafka的完整解决方案 [特殊字符] 添砖Java中 java-rabbitmq java rabbitmq kafka spring boot
一、为什么消息队列是分布式系统的血脉？❓1.1消息队列核心价值异步处理：订单创建→发送短信异步执行系统解耦：支付服务与物流服务独立演进流量削峰：应对秒杀活动瞬时流量可靠传输：网络故障时保证消息不丢失1.2技术选型指南消息队列吞吐量延迟可靠性适用场景RabbitMQ万级微秒级★★★★★金融交易、实时通知Kafka百万级毫秒级★★★★☆日志收集、流处理RocketMQ十万级毫秒级★★★★★电商订单、事
使用Spring Boot集成Kafka开发：接收Kafka消息的Java应用 YazIdris java spring boot kafka
Kafka是一个分布式的流处理平台，它具有高吞吐量、可扩展性和容错性的特点。SpringBoot提供了与Kafka集成的便捷方式，使得开发者可以轻松地创建Kafka消息接收应用。本文将介绍如何使用SpringBoot集成Kafka开发，以及如何编写Java代码来接收Kafka消息。首先，确保你已经安装了Kafka和Zookeeper，并启动了它们。接下来，创建一个新的SpringBoot项目，并添
Spring Boot 集成 Kafka m0_74824592 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
SpringBoot下kafka配置生产者和消费者种豆走天下 java 面试开发语言
SpringBoot下kafka配置生产者和消费者KafkaResourceConfiguration.javapackageits.uts.kafkatest;importlombok.Data;importorg.apache.kafka.clients.consumer.ConsumerConfig;importorg.apache.kafka.clients.producer.Produc
探讨消息队列系统：AWS SQS vs. Apache Kafka fxrz12 工具 aws apache kafka
在现代软件架构中，消息队列系统扮演着关键角色，帮助系统实现异步通信、负载均衡和解耦。两种广泛使用的消息队列系统是AWSSimpleQueueService(SQS)和ApacheKafka。尽管它们都提供消息传递功能，但在设计理念、功能和使用场景上存在显著差异。本文将详细探讨AWSSQS和ApacheKafka的特点，帮助你在不同场景下做出最佳选择。一、ApacheKafkaApacheKafka
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
zookeeper与kafka集群配置 zhangpeng455547940 计算机 linux java 运维
基本配置修改ipvi/etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=staticONBOOT=yesIPADDR=192.168.139.133NETMASK=255.255.255.0GATEWAY=192.168.139.2DNS1=192.168.1.1修改主机名hostnamectlset-hostnameSSH免密登录vi/etc/
Windows下安装kafka 计算机软件程序设计环境搭建 windows kafka 分布式
在Windows系统下安装Kafka可以按照以下步骤进行：1.安装Java环境Kafka是基于Java开发的，因此需要先安装Java环境。下载Java：访问OracleJava下载页面或OpenJDK下载页面，选择适合你系统的Java版本（建议Java8及以上）进行下载。安装Java：运行下载的安装程序，按照提示完成安装。配置环境变量：右键点击“此电脑”，选择“属性”。点击“高级系统设置”，在弹出
面试必备：Kafka高频面试题及答案解析江-小北面试 kafka 职场和发展
本文，已收录于，我的技术网站aijiangsir.com，有大厂完整面经，工作技术，架构师成长之路，等经验分享Kafka中的ProducerAPI是如何工作的？Kafka中的ProducerAPI允许应用程序发布一流的数据到一个或多个Kafka主题。它的工作原理包括：1、创建Producer实例：通过配置Producer的各种属性（如服务器地址、序列化方式等）来创建Producer实例。2、发送消
kafka + flink +mysql 案例 angen2018 java kafka flink
假设你有两个Kafka主题：user_activities_topic和product_views_topic，并且你希望将user_activities_topic中的数据写入到user_activities表，而将product_views_topic中的数据写入到product_views表。mavenorg.apache.flinkflink-streaming-java_2.121.14
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
Kafka、RabbitMQ、RocketMQ的区别种豆走天下 kafka rabbitmq rocketmq
Kafka、RabbitMQ、和RocketMQ都是广泛使用的消息中间件，它们各自有不同的特点、架构设计和应用场景。下面是它们之间的主要区别：1.架构设计Kafka：Kafka是一个分布式流处理平台，最初由LinkedIn开发，主要用于处理大规模数据流。Kafka的架构包括Producer（生产者）、Consumer（消费者）、Broker（代理）和Topic（主题）。Kafka使用分区和副本来提
Apache Kafka 实践：优化与脚本操作指南无畏道人
本文还有配套的精品资源，点击获取简介：本文深入探讨了ApacheKafka核心概念及其在IT环境中的应用，特别是与Shell脚本的关联。ApacheKafka是一个分布式流处理平台，通过主题和分区的结构提供高吞吐量和低延迟的消息处理。文章介绍了Kafka架构、生产者和消费者的角色、Shell脚本与Kafka的交互，以及Kafka命令行工具的使用。同时，还涉及了Kafka的配置选项，例如数据持久化策
电商业务数据测试用例参考 SuperCreators 大数据测试大数据 hive 数据仓库
1.数据采集层测试用例编号测试目标测试场景预期结果TC-001验证用户行为日志采集完整性模拟用户浏览、点击、加购行为KafkaTopic中日志记录数与模拟量一致TC-002验证无效数据过滤规则发送爬虫请求（高频IP）清洗后数据中无该IP的日志记录2.数据处理层测试用例编号测试目标测试场景预期结果TC-003验证用户兴趣标签计算逻辑用户连续浏览3次“运动鞋”类目用户画像中“运动鞋”兴趣权重≥0.8T
Apache Kafka 在生产环境中的管理与优化：从理论到实践 Echo_Wish 运维探秘让你快速入坑运维 apache kafka 分布式
ApacheKafka在生产环境中的管理与优化：从理论到实践在当今这个数据驱动的时代，ApacheKafka已经成为企业流处理和实时数据管道的核心工具。作为一名运维工程师，确保Kafka在生产环境中的高效运行不仅是挑战，更是体现专业能力的绝佳舞台。那么，如何管理并优化Kafka集群，提升其在复杂生产环境下的表现呢？接下来，我将通过经验总结和代码示例，带你逐步了解生产环境下Kafka的管理与优化。一
spark集群，kafka集群和zookeeper的docker集群快速搭建醉与浮 tools docker spark kafka
准备操作安装docker(宿主机)yuminstalldocker(宿主机时centos用yum管理包)systemctldaemon-reload(重加载deamon服务，是docker的核心)systemctlrestartdocker.service(重启docker服务)docker常用命令dockerps-a查看所有容器dockersearchUbuntu寻找Ubuntu的镜像docke
Ubuntu快速安装kafka集群拥抱世界的精彩 kafka集群 ubuntu搭建kafka集群 kafka集群
搭建集群做少需要三台服务器一个centos和两个ubuntu每台都按照下面做：安装JDKsudoapt-getinstalldefault-jrejava-versionapt-getinstalldefault-jdkjava-version安装：sudoapt-getinstallzookeeper/etc/init.d/zookeeperstart//自启动默认信息：#安装路径/usr/sh
Kafka 在 Linux 下的集群配置和安装 J老熊 kafka linux java 面试系统架构运维 docker
Kafka在Linux下的集群配置和安装ApacheKafka是一个流行的分布式流处理平台，广泛用于实时数据管道和流处理应用。本文将详细讲解如何在Linux环境中配置和安装Kafka集群，并包括通过Docker安装和配置Kafka的步骤。每个步骤都将提供详细的解释，力求帮助读者深入理解。1.环境准备在开始之前，请确保您的Linux系统满足以下要求：操作系统：推荐使用Ubuntu20.04或Cent
linux上卸载kafka,kafka安装在linux上的安装飞鼠明天做窝 linux上卸载kafka
kafka安装第一关java的安装捞得嘛，不谈第二关zookeeper的安装及配置1.直接打开Apachzookeeper进行下载Tips:source是源文件，需要编译后才能继续使用，所以一般直接下载上面的源文件。2.安装zookeeper传到linux里面进行解压3.配置zookeeper打开/etc/profile文件进行配置exportZOOKEEPER_INSTALL=/usr/loca
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d