BrycenLiu

使用Kafka的Connect监听Mysql数据并同步到ElasticSearch-刘宇

一、安装zookeeper

1、解压zookeeper的tar包
2、创建zookeeper所使用到的文件夹
3、修改zookeeper配置文件
4、添加zookeeper唯一标识
5、启动zookeeper

二、安装kafka

1、解压
2、修改配置文件
3、后台启动kafka

三、安装Elasticsearch

1、解压Elasticsearch
2、修改配置文件
3、创建data和logs文件夹
4、创建启动用户
5、启动Elasticsearch
6、错误解决

6.1、错误1
6.2、错误2
6.3、错误3
6.4、错误4

七、配置kafka中的Connect，实现将MySQL数据同步到Elasticsearch中

1、前期工作

1.1、所需jar包
1.2、在数据库中创建需要同步的数据库表
1.3、在kafka的config文件中配置mysql到kafka的连接器
1.4、在kafka的config文件中配置kafka到elasticsearch的连接器

2、运行Connect
3、Connector的API

作者：刘宇
CSDN博客地址：https://blog.csdn.net/liuyu973971883
有部分资料参考，如有侵权，请联系删除。如有不正确的地方，烦请指正，谢谢。

前提条件：需要安装JAVA的运行环境，我这边使用的是JDK1.8版本，安装过程就不演示了。

一、安装zookeeper

这边搭建的是zookeeper的集群

1、解压zookeeper的tar包

cd /software
tar -xzvf zookeeper-3.4.14.tar.gz

2、创建zookeeper所使用到的文件夹

#进入zookeeper解压下来的文件夹
cd /software/zookeeper-3.4.14
#创建zookeeper所使用的快照的存储路径
mkdir dataDir
#创建zookeeper所使用的日志的存储路径
mkdir dataDirLog

3、修改zookeeper配置文件

拷贝原始配置文件

#进入zookeeper文件夹的conf文件夹
cd /software/zookeeper-3.4.14/conf
#拷贝配置文件
cp zoo_sample.cfg zoo.cfg

编辑配置文件

#编辑zoo.cfg文件
vi zoo.cfg

添加下面几项配置

#路径为我们刚才创建的文件夹路径
dataDir=/software/zookeeper-3.4.14/dataDir
dataLogDir=/software/zookeeper-3.4.14/dataDirLog
#zookeeper集群，有几个zookeeper就写几个server
server.1=192.168.40.101:2888:3888
server.2=192.168.40.102:2888:3888
server.3=192.168.40.103:2888:3888

4、添加zookeeper唯一标识

进入我们刚才创建的系统快照存储路径

cd /software/zookeeper-3.4.14/dataDir

添加唯一标识myid，其中数字为你配置文件zoo.cfg中的server.x的编号，每一台zookeeper都得有一个自己的myid文件

echo "1" > myid

5、启动zookeeper

#进入zookeeper文件夹的bin目录下
cd /software/zookeeper-3.4.14/bin
#启动zookeeper
./zkServer.sh start

二、安装kafka

这边搭建的是单台kafka，我是安装在103Linux上的

1、解压

#进入software目录
cd /software
#解压
tar -xzvf kafka_2.11-2.2.1.tgz
#修改文件名
mv kafka_2.11-2.2.1 kafka

2、修改配置文件

进入kafka的confifg文件夹，并编辑配置文件

cd /software/kafka/config
vi server.properties

默认配置文件介绍（参考的这位老哥的资料：https://www.cnblogs.com/toutou/p/linux_install_kafka.html）

# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# see kafka.server.KafkaConfig for additional details and defaults

############################# Server Basics #############################

#  broker就是一个kafka的部署实例，在一个kafka集群中，每一台kafka都要有一个broker.id
#  并且，该id唯一，且必须为整数
broker.id=0

############################# Socket Server Settings #############################

# The address the socket server listens on. It will get the value returned from 
# java.net.InetAddress.getCanonicalHostName() if not configured.
#   FORMAT:
#     listeners = security_protocol://host_name:port
#   EXAMPLE:
#     listeners = PLAINTEXT://your.host.name:9092
#listeners=PLAINTEXT://:9092

# Hostname and port the broker will advertise to producers and consumers. If not set, 
# it uses the value for "listeners" if configured.  Otherwise, it will use the value
# returned from java.net.InetAddress.getCanonicalHostName().
#advertised.listeners=PLAINTEXT://your.host.name:9092

#The number of threads handling network requests
# 默认处理网络请求的线程个数 3个
num.network.threads=3

# The number of threads doing disk I/O
# 执行磁盘IO操作的默认线程个数 8
num.io.threads=8

# The send buffer (SO_SNDBUF) used by the socket server
# socket服务使用的进行发送数据的缓冲区大小，默认100kb
socket.send.buffer.bytes=102400

# The receive buffer (SO_SNDBUF) used by the socket server
# socket服务使用的进行接受数据的缓冲区大小，默认100kb
socket.receive.buffer.bytes=102400

# The maximum size of a request that the socket server will accept (protection against OOM)
# socket服务所能够接受的最大的请求量，防止出现OOM(Out of memory)内存溢出，默认值为：100m
# （应该是socker server所能接受的一个请求的最大大小，默认为100M）
socket.request.max.bytes=104857600

############################# Log Basics （数据相关部分，kafka的数据称为log）#############################

# A comma seperated list of directories under which to store log files
# 一个用逗号分隔的目录列表，用于存储kafka接受到的数据
log.dirs=/home/uplooking/data/kafka

# The default number of log partitions per topic. More partitions allow greater
# parallelism for consumption, but this will also result in more files across
# the brokers.
# 每一个topic所对应的log的partition分区数目，默认1个。更多的partition数目会提高消费
# 并行度，但是也会导致在kafka集群中有更多的文件进行传输
# （partition就是分布式存储，相当于是把一份数据分开几份来进行存储，即划分块、划分分区的意思）
num.partitions=1

# The number of threads per data directory to be used for log recovery at startup and flushing at shutdown.
# This value is recommended to be increased for installations with data dirs located in RAID array.
# 每一个数据目录用于在启动kafka时恢复数据和在关闭时刷新数据的线程个数。如果kafka数据存储在磁盘阵列中
# 建议此值可以调整更大。
num.recovery.threads.per.data.dir=1

############################# Internal Topic Settings  #############################
# The replication factor for the group metadata internal topics "__consumer_offsets" and "__transaction_state"
# For anything other than development testing, a value greater than 1 is recommended for to ensure availability such as 3.
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1


############################# Log Flush Policy （数据刷新策略）#############################

# Messages are immediately written to the filesystem but by default we only fsync() to sync
# the OS cache lazily. The following configurations control the flush of data to disk.
# There are a few important trade-offs（平衡） here:
#    1. Durability 持久性: Unflushed data may be lost if you are not using replication.
#    2. Latency 延时性: Very large flush intervals may lead to latency spikes when the flush does occur as there will be a lot of data to flush.
#    3. Throughput 吞吐量: The flush is generally the most expensive operation, and a small flush interval may lead to exceessive seeks.
# The settings below allow one to configure the flush policy to flush data after a period of time or
# every N messages (or both). This can be done globally and overridden on a per-topic basis.
# kafka中只有基于消息条数和时间间隔数来制定数据刷新策略，而没有大小的选项，这两个选项可以选择配置一个
# 当然也可以两个都配置，默认情况下两个都配置，配置如下。

# The number of messages to accept before forcing a flush of data to disk
# 消息刷新到磁盘中的消息条数阈值
#log.flush.interval.messages=10000

# The maximum amount of time a message can sit in a log before we force a flush
# 消息刷新到磁盘生成一个log数据文件的时间间隔
#log.flush.interval.ms=1000

############################# Log Retention Policy（数据保留策略） #############################

# The following configurations control the disposal（清理） of log segments（分片）. The policy can
# be set to delete segments after a period of time, or after a given size has accumulated（累积）.
# A segment will be deleted whenever（无论什么时间） *either* of these criteria（标准） are met. Deletion always happens
# from the end of the log.
# 下面的配置用于控制数据片段的清理，只要满足其中一个策略（基于时间或基于大小），分片就会被删除

# The minimum age of a log file to be eligible for deletion
# 基于时间的策略，删除日志数据的时间，默认保存7天
log.retention.hours=168

# A size-based retention policy for logs. Segments are pruned from the log as long as the remaining
# segments don't drop below log.retention.bytes. 1G
# 基于大小的策略，1G
#log.retention.bytes=1073741824

# The maximum size of a log segment file. When this size is reached a new log segment will be created.
# 数据分片策略
log.segment.bytes=1073741824

# The interval at which log segments are checked to see if they can be deleted according
# to the retention policies 5分钟
# 每隔多长时间检测数据是否达到删除条件
log.retention.check.interval.ms=300000

############################# Zookeeper #############################

# Zookeeper connection string (see zookeeper docs for details).
# This is a comma separated host:port pairs, each corresponding to a zk
# server. e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002".
# You can also append an optional chroot string to the urls to specify the
# root directory for all kafka znodes.
zookeeper.connect=localhost:2181

# Timeout in ms for connecting to zookeeper
zookeeper.connection.timeout.ms=6000

############################# Group Coordinator Settings #############################

# The following configuration specifies the time, in milliseconds, that the GroupCoordinator will delay the initial consumer rebalance.
# The rebalance will be further delayed by the value of group.initial.rebalance.delay.ms as new members join the group, up to a maximum of max.poll.interval.ms.
# The default value for this is 3 seconds.
# We override this to 0 here as it makes for a better out-of-the-box experience for development and testing.
# However, in production environments the default value of 3 seconds is more suitable as this will help to avoid unnecessary, and potentially expensive, rebalances during application startup.
group.initial.rebalance.delay.ms=0

修改配置文件的如下几项

brolker.id=1
#配置内网kafka集群的监听器，用于告诉外部连接者访问指定的主机名和端口。如果是外网集群则需要使用advertised.listeners。
listeners=PLAINTEXT://192.168.40.103:9092
#配置zookeeper集群的地址
zookeeper.connect=192.168.40.101:2181,192.168.40.102:2181,192.168.40.103:2181

3、后台启动kafka

#进入kafka目录
cd /software/kafka
#后台启动
nohup bin/kafka-server-start.sh config/server.properties &

三、安装Elasticsearch

这边搭建的是单台Elasticsearch，我是安装在103的Linux上的

1、解压Elasticsearch

#进入software目录
cd /software
#解压
tar -zxvf elasticsearch-5.6.8.tar.gz

2、修改配置文件

编辑配置文件

vi /software/elasticsearch-5.6.8/config/elasticsearch.yml

修改如下配置

cluster.name: my-application
node.name: node-1
path.data: /software/elasticsearch-5.6.8/data
path.logs: /software/elasticsearch-5.6.8/logs
network.host: 0.0.0.0
http.port: 9200

3、创建data和logs文件夹

#进入到elasticsearch目录
cd /software/elasticsearch-5.6.8
#创建data文件夹
mkdir data
#创建logs文件夹
mkdir logs

4、创建启动用户

因为elasticsearch不能root用户启动，所以我们这边创建一个用户和组来启动它

创建用户和组

#创建用户组
groupadd elsearch
#创建用户并添加到用户组中
useradd -r -g elsearch elsearch
passwd elsearch

将elasticsearch的目录权限设置成该用户和组

chown -R elsearch:elsearch /software/elasticsearch-5.6.8

5、启动Elasticsearch

启动

#切换启动用户
su elsearch
#进入到elasticsearch的bin目录下
cd /software/elasticsearch-5.6.8/bin
#后台启动
nohup ./elasticsearch &
#观察nohup日志，查看是否出错，一般都会出现线程数等不够错误
tail -f nohup.out

检查是否启动成功

curl  http://192.168.40.103:9200
#如果出现下面信息即启动成功
{
  "name" : "node-1",
  "cluster_name" : "my-application",
  "cluster_uuid" : "2UlrJ43PQDKbrqvcTG9IyA",
  "version" : {
    "number" : "5.6.8",
    "build_hash" : "688ecce",
    "build_date" : "2018-02-16T16:46:30.010Z",
    "build_snapshot" : false,
    "lucene_version" : "6.6.1"
  },
  "tagline" : "You Know, for Search"
}

6、错误解决

6.1、错误1

max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]

是因为最大的文件数不够，切换的root用户下修改/etc/security/limits.conf文件即可

添加如下配置，然后重新启动linux即可

*                soft    nofile          65536
*                hard    nofile          65536

6.2、错误2

max number of threads [3818] for user [es] is too low, increase to at least [4096]

是因为最大线程个数太低，切换的root用户下修改/etc/security/limits.conf文件即可

添加如下配置，然后重新启动linux即可

*                soft    nproc           4096
*                hard    nproc           4096

6.3、错误3

max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

是因为限制一个进程可以拥有的VMA(虚拟内存区域)的数量不够，切换的root用户下修改/etc/sysctl.conf文件即可

添加如下配置

vm.max_map_count=262144

立即生效

sysctl -p

6.4、错误4

system call filters failed to install; check the logs and fix your configuration or disable system call filters at your own risk

是因为如果在Centos6下，是不支持SecComp，而ES5.2.1默认bootstrap.system_call_filter为true进行检测，所以导致检测失败，失败后直接导致ES不能启动

解决方法：
在elasticsearch.yml中配置bootstrap.system_call_filter为false，注意要在Memory下面，随后重启es

bootstrap.memory_lock: false
bootstrap.system_call_filter: false

七、配置kafka中的Connect，实现将MySQL数据同步到Elasticsearch中

1、前期工作

1.1、所需jar包

kafka-connect-jdbc-4.1.1
下载地址：点击下载
mysql-connector-java-5.1.40.jar
下载地址：点击下载
kafka-connect-elasticsearch-5.4.1.jar
下载地址：点击下载
commons-codec-1.11.jar、commons-logging-1.2.jar、 httpclient-4.5.12.jar、httpcore-4.4.13.jar
下载地址：点击下载
common-utils-5.4.1.jar
下载地址：点击下载
httpasyncclient-4.1.3.jar
下载地址：点击下载
httpcore-nio-4.4.6.jar
下载地址：点击下载
jest-6.3.1.jar、jest-common-6.3.1.jar
下载地址：点击下载
gson-2.8.5.jar
下载地址：点击下载
slf4j-api-1.7.26.jar
下载地址：点击下载

1.2、在数据库中创建需要同步的数据库表

create database test1;
use test1;
create table user(id int PRIMARY KEY AUTO_INCREMENT,username varchar(50),password varchar(50));

1.3、在kafka的config文件中配置mysql到kafka的连接器

创建mysql-test1.properties

# 连接器名称
name=mysql_test1
# 连接器使用的类
connector.class=io.confluent.connect.jdbc.JdbcSourceConnector
# 最大任务数
tasks.max=1
# mysql地址
connection.url=jdbc:mysql://192.168.40.102:3306/test1?user=root&password=root&useUnicode=true&characterEncoding=utf-8&useSSL=false&serverTimezone=GMT&autoReconnect=true
# 监听模式：分为incrementing、timestamp、timestamp+incrementing
mode=incrementing
# 监听的字段名
incrementing.column.name=id
# 主题前缀
topic.prefix=mysql_test1_
每10秒刷新一次
poll.interval.ms=10000

1.4、在kafka的config文件中配置kafka到elasticsearch的连接器

创建es-mysql-test1.properties

# 连接器名称
name=es_mysql_test1
# 使用的类
connector.class=io.confluent.connect.elasticsearch.ElasticsearchSinkConnector
# 最大任务数
tasks.max=1
# 主题名，一般都是主题前缀+表名
topics=mysql_test1_user
# 表示写入ES的每条记录的键为kafka主题名字+分区id+偏移量
key.ignore=true
# elasticsearch地址
connection.url=http://192.168.40.103:9200
# elasticsearch索引类型
type.name=test1_user

2、运行Connect

这边使用的是单机的connect模式

#进入kafka的bin目录
cd /software/kafka/bin
#后台启动connect并加上两个连接器的配置文件
nohup ./connect-standalone.sh ../config/connect-standalone.properties ../config/es-mysql-test1.properties ../config/mysql-test1.properties &
#查看nohup日志是否有错误，或者也可以通过connector的api查看各个连接器的状态
tail -f nohup.out

3、Connector的API

curl -X GET http://ip:8083/connector-plugins
GET /connectors – 返回所有正在运行的connector名。 
POST /connectors – 新建一个connector; 请求体必须是json格式并且需要包含name字段和config字段,name是connector的名字,config是json格式,必须包含你的connector的配置信息。 
GET /connectors/{name} – 获取指定connetor的信息。 
GET /connectors/{name}/config – 获取指定connector的配置信息。 
PUT /connectors/{name}/config – 更新指定connector的配置信息。 
GET /connectors/{name}/status – 获取指定connector的状态,包括它是否在运行、停止、或者失败,如果发生错误,还会列出错误的具体信息。 
GET /connectors/{name}/tasks – 获取指定connector正在运行的task。 
GET /connectors/{name}/tasks/{taskid}/status – 获取指定connector的task的状态信息。 
PUT /connectors/{name}/pause – 暂停connector和它的task,停止数据处理知道它被恢复。 
PUT /connectors/{name}/resume – 恢复一个被暂停的connector。 
POST /connectors/{name}/restart – 重启一个connector,尤其是在一个connector运行失败的情况下比较常用 
POST /connectors/{name}/tasks/{taskId}/restart – 重启一个task,一般是因为它运行失败才这样做。 
DELETE /connectors/{name} – 删除一个connector,停止它的所有task并删除配置。

Kafka 消息丢失如何处理？架构文摘JGWZ 学习
今天给大家分享一个在面试中经常遇到的问题：Kafka消息丢失该如何处理？这个问题啊，看似简单，其实里面藏着很多“套路”。来，咱们先讲一个面试的“真实”案例。面试官问：“Kafka消息丢失如何处理？”小明一听，反问：“你是怎么发现消息丢失了？”面试官顿时一愣，沉默了片刻后，可能有点不耐烦，说道：“这个你不用管，反正现在发现消息丢失了，你就说如何处理。”小明一头雾水：“问题是都不知道怎么丢的，处理起来
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
Docker安装Kafka和Kafka-Manager 阿靖哦
本文介绍如何通过Docker安装kafka与kafka界面管理界面一、拉取zookeeper由于kafka需要依赖于zookeeper，因此这里先运行zookeeper1、拉取镜像dockerpullwurstmeister/zookeeper2、启动dockerrun-d--namezookeeper-p2181:2181-eTZ="Asia/Shanghai"--restartalwayswu
主流行架构 rainbowcheng 架构架构
nexus，gitlab,svn,jenkins,sonar,docker，apollo，catteambition，axure，蓝湖，禅道,WCP；redis，kafka，es，zookeeper，dubbo，shardingjdbc，mysql，InfluxDB，Telegraf，Grafana，Nginx，xxl-job，Neo4j,NebulaGraph是一个高性能的,NOSQL图形数据库
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
分布式消息队列Kafka 叶域大数据分布式 kafka scala spark
分布式消息队列Kafka简介：Kafka是一个分布式消息队列系统，用于处理实时数据流。消息按照主题（Topic）进行分类存储，发送消息的实体称为Producer，接收消息的实体称为Consumer。Kafka集群由多个Kafka实例（Server）组成，每个实例称为Broker。主要用途：广泛应用于构建实时数据管道和流应用程序，适用于需要高吞吐量和低延迟的数据处理场景依赖：Kafka集群和消费者依
K8S学习之PV&&PVC david161
部署mysql之前我们需要先了解一个概念有状态服务。这是一种特殊的服务，简单的归纳下就是会产生需要持久化的数据，并且有很强的I/O需求，且重启需要依赖上次存储到磁盘的数据。如典型的mysql，kafka，zookeeper等等。在我们有比较优秀的商业存储的前提下，非常推荐使用有状态服务进行部署，计算和存储分离那是相当的爽的。在实际生产中如果没有这种存储，localPV也是不错的选择，当然local
Kafka系列之：kafka命令详细总结快乐骑行^_^ 日常分享专栏 Kafka Kafka系列 kafka命令详细总结
Kafka系列之：kafka命令详细总结一、添加和删除topic二、修改topic三、平衡领导者四、检查消费者位置五、管理消费者群体一、添加和删除topicbin/kafka-topics.sh--bootstrap-serverbroker_host:port--create--topicmy_topic_name\--partitions20--replication-factor3--con
搭建Kafka+zookeeper集群调度 krb___ kafka 分布式
前言硬件环境172.18.0.5kafkazk1Kafka+zookeeperKafkaBroker集群172.18.0.6kafkazk2Kafka+zookeeperKafkaBroker集群172.18.0.7kafkazk3Kafka+zookeeperKafkaBroker集群软件环境zookeeper3.5.9资源调度、写作Kafka2.8.0消息通信中间件安装JDK1.8安装搭建zo
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
Linux系统部署Kafka教学情书学长 linux 学习笔记 kafka
第一步：Zookeeper安装（准备工作）1、解压安装将安装包上传到/opt/software目录下，解压并修改名称tar-zxvfapache-zookeeper-3.5.7-bin.tar.gz-C/opt/module/mvapache-zookeeper-3.5.7-bin/zookeeper2、配置服务器编号1)在/opt/module/zookeeper-3.5.7/这个目录下创建zk
数仓开发之DWD层完整使用 (第五章) 小坏讲微服务数据仓库 hadoop scala kafka
数仓开发之DWD层完整使用一、流量域未精加工的事务事实表1、主要任务1）数据清洗（ETL）2）新老访客状态标记修复3）分流2、思路1）数据清洗（ETL）2）新老访客状态标记修复（1）前端埋点新老访客状态标记设置规则（2）新老访客状态标记修复思路3）利用侧输出流实现数据拆分（1）埋点日志结构分析（2）分流日志分类（3）分流思路3、图解4、代码1）在KafkaUtil工具类中补充getKafkaPro
Kafka 应用场景 zinuxer kafka 分布式
数据流处理：Kafka支持实时数据流处理，能够在数据流动时进行处理和分析，确保应用程序与最新信息保持同步！日志聚合：可以将来自不同来源的日志集中和聚合，简化应用程序的调试和监控！消息队列：Kafka充当高性能的消息队列，确保不同系统组件之间可靠且可扩展的通信！网络活动追踪：Kafka可以追踪网络活动，改进用户体验和推动业务增长！数据复制：Kafka允许在多个集群之间实现无缝数据复制，确保高可用性和
Kafka的ack机制香山上的麻雀
ack=0/1/-1的不同情况：0：producer不等待broker的ack，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；-1：producer等待broker的ack，partition的
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
zookeeper+kafka消息队列部署 TBF610218 zookeeper kafka 分布式
消息队列的概念什么是消息队列消息是指在应用间传送的数据消息队列是一种应用间的通信方式解决方法，确保消息的可靠传递专门为消息做缓存的消息队列的特征存储将消息存储在某个类型的缓冲区中，指导目标进读取这些消息或者将其从消息队列中显示移除为止异步消息队列通过缓冲消息可以在应用程序当中公开一定程度的异步性，允许源进程发送消息并在队列当中累积消息，而且目标进程可以挑选消息并进行处理为什么需要消息队列解耦冗余扩
分布式中间件-几个常用的消息中间件问道飞鱼分布式技术分布式中间件
文章目录常见消息中间件1.RabbitMQ2.ApacheKafka3.RedisPub/Sub4.ActiveMQ5.AmazonSimpleNotificationService(SNS)和SimpleQueueService(SQS)6.RocketMQ差异总结消息协议1.AMQP(AdvancedMessageQueuingProtocol)2.STOMP(SimpleTextOrient
kafka php 教程,php 使用kafka weixin_39713841 kafka php 教程
准备工作gitclonehttps://github.com/edenhill/librdkafka.git./configuremakesudomakeinstall$gitclonehttps://github.com/arnaud-lb/php-rdkafka.git#生成configure文件$/Users/shiyibo/LNMP/php/bin/phpize#编译安装$./config
Kafka快速入门 G丶AEOM 速成学习区 kafka linq 分布式
讲一下什么是Kafka首先引入这样一个场景：A服务可以发送200qps（QueriesPerSecond，是指每秒查询率），而B服务可以处理100qps。很显然，B服务很可能会被A服务压垮掉。怎么为了保证B不被压垮的同时还能处理A消息，没有什么是不能通过一层中间件解决的，如果有，那就再加一层。开始很容易想到，可以在B服务中增加一个队列，其实就是个链表，B服务根据自己的消费能力，消费链表中的消息。每
【Python系列】异步任务的终止 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
老版本kafka查询topic消费情况(python查询) 代码是谁 kafka python 分布式
由于老版本的kafka缺少shell，导致无法通过命令直接进行查询，所以通过python代码，实现消费情况查询安装必须的包#pyhon2.5pipinstallkafka-python==1.4.7python脚本#!/usr/bin/envpythonimportsysfromkafkaimportKafkaConsumer,TopicPartitioniflen(sys.argv)!=2:pr
【Python系列】使用切片移动元素位置 Kwan的解忧杂货铺@新空间代码工作室 s2 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术,jvm,并发编程redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,
字节架构师：来说说 Kafka 的消费者客户端详解，你都搞懂了吗？ 2401_84049200 程序员 kafka linq 分布式
点对点模式基于队列，类似于同一个消费者组中的数据，由生产者发送数据到分区，然后消费者拉取分区的消息进行消费，此时消息只能被同一个消费者组的消费者消费一次。发布订阅模式模式就是kafka中的分区消息可以被不同消费者组的消费者消费。这就是一对多的广播模式应用。当然，消费者组是一个逻辑的概念，通过客户端参数group.id来配置，默认值为空字符串。而消费者并不是逻辑的概念，它是真正消费数据的实体，可以是
Java Kafka生产者实现 stormsha Java web java kafka linq
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~专栏导航Python系列:Python面试题合集，剑指大厂Git系列:Git操作技巧GO系列:记录博主学习GO语言的笔记，该笔记专栏
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul

使用Kafka的Connect监听Mysql数据并同步到ElasticSearch-刘宇

使用Kafka的Connect监听Mysql数据并同步到ElasticSearch-刘宇

一、安装zookeeper

1、解压zookeeper的tar包

2、创建zookeeper所使用到的文件夹

3、修改zookeeper配置文件

4、添加zookeeper唯一标识

5、启动zookeeper

二、安装kafka

1、解压

2、修改配置文件

3、后台启动kafka

三、安装Elasticsearch

1、解压Elasticsearch

2、修改配置文件

3、创建data和logs文件夹

4、创建启动用户

5、启动Elasticsearch

6、错误解决

6.1、错误1

6.2、错误2

6.3、错误3

6.4、错误4

七、配置kafka中的Connect，实现将MySQL数据同步到Elasticsearch中

1、前期工作

1.1、所需jar包

1.2、在数据库中创建需要同步的数据库表

1.3、在kafka的config文件中配置mysql到kafka的连接器

1.4、在kafka的config文件中配置kafka到elasticsearch的连接器

2、运行Connect

3、Connector的API

你可能感兴趣的:(Kafka)