lufei0920

ELK+Filebeat+kafka+zookeeper集群架构的搭建(5.6.3)搭建日志平台

ELK+Filebeat+kafka+zookeeper集群架构的搭建(5.6.3)搭建日志分析平台

由于机器数量限制，logstash服务是在一台主机上进行搭建的，ELK日志收集系统的架构图

一、jdk的安装及配置

1、在logstash、elasticsearch、zookeeper、kafka等服务器上需要安装jdk，logstash对jdk的要求是1.8版本以上，下面为jdk下载链接：

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2、下载好后，将jdk上传到服务器，通过rpm进行安装

rpm -ivh jdk-8u144-linux-x64.rpm

3、编辑profile文件，将java二进制程序添加到环境变量，刷新环境变量

vi /etc/profile
export PATH=/usr/java/jdk1.8.0_144/bin/:$PATH
source  /etc/profile

二、zookeeper的安装及配置

1、下载zookeeper软件

软件包下载地址：https://archive.apache.org/dist/zookeeper/
wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.12/zookeeper-3.4.12.tar.gz

2、将下载的zookeeper安装包解压到/usr/local目录下并改名为zookeeper

tar -xvf zookeeper-3.4.12.tar.gz -C /usr/local/
mv /usr/local/zookeeper-3.4.12 /usr/local/zookeeper

3、编辑/etc/profile文件，将zookeeper的执行脚本添加到环境变量里面

vim /etc/profile
export PATH=/usr/local/zookeeper/bin/:$PATH

4、刷新环境变量

source /etc/profile 或者. /etc/profile

5、zookeeper解压完成后可以先配置主机ip地址和主机名

编辑/etc/hosts文件，增加以下两条，使zk可以通过主机名进行解析，这是我的两台主机，注意你自己的主机ip地址和我不一定相同

6、编辑zookeeper的配置文件

编辑zookeeper的配置文件/usr/local/zookeeper/conf/zoo.cfg，默认有一个zoo_simple.cfg，可以直接讲它改名为zoo.cfg，然后进行如下配置

配置详解：
	tickTime: 心跳基本时间单位，毫秒级，ZK基本上所有的时间都是这个时间的整数倍。
	initLimit: 当非leader节点(即follower和observer)启动时，需要先从leader那里复制数据，以保证所有ZooKeeper节点数据都是同步的。这个选项设置非leader节点从启动到完成同步的超时时长，它以tickTime为时间单位，所以上面的超时时长为10*2=20秒
	syncLimit: tickTime的个数，这时间容易和上面的时间混淆，它也表示follower和observer与leader交互时的最大等待时间，只不过是在与leader同步完毕之后，进入正常请求转发或ping等消息交互时的超时时间
	dataDir: 内存数据库快照存放地址，如果没有指定(dataLogDir)，默认也是存放在这个路径下，建议两个地址分开存放到不同的设备上。
	dataLogDir: 将事务日志存储在该路径下，比较重要，这个日志存储的设备效率会影响ZK的写吞吐量
	clientPort: 配置ZK监听客户端连接的端口
	server.x=[hostname]:port_A:port_B: 该选项用来指定ZooKeeper集群中的服务器节点，其中：
	x：整数。是zookeeper中服务器的一个简单标识。这个数值需要和dataDir下的myid文件内容一致。在启动zookeeper集群中的每个实例时，需要读取数据目录中的myid文件，并将该文件中的数值和配置文件中的server.x做匹配，匹配到哪个就表示是哪个zookeeper服务器节点。
	hostname：zookeeper服务器节点的地址。
	port_A：这是第一个端口，用于Follower和Leader之间的数据同步和其它通信。
	port_B：这是第二个端口，用于Leader选举过程中投票通信。

7、创建数据及日志存储目录

mkdir /usr/local/zookeeper/{data,logs}，修改属组信息chown -R zk.zk {data,logs}
有其他节点，则把文件同步到其他集群节点,在其他节点执行同样操作
scp zoo.cfg  192.168.1.175:/usr/local/zookeeper/conf/

8、创建myid，这是每个节点区分标志

在第一个节点执行：echo 1 > /usr/local/zookeeper/data/myid 
在第二个节点执行：echo 2 > /usr/local/zookeeper/data/myid

9、启动zookeeper

zkServer.sh start 查看zookeeper状态：zkServer.sh status，成功即可！

三、kafka的安装及配置

1、kafka软件的安装及配置

kafka官网：https://archive.apache.org/dist/kafka/
wget  https://archive.apache.org/dist/kafka/0.10.0.1/kafka_2.11-0.10.0.1.tgz
注意：kafka跟logstash配合有版本限制，我用的logstash是5.6.13版本，要求kafka的版本必须为0.10.0.1版本以上！

2、将软件包解压到/usr/local目录下，并改名为kafka

tar -xvf kafka_2.11-0.9.0.1.tgz -C /usr/local/
mv /usr/local/kafka_2.11-0.9.0.1 /usr/local/kafka

3、配置环境变量并使其生效

vim /etc/profile
export PATH=/usr/local/kafka/bin:$PATH
source /etc/profile

4、编辑kafka配置文件/usr/local/kafka/config/server.properties

如果在其他节点编辑该配置文件，注意修改以下两个属性的值
broker.id
listeners
这是第一个节点的配置

第二个节点的配置，主要是把broker.id和listeners监听ip改为自己的ip

Kafka配置详解：
	broker.id: 每一个broker在集群中的唯一表示，要求是正数。当该服务器的IP地址发生改变时，broker.id没有变化，则不会影响consumers的消息情况
	delete.topic.enable: 设置为true的时候才允许直接删除kafka的topic
	listeners:监听kafka的地址及端口
	num.network.threads: broker处理消息的最大线程数，一般情况下数量为cpu核数
	num.io.threads:  broker处理磁盘IO的线程数，数值为cpu核数2倍
	socket.send.buffer.bytes: socket的发送缓冲区，socket的调优参数SO_SNDBUFF
	socket.receive.buffer.bytes: socket的接受缓冲区，socket的调优参数SO_RCVBUFF
	socket.request.max.bytes: socket请求的最大数值，防止serverOOM，message.max.bytes必然要小于socket.request.max.bytes，会被topic创建时的指定参数覆盖
	log.dirs: kafka数据的存放地址，多地址的话用逗号分割,多个目录分布在不同磁盘上可以提高读写性能  /data/kafka-logs-1，/data/kafka-logs-2
	num.partitions: 每个topic的分区个数，若是在topic创建时候没有指定的话会被topic创建时的指定参数覆盖
	num.recovery.threads.per.data.dir: 在启动时恢复日志和关闭时刷盘日志时每个数据目录的线程的数量，默认1
	log.retention.hours: 数据文件保留多长时间， 存储的最大时间超过这个时间会根据log.cleanup.policy设置数据清除策略
	log.segment.bytes: topic的分区是以一堆segment文件存储的，这个控制每个segment的大小，会被topic创建时的指定参数覆盖
	log.retention.check.interval.ms: 文件大小检查的周期时间，是否处罚 log.cleanup.policy中设置的策略
	zookeeper.connect: zookeeper集群的地址，可以是多个，多个之间用逗号分割
	zookeeper.connection.timeout.ms: zooKeeper的连接超时时间
	auto.create.topics.enable =true： 是否允许自动创建topic，若是false，就需要通过命令创建topic
	log.cleanup.policy = delete: 日志清理策略选择有：delete和compact主要针对过期数据的处理，或是日志文件达到限制的额度，会被 topic创建时的指定参数覆盖

5、启动kafka服务

kafka-server-start.sh -daemon /usr/local/kafka/config/server.properties
在另一个节点同样命令启动即可，至此，kafka+zookeeper集群搭建完毕

6、Kafka的操作

1)创建topic，这里创建了两个，以供后续使用

kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic idsp-ap
kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic vals-ap

2)查看已经创建的topic列表

kafka-topics.sh --list --zookeeper localhost:2181

3)查看topic的详细信息

kafka-topics.sh --describe --zookeeper localhost:2181 --topic idsp-ap

4)给kafka增加分区

kafka-topics.sh --zookeeper localhost:2181 --alter --topic idsp-ap --partitions 4

5)删除kafka的topic，需开启delete.topic.enable=true参数

kafka-topics.sh --delete --zookeeper localhost:2181 --topic idsp-ap

6)如果无法删除，可以去zookeeper中删除

zkCli.sh
ls /brokers/topics
rmr /brokers/topics/idsp-ap

四、filebeat的安装及配置

1、官网下载filebeat安装包：ELK官网：https://www.elastic.co/cn/

wget https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-5.6.13-x86_64.rpm
直接rpm安装即可 
rpm -ivh filebeat-5.6.13-x86_64.rpm

2、编辑配置文件filebeat.yml，rpm下载后配置文件默认路径在/etc/filebeat/目录下

读取的日志文件，下面为在vals-ap服务器上搭建的filebeat配置，这里只截取了两个日志的配置，其他类似，每增加一个日志，就有一个- input_type段来配置（注意冒号后面都有空格，否则filebeat会启动失败）

输出到 kafka的topic中

output.kafka中参数含义：
Hosts:kafka所在主机信息
Topic: 将日志存放到kafka的哪个topic里面，这里根据日志中的fields字段的logarea字段输出到相应的topic中
Partition.round_robin: kafka分发策略，表轮询
  Reachable-only:false: 
Required_acks: 1 :kafka的响应返回值，0位无等待响应返回，继续发送下一条消息；1表示等待本地提交（leader broker已经成功写入，但follower未写入），-1表示等待所有副本的提交，默认为1
max_message_bytes: 1000000 :超过1000byte的Event直接丢弃

3、启动服务：systemctl start filebeat即可

查看是否启动成功： systemctl status filebeat，如启动不成功，应该是语法有问题，重新检查一下配置文件是否有写错的地方即可

五、logstash的安装及配置

1、官网下载logstash安装包：https://artifacts.elastic.co/downloads/logstash/logstash-5.6.13.rpm

	wget https://artifacts.elastic.co/downloads/logstash/logstash-5.6.13.rpm
	直接rpm安装：rpm -ivh logstash-5.6.13.rpm

2、配置环境变量并刷新环境变量

vim /etc/profile
export PATH=/usr/share/logstash/bin:$PATH
source /etc/profile

3、进入logstash配置文件目录/etc/logstash/conf.d/目录，编辑一个vals-ap.conf配置文件

Logstash主要由三个组件，输入input，过滤filter和输出output。注意，下面的logstash配置信息为下图中红色框框里的logstash集群。

这里配置的从kafka端获取输入数据，输出端为elasticsearch端，具体配置如下，仅参考vals-ap,其他服务端日志都类似，这里在/etc/logstash/conf.d/all.conf文件，然后把所有的从kafka读出来的数据送到了elasticsearch集群中，这样logstash只启动一个all.conf即可，这里只截取了一部分，后面的依次把相应的topic输出到elasticsearch的配置都是重复的，只是注意有区别的地方即可，注释以vals-ap的案例为主

对上图的配置的注释：
	输入端：
	input{
	        kafka {
	            bootstrap_servers => [ "192.168.1.71:9092,192.168.1.175:9092" ] ：kafka地址
	            topics => [ "vals-ap" ]         ：kafka的topic，这里就以vals-ap举例了       
	auto_offset_reset => "latest"   ： 自动从最新偏移量开始消费
	            consumer_threads => 5       ：消费者线程数
	            codec => "json"			   ：读取日志的格式
	        }
	}
	过滤：
	filter{
	   grok {   # 模块，处理message信息
	        match => { "message" => ".*" }  ：匹配的日志，.*表示全部匹配
	        remove_field => "beat" 		   ：移除不需要的字段
	   }
	}
	输出：
	output{
	    if [fields][logtype] =~ "vals-ap" {   ：匹配logtype以vals-ap开头的日志
	        elasticsearch{
	         hosts => ["192.168.1.133:9200"]   ：输出到elasticsearch主机上
	         index => "vals-ap-%{+YYYY.MM.dd}" ：输出到elasticsearch的vals-ap-日期index上
	        }
	    }
	}
	注释：上面的index上添加日期是为了后续要按日期删除日志做准备的，这样就可以根据日期删除多少天前的日志了

4、可以直接运行该配置文件，因为我们需要实时获取数据，所以可以将下面的命令放到后台执行:

nohup logstash -f /etc/logstash/conf.d/all.conf > /etc/logstash/all.out &
	
	注意：如果想运行多个logstash实例，需要进行按如下命令执行
	nohup logstash -f idsp-ap.conf --path.data=/var/lib/logstash/ap > ap.out & 
	每运行一个实例，都需要修改path.data的路径，否则会启动失败，运行完可以查看ap.out文件，看看启动信息，如失败请查看配置文件是否有误：tail -f ap.out
	如果需要运行一个目录下的所有配置文件，可以按如下方式执行：
	nohup logstash -f /etc/logstash/conf.d/  > ../all.out & 
	tail -f ../all.out 可以查看启动信息，看看是否启动成功

5、在下面这个文件里面可以看到logstash支持的kafka版本信息
/usr/share/logstash/vendor/bundle/jruby/1.9/gems/logstash-input-kafka-5.1.11/logstash-input-kafka.gemspec

六、elasticsearch的安装和配置

1、下载地址：https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.13.rpm

下载：wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.13.rpm
安装：rpm -ivh elasticsearch-5.6.13.rpm

2、进入/etc/elasticsearch/目录下，编辑jvm.options配置文件，配置下面两项，表示使用内存情况，建议2g，根据服务器内存情况而定

3、编辑elasticsearch.yml配置文件

定义集群名，主机名，数据存储目录，日志存储目录，本机IP
下面discovery.zen.ping.unicast.hosts-->添加集群里面的所有主机IP

4、默认是没有/myelk/data和/myelk/logs目录的

手动创建/myelk/data和/myelk/logs，并把属主属组信息更改为elasticsearch
mkidr -p /myelk/{data,logs}  修改属主信息:chown -R elasticsearch.elasticsearch /myelk/*

5、启动elasticsearch并查看是否启动成功

systemctl start elasticsearch
systemctl status elasticsearch
curl -XGET http://192.168.1.133:9200/，出现以下信息则表示elasticsearch启动成功，至此elasticsearch配置成功

6、配置文件解释说明

01 masternode的elasticsearch.yml文件配置如下:

	cluster.name: pancm 
	node.name: master 
	path.data: /home/elk/masternode/data 
	path.logs: /home/elk/masternode/logs 
	network.host: 0.0.0.0 
	network.publish_host: 192.169.0.23 
	transport.tcp.port: 9301 http.port: 9201 discovery.zen.ping.unicast.hosts: ["192.169.0.23:9301","192.169.0.24:9301","192.169.0.25:9301"] node.master: true node.data: false 
	node.ingest: false 
	index.number_of_shards: 5 
	index.number_of_replicas: 1 discovery.zen.minimum_master_nodes: 1 bootstrap.memory_lock: true

02 elasticsearch.yml文件参数配置说明:

	cluster.name: 集群名称，同一集群的节点配置应该一致。es会自动发现在同一网段下的es，如果在同一网段下有多个集群，就可以用这个属性来区分不同的集群。
	node.name: 该节点的名称。 path.data: 数据存放的路径。 path.logs: 日志存放的路径。
	network.host: 设置ip地址，可以是ipv4或ipv6的，默认为0.0.0.0。
	network.publish_host: 设置其它节点和该节点交互的ip地址，如果不设置它会自动判断，值必须是个真实的ip地址。
	·  transport.tcp.port:设置节点间交互的tcp端口，默认是9300。
	·  ·  http.port:设置对外服务的http端口，默认为9200。
	·  ·  discovery.zen.ping.unicast.hosts: 设置集群中master节点的初始列表，可以通过这些节点来自动发现新加入集群的节点。
	·  ·  node.master: 指定该节点是否有资格被选举成为node，默认是true。 node.data: 指定该节点是否存储索引数据，默认为true。
	·  ·  node.ingest: 指定该节点是否使用管道，默认为true。
	·  ·  index.number_of_shards:设置默认索引分片个数，默认为5片。
	·  ·  index.number_of_replicas:设置默认索引副本个数，默认为1个副本。
	·  ·  discovery.zen.minimum_master_nodes: 设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）。
	·  ·  bootstrap.memory_lock: 设置为true来锁住内存。因为当jvm开始swapping时es的效率会降低，所以要保证它不swap，可以把ES_MIN_MEM和ES_MAX_MEM两个环境变量设置成同一个值，并且保证机器有足够的内存分配给es。同时也要允许elasticsearch的进程可以锁住内存，Linux下可以通过ulimit -l unlimited命令。 http.max_content_length: 设置内容的最大容量，默认100mb。 -...

03 这里在顺便说下ElasticSearch节点的属性。

node.master: true 并且 node.data: true

node.master: true 并且 node.data: true
这种组合表示这个节点即有成为主节点的资格，又存储数据。
如果某个节点被选举成为了真正的主节点，那么他还要存储数据，这样对于这个节点的压力就比较大了。ElasticSearch默认每个节点都是这样的配置，在测试环境下这样做没问题。实际工作中建议不要这样设置，因为这样相当于主节点和数据节点的角色混合到一块了。

node.master: false 并且 node.data: true

这种组合表示这个节点没有成为主节点的资格，也就不参与选举，只会存储数据。 这个节点我们称为data(数据)节点。在集群中需要单独设置几个这样的节点负责存储数据，后期提供存储和查询服务

node.master: true 并且 node.data: false

这种组合表示这个节点不会存储数据，有成为主节点的资格，可以参与选举，有可能成为真正的主节点，这个节点我们称为master节点。

node.master: false node.data: false

这种组合表示这个节点即不会成为主节点，也不会存储数据，这个节点的意义是作为一个client(客户端)节点，主要是针对海量请求的时候可以进行负载均衡。

node.ingest: true

node.ingest: true执行预处理管道，不负责数据和集群相关的事物。 它在索引之前预处理文档，拦截文档的bulk和index请求，然后加以转换。 将文档传回给bulk和index API，用户可以定义一个管道，指定一系列的预处理器。

https://www.elastic.co/guide/cn/elasticsearch/guide/current/important-configuration-changes.html

04 数据节点配置：

	datanode的elasticsearch.yml文件配置如下:
	cluster.name: pancm
	node.name: data1
	path.data: /home/elk/datanode/data
	path.logs: /home/elk/datanode/logs
	network.host: 0.0.0.0
	network.publish_host: 192.169.0.23
	transport.tcp.port: 9300
	http.port: 9200
	discovery.zen.ping.unicast.hosts: ["192.169.0.23:9301","192.169.0.24:9301","192.169.0.25:9301"]
	node.master: false
	node.data: true
	node.ingest: false 
	index.number_of_shards: 5
	index.number_of_replicas: 1
	discovery.zen.minimum_master_nodes: 1
	bootstrap.memory_lock: true
	http.max_content_length: 1024mb

七、kibana的安装及配置

1、kibana下载地址：https://artifacts.elastic.co/downloads/kibana/kibana-5.6.13-x86_64.rpm

wget https://artifacts.elastic.co/downloads/kibana/kibana-5.6.13-x86_64.rpm
rpm -ivh kibana-5.6.13-x86_64.rpm

2、编辑配置文件/etc/kibana/kibana.yml配置文件

3、启动kibana服务，直接在浏览器访问该服务器的ip和端口即可成功

systemctl start kibana

4、配置index pattern，

index就是刚刚在logstash中输出插件配置的index，我这里配置的是vals-ap,注意，有时候会不成功，这是因为你logstash还没有从kafka中读到数据传送给elasticsearch，只有你的日志在开启了logstash后有改变才会生效，可以自行添加测试数据到日志里面，然后去查看index是否生成，查看index可以通过如下方式
网址输入elasticsearch地址：192.168.1.133:9200/_cat/indices

登入kibana主页：192.168.1.133:5601
进入kibana管理页面，点击左侧Management按钮，然后点击Index Patterns按钮，点击左上角的Create Index Pattern按钮，配置index的索引值为vals-ap*，添加时间过滤插件，点击create创建即可，其他类型日志操作步骤类似

5、此时及可以在kibana网站界面上看到我们收集到的日志信息了

6、日志清理

由于日志文件每日的积累，最终 磁盘可能会撑满，所以我们这里做了个机制，日志只保留最近10天，我写了个删除前10天日志的脚本，根据elasticsearch上的index做删除操作

放到定时任务里面，每日凌晨1点执行
crontab -e
0 1 * * * /root/bin/rmelklog.sh > /dev/null 2>&1

更多参考资料请参看如下博客：

ELK+Filebeat+kafka+zookeeper日志分析平台: https://my.oschina.net/xuesong0204/blog/919760
使用logstash读取kafka中数据： https://blog.csdn.net/lvyuan1234/article/details/78653324
官网logstash详细文档：https://www.elastic.co/guide/en/logstash/current/index.html
官网filebeat详细文档：https://www.elastic.co/guide/en/beats/filebeat/current/index.html

你可能感兴趣的:(日志处理,elk,kafka,zookeeper)

vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
kafka 每条消息只会保存到某一个分区 scan724 kafka
也就是说Kafka的消息组织方式实际上是三级结构：主题-分区-消息。主题下的每条消息只会保存在某一个分区中，而不会在多个分区中被保存多份。官网上的这张图非常清晰地展示了Kafka的三级结构，如下所示其实分区的作用就是提供负载均衡的能力，或者说对数据进行分区的主要原因，就是为了实现系统的高伸缩性（Scalability）。不同的分区能够被放置到不同节点的机器上，而数据的读写操作也都是针对分区这个粒度
Kafka的优势有哪些？经常应用在哪些场景？
Kafka的优势有哪些？经常应用在哪些场景？Kafka的优势比较多如多生产者无缝地支持多个生产者、多消费者、基于磁盘的数据存储、具有伸缩性、高性能轻松处理巨大的消息流。多用于开发消息系统，网站活动追踪、日志聚合、流处理等方面。今天我们一起来学习Kafka的相关知识吧！一、Kafka的优势有哪些？1.多生产者可以无缝地支持多个生产者，不论客户端在使用单个主题还是多个主题。2.多消费者支持多个消费者从
kafka 收不到消息_Kafka 常见问题汇总 weixin_39554434 kafka 收不到消息
Kafka常见问题汇总1.Kafka如何做到高吞吐、低延迟的呢？这里提下Kafka写数据的大致方式：先写操作系统的页缓存(PageCache),然后由操作系统自行决定何时刷到磁盘。因此Kafka达到高吞吐、低延迟的原因主要有以下4点：页缓存是在内存中分配的，所以消息写入的速度很快。Kafka不必和底层的文件系统进行交互，所有繁琐的I/O操作都由操作系统来处理。Kafka采用追加写的方式，避免了磁盘
kafka partition分配_走近kafka-Partition分配与消息可靠性编辑部小李 kafka partition分配
Kafka的高可用源于其多个副本(replication)。拥有多个副本，那么带来的问题就是数据怎么同步。我们都知道数据是存放在partition物理目录下的文件里面。通过前面几节的介绍，我们也知道消息过来后直接跟partitionleader交互，然后由leader进行数据同步。由于partition的replication机制，在kafka看来partition不分leader和followe
Kafka最新版本（3.x/4.x）性能优化
在Kafka的最新版本（截至2025年，主流为3.x/4.x）中，性能优化需要从集群架构、Broker配置、Topic设计、生产者/消费者调优、存储层优化等多个维度综合考虑。以下是基于最新特性的核心优化措施：一、集群架构优化合理规划Broker数量与分布每个Broker承载的分区数：推荐每个Broker管理100-500个分区（超大规模集群可放宽至1000个），避免单Broker分区过多导致负载不
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
1-Kafka介绍及常见应用场景 sql2008help kafka 分布式
Kafka介绍ApacheKafka是一个开源的分布式流处理平台，最初由LinkedIn开发，后捐赠给Apache软件基金会。它被设计用于高吞吐量、低延迟、可水平扩展地处理实时数据流。官网地址是：https://kafka.apache.org/以下是Kafka的核心介绍：核心概念消息系统(MessagingSystem)Kafka充当生产者和消费者之间的消息中间件，解耦系统，确保可靠的数据传递。
kafka单个生产者向具有多个partition的topic写数据（写入分区策略）
最近碰到生产环境现象一个flink程序单并行度（一个生产者），对应topic为8分区。每个分区都能消费到生产出的数据。整理知识点如下生产者写入消息到topic，kafka将依据不同的策略将数据分配到不同的分区中1.轮询分区策略2.随机分区策略3.按key分区分配策略4.自定义分区策略1.1轮询分区策略默认的策略，也是使用最多的策略，可以最大限度的保证所有消息平均分配到分区里面如果在生产消息时，ke
kafka系列 ---安装kafka+SASL配置心有栖 kafka专栏 kafka java
文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言这篇主要讲如何安装kafka+配置SASL安全验证，之前网上一些文章要么没有配置SASL，要么本身存在一些问题，这里主要把正确的配置方案放上来，后续会讲讲遇到的一些问题和该如何解决。一、安装kafka官网的quickstart有最新安装教程，想安装最新版可以去官网，目前我使用的是kafka2.6.0。这里的所有操作都是在
Kafka 数据倾斜原因、影响与权威解决方案
一、数据倾斜的概念在Kafka环境中，数据倾斜是指数据在主题（Topic）的各个分区（Partition）之间分布不均匀的状况。理想情况下，分区设计期望数据能在各个分区均衡分布，如此一来，消费者组内的消费者便可均衡地从不同分区消费数据，从而充分利用系统资源实现高效并行处理。但当数据倾斜发生时，部分分区会承载大量数据，而其他分区的数据量则相对较少。二、数据倾斜产生的原因（一）生产者端原因分区键（Pa
Flume到Kafka且均分到多个partition 小学僧来啦 Flume Kafka partition Flume
@Author:Spinach|GHB@Link:http://blog.csdn.net/bocai8058文章目录说明情况解决方法说明情况Flume向kafka发布数据时，发现kafka接收到的数据总是在一个partition中，而我们希望发布来的数据在所有的partition平均分布。应该怎么做呢？解决方法Flume的官方文档是这么说的：KafkaSinkusesthetopicandkey
kafka如何让消息均匀的写入到每个partition 野老杂谈全网最全IT公司面试宝典 kafka 分布式
在Kafka中，要实现消息均匀写入每个partition，核心是通过合理的分区分配策略让消息在partition间均衡分布。具体机制和实践方式如下：一、Kafka默认的分区分配逻辑（核心机制）Kafka生产者发送消息时，通过Partitioner接口（默认实现为DefaultPartitioner）决定消息写入哪个partition，核心逻辑如下：指定partition时若发送消息时显式指定了pa
小架构step系列08：logback.xml的配置秋千码途 logback xml java
1概述logback.xml配置文件的详细配置，很多地方都说得比较细，本文主要从几个重点来看一下原理，了解原理能够帮助确定哪些应该配置，以及如何配置。logback.xml是为打印日志服务的，打印的内容一般打印到控制台(Console)和文件(file)里，在生产环境中主要是打印到文件里，然后用扫描工具汇总到某个地方方便查询(如ELK)。打印的内容要符合一定的格式，提供足够的信息，方便进行日志查询
基于 Java 的电商业务秒杀商品高并发、数据一致性、系统性能等多个方面设计方案一杯冰美式_丶 java 开发语言
1.需求分析高并发：大量用户同时抢购，系统需要支持高并发请求。库存一致性：避免超卖（库存减为负数）或数据不一致。高性能：响应时间要短，用户体验要好。公平性：先到先得，避免作弊。2.技术选型缓存：使用Redis缓存商品库存和秒杀结果，减少数据库压力。消息队列：使用RabbitMQ或Kafka异步处理订单，削峰填谷。数据库：MySQL存储订单和商品信息，使用事务保证数据一致性。分布式锁：使用Redis
如何确保Kafka集群的高可用？ java1234_小锋 java kafka 分布式
大家好，我是锋哥。今天分享关于【如何确保Kafka集群的高可用？】面试题。希望对大家有帮助；如何确保Kafka集群的高可用？超硬核AI学习资料，现在永久免费了！要确保Kafka集群的高可用性，可以采取以下几种策略：1.副本机制（Replication）Kafka通过副本机制来提高消息的可靠性和集群的容错性。每个Kafka主题的分区都有多个副本（Replica），这些副本分布在不同的Broker上。
Zookeeper的典型应用场景?
大家好，我是锋哥。今天分享关于【Zookeeper的典型应用场景?】面试题。希望对大家有帮助；Zookeeper的典型应用场景?超硬核AI学习资料，现在永久免费了！Zookeeper是一个开源的分布式协调服务，它被广泛应用于需要分布式系统协调的场景。以下是Zookeeper的一些典型应用场景：1.分布式锁在分布式系统中，多个节点可能需要对共享资源进行访问，这时就需要确保访问的排他性。Zookeep
3-Kafka常用指令 sql2008help kafka 分布式
Kafka常用指令大全一、Topic管理命令功能示例创建Topic指定分区和副本数kafka-topics.sh--create--bootstrap-serverlocalhost:9092--topictest--partitions3--replication-factor2查看Topic列表列出所有Topickafka-topics.sh--bootstrap-serverlocalhos
Kafka生产者的初始化夏日彩虹 kafka kafka 分布式
创作内容丰富的干货文章很费心力，感谢点过此文章的读者，点一个关注鼓励一下作者，激励他分享更多的精彩好文，谢谢大家！把用户配置的KafkaProducer参数，赋值给KafkaProducer构造函数中userProvidedConfigs变量。获取clientId。获取用户配置的分区器。获取用户配置的retry.backoff.ms，默认值100毫秒，该参数的意思是设置在重试发送消息之前等待的时间
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
【Kafka】Kafka Producer 分区-05 boy快快长大中间件 kafka 分布式
【Kafka】KafkaProducer分区-051.分区的好处2.分区策略2.1默认的分区器DefaultPartitioner3.自定义分区器1.分区的好处（1）便于合理使用存储资源，每个Partition在一个Broker上存储，可以把海量的数据按照分区切割成一块一块数据存储在多台Broker上。合理控制分区的任务，可以实现负载均衡的效果。（2）提高并行度，生产者可以以分区为单位发送数据；消
云原生时代的日志管理：ELK、Loki、Fluentd 如何选型？
一、引言在微服务和Kubernetes普及的今天，传统的日志管理方式已经难以应对高并发、分布式架构带来的挑战。随着容器化应用数量激增，日志数据量呈指数级增长，如何高效地收集、存储、查询和分析日志，成为每个团队必须面对的问题。在这样的背景下，ELK（Elasticsearch+Logstash+Kibana）、Loki和Fluentd成为当前主流的日志解决方案。它们各有特色，适用于不同规模和技术栈的
各服务日志: Grok正则解析根哥的博客 Linux系统 Elasticsearch logstash 正则表达式
各类日志样例服务类型日志格式Java应用：如Kafka/ES[2025-04-2911:21:12,395]INFO[Logpartition=ck-1,dir=/opt/kafka_2.13-2.8.1/data]Incrementedlogstartoffsetto3591510004duetosegmentdeletion(kafka.log.Log)Tomcat27-Apr-202514:
自动化运维工程师实操面试题
以下是针对Ansible、Zabbix、ElasticsearchLogstashKibana（ELK）设计的2道综合实操题，难度适中且结合实际应用场景：实操题1：Ansible自动化部署Zabbix监控平台并集成ELK日志分析题目背景某企业需要通过Ansible自动化部署Zabbix监控服务器（含Agent）、Elasticsearch、Logstash、Kibana（ELK）日志分析系统，并实
分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
【容器】优质文章分享
文章目录加速器Docker教程安装坑volumn网络配置踩坑其他dockerfiledocker-compose手册教程网络坑docker使用dockermysqldockermongoredisdocker-rabbitmqnginxtomcatnacoszookeeperelasticsearch加速器现在docker镜像站真的不好找了。阿里什么的加速目前只能给阿里自己的容器用了。且用且珍惜D
Redis命令郭尘帅666 redis 数据库缓存
1.Redis五大常用数据类型字符串(String)列表(List)哈希表(Hash)集合(Set)有序集合(ZSet)2.key的常用命令语法作用keys*查看当前库所有的keyexistskey判断某个key是否存在typekey查看你的key是什么类型unlinkkey根据value删除非阻塞删除，仅仅将keys从keyspace元数据中删除，真正的删除会在后续异步中操作。delky删除指定
Kafka 消费者组再平衡优化实践指南
一、Kafkarebalance原理与影响原理消费者通过subscribe(topics)向协调器（GroupCoordinator）注册组成员。协调器根据partition.assignment.strategy（默认StickyAssignor）自动分配各消费者的分区列表。每次成员加入/离开，都会经历：REVOKE：撤销旧的分区分配ASSIGN：重新分配所有分区期间所有消费者的poll()会被
【面试题】为什么kafka的吞吐量这么高 oraen 面试系列 kafka 分布式
我们总结一下为什么kafka的吞吐量高核心：顺序写+零拷贝+批处理一数据模型简单+顺序读写磁盘1kafka的数据存储本质上使用的是Append-only日志模型，数据写入和读取是顺序的，不需要复杂索引或随机写，大大简化了写路径，2消息以顺序追加方式写入磁盘，避免了随机写，而且顺序写入能够更高效地配合操作系统的页缓存，进一步提升写的性能。3消息的消费也是顺序读取的，顺序读取硬盘数据再配合内存映射大大
Spring for kafka系列——1、快速浏览虾条_花吹雪 Spring for Apache Kafka Spring kafka
先决条件：您必须安装并运行ApacheKafka。然后，您必须将SpringforApacheKafka（SpringKafka）JAR及其所有依赖项放在类路径上。最简单的方法是在构建工具中声明依赖关系。如果您没有使用SpringBoot，请在项目中将Springkafka-jar声明为依赖项。org.springframework.kafkaspring-kafka3.3.7使用SpringBo
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu