ElasticSearch:智能搜索,分布式的搜索引擎
是ELK的一个组成,是一个产品,而且是非常完善的产品,ELK代表的是:E就是ElasticSearch,L就是Logstach,K就是kibana
E:EalsticSearch 搜索和分析的功能
L:Logstach 搜集数据的功能,类似于flume(使用方法几乎跟flume一模一样),是日志收集系统
K:Kibana 数据可视化(分析),可以用图表的方式来去展示,文不如表,表不如图,是数据可视化平台
分析日志的用处:假如一个分布式系统有 1000 台机器,系统出现故障时,我要看下日志,还得一台一台登录上去查看,是不是非常麻烦?
但是如果日志接入了 ELK 系统就不一样。比如系统运行过程中,突然出现了异常,在日志中就能及时反馈,日志进入 ELK 系统中,我们直接在 Kibana 就能看到日志情况。如果再接入一些实时计算模块,还能做实时报警功能。
这都依赖ES强大的反向索引功能,这样我们根据关键字就能查询到关键的错误日志了。
1、环境
系统:Centos7.5
JDK: jdk-8u101-linux-x64.tar.gz
Elasticsearch- 6.4.0 Logstash 6.4.0
kibana-6.4.0 Filebeat 6.4.0
2、安装
2.1 JDK安装
上传jdk-8u101-linux-x64.tar.gz至/usr/java/目录下,如果没有通过mkdir /usr/java命令创建。
解压文件tar -vxf jdk-8u101-linux-x64.tar.gz
配置环境变量
执行vi /etc/profile命令,在末尾添加如下内容
#set java environment
export JAVA_HOME=/usr/java/jdk1.8.0_181
export JRE_HOME=/usr/java/jdk1.8.0_181/jre
export CLASSPATH=.:$JAVA_HOME/lib:/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
执行source /etc/profile 刷新环境变量
执行java –version确认是否配置成功
2.2配置limit
执行vim /etc/security/limits.conf
在末尾添加以下内容
* soft nproc 65536
* hard nproc 65536
* soft nofile 65536
* hard nofile 65536
执行vi /etc/sysctl.conf
在末尾添加一下内容
vm.max_map_count=262144
重启生效
2.3创建ELK用户
创建用户
groupadd elk
useradd -g elk elk
创建运行目录
mkdir /data01/elk
chown -R elk:elk /data01/elk/
关闭防火墙
详见https://www.jianshu.com/p/52c6b3b4f519
2.4 ELK
2.4.1下载地址
Elasticsearch
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz
https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz.sha512
Kibana
https://artifacts.elastic.co/downloads/kibana/kibana-6.4.0-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/kibana/kibana-6.4.0-linux-x86_64.tar.gz
Logstash
https://artifacts.elastic.co/downloads/logstash/logstash-6.4.0.tar.gz
https://artifacts.elastic.co/downloads/logstash/logstash-6.4.0.tar.gz
Filebeat
https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-6.4.0-linux-x86_64.tar.gz
https://artifacts.elastic.co/downloads/beats/filebeat/filebeat-6.4.0-linux-x86_64.tar.gz.sha512
每个组建下面的连接是文件的唯一性校验文件
通过shasum -a 512 + 校验文件名 的方式校验
如果shasum命令不存在时,可执行命令安装 yum install perl-Digest-SHA
2.4.2安装ELK
切换用户至elk(切记一定要切换用户至elk)
进入/data01/elk目录
解压ELK全部文件
tar -xzf elasticsearch-6.4.0.tar.gz
tar -vxf filebeat-6.4.0-linux-x86_64.tar.gz
tar -vxf kibana-6.4.0-linux-x86_64.tar.gz
tar -vxf logstash-6.4.0.tar.gz
配置ES
1、在配置之前编辑host文件
通过root用户编辑/etc/hosts文,然后切换回elk用户
2、配置elsaticsearch
cd elasticsearch-6.4.0/
vim config/elasticsearch.yml
在文件末尾添加如下配置
cluster.name: my_es_cluster
node.name: elk
path.data: /data01/elk/elasticsearch-6.4.0/data
path.logs: /data01/elk/elasticsearch-6.4.0/logs
http.cors.enabled: true
http.cors.allow-origin: "*"
node.master: true
node.data: true
# 配置白名单 0.0.0.0表示其他机器都可访问
network.host: 0.0.0.0
transport.tcp.port: 9300
# tcp 传输压缩
transport.tcp.compress: true
http.port: 9200
discovery.zen.ping.unicast.hosts: ["elk"](这个参数添加的是es的节点,可以添加多个用逗号(“,”)分隔)
配置完成后启动elasticsearch
./bin/elasticsearch
当所有节点启动成功后,在主节点服务器执行以下curl命令,如下图所示,标识Elasticsearch集群启动成功。(这里我们使用的是单节点)
3、配置 Kibana
cd kibana-6.4.0/
vim config/kibana.yml
在末尾添加
server.host: "172.24.112.17"
启动kibana
./bin/kibana
成功后通过浏览器访问http://172.24.112.17:5601查看是否成功
4、配置Logstash
cd logstash-6.4.0
复制配置文件
cp config/logstash-sample.conf config/logstash.conf
vim config/logstash.conf
修改配置文件如下
#从filebeat拿数据
input {
beats {
port => "5044"
}
}
#从file文件内拿数据
input {
file {
path => "/var/log/lyh.log"
type => "syslog"
}
}
filter {
grok {
match => { "message" => "%{COMBINEDAPACHELOG}"}
}
geoip {
source => "clientip"
}
}
output {
elasticsearch {
hosts => [ "localhost:9200" ]
index => "logstash-index-%{+YYYY.MM.dd}" #创建index的命名规则
}
}
启动Logstash
bin/logstash -f logstash.conf --config.reload.automatic
--config.reload.automatic
项会定期自动重载配置,可以不停止重启Logstash就可以修改配置。
通过Grok过滤插件解析Web日志:
grok过滤插件使您能够将非结构化日志数据解析为结构化易查询的形式。
grok过滤插件是在输入的日志数据中查找对应模式,因此需要您根据你自己的用例需求去配置插件如何识别对应的模式。 Web服务器日志示例中的代表行如下所示:
83.149.9.216 - - [04/Jan/2015:05:13:42 +0000] "GET /presentations/logstash-monitorama-2013/images/kibana-search.png HTTP/1.1" 200 203023 "http://semicomplete.com/presentations/logstash-monitorama-2013/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"
在日志行启始位置的IP地址是非常好识别的,在括号中的时间戳也同样好识别。要解析这些数据,可以使用%{COMBINEDAPACHELOG}模式,用下表的形式结构化Apache日志行:
通过Geoip过滤插件增强你的数据:
除了解析日志数据以获得更好的搜索之外,过滤插件还可以从现有数据中获取补充信息。例如,
geoip
插件查找IP地址,从地址中获取地理位置信息,并将该位置信息添加到日志中。
geoip
插件配置要求你指定包含要查找的IP地址信息的源字段的名称。在此示例中,clientip字段包含IP地址信息。
由于过滤器是按序处理的,在配置文件中请确保geoip
部分在grok
部分之后,并且都在filter
内部。
保存更改项。因为之前在配置中设置了配置自动重载,当你再次更改配置时不必重新启动Logstash使配置生效。但是,您需要强制Filebeat从头开始读取日志文件。 为此,请转到运行Filebeat的终端窗口,然后按Ctrl + C关闭Filebeat。 然后删除Filebeat注册表文件registry。 例如,运行:
sudo -u elk rm data/registry
由于Filebeat在注册表文件中存储了每个文件被读取后的状态,删除注册表文件将强制Filebea从头开始读取文件。下一步,用下面的命令重启Filebeat:
sudo -u elk ./filebeat -e -c filebeat.yml -d "publish"
5、配置filebeat
cd filebeat-6.4.0-linux-x86_64
vim filebeat.yml
在末尾添加
filebeat.prospectors:
- type: log
paths:
- /var/log/*.log # 须填写绝对路径
multiline.pattern: ^\[
multiline.negate: true
multiline.match: after
filebeat.config.modules:
path: ${path.config}/modules.d/*.yml
reload.enabled: false
setup.template.settings:
index.number_of_shards: 3
setup.kibana:
host: "172.24.112.17:5601"
output.logstash:
hosts: ["localhost:5044"]
#如果不适用logstash对日志进行过滤,也可以直接输出到es
output.elasticsearch:
hosts: ["172.24.112.17:9200"]
#输出到kafka
output.kafka:
hosts: ["kafka1:9092", "kafka2:9092", "kafka3:9092"]
topic: '%{[fields.log_topic]}'
注意:
遇到一个坑就是连接不上kafka broker,最后查询官方文档https://www.elastic.co/guide/en/beats/filebeat/6.4/kafka-output.html
发现filebeat6.4版本支持kafka版本0.11到1.1.1,而我的kafka版本0.8,换成filebeat6.2一切正常
启动 filebeat
sudo -u elk ./filebeat -e -c filebeat.yml -d "publish"
如果以root身份运行Filebeat,则需要更改配置文件的所有权(请参阅Config File Ownership and Permissions)。