本文利用zabbix的日志监控功能监控Linux的secure日志,当有用户登录失败或者用户在非常规时间登录成功时发出告警。
这里我们使用zabbix提供的'log[file,<regexp>,<encoding>,<maxlines>,<mode>,<output>]'来监控Linux的/var/log/secure文件。先介绍下这个log监控项:
1)监控项类型是Zabbix agent (active),返回数据类型是Log。
2)Zabbix agent要对监控的日志文件有可读权限,否则会返回unsupported。
3)参数介绍:
file - 日志文件的全路径。
regexp - 过滤日志的正则表达式。
encoding - 字符编码,默认为英文单字节SBCS(Single-Byte Character Set)。
maxlines - agent每秒发送给server(或proxy)的数据的最大行数,这个参数会覆盖掉zabbix_agentd.conf配置文件里的'MaxLinesPerSecond'参数。
mode - 可填参数:all(默认),skip(跳过旧数据)。
output - 自定义格式化输出,默认输出regexp匹配的整行数据。转义字符'\0'表示regexp
匹配的数据,转义字符'\N'(N=1..9)表示regexp里第N个分组匹配到的数据。如果填其他字符串就会覆盖掉regexp匹配的数据。
下面先展示下成果,然后介绍操作步骤:
历史数据展示:
告警邮件展示:
一、创建日志监控item
选择“Template OS Linux”模板,创建监控项item,配置如下:
Name - 填"Login attempt"
Type - 选择Zabbix agent (active)
Type of information - 数据类型选择Log
Update interval (in sec) - 监控间隔60秒
Key - 填写如下:
log[/var/log/secure,"(Accepted|Failed) password",,,skip,]
正则表达式为"(Accepted|Failed) password",过滤/var/log/secure中的正确或失败的用户登录请求(这里只过滤密码验证方式的登录)。
二、创建触发器trigger
我们继续选择“Template OS Linux”模板,为上面的监控项创建触发器。
1、用户登录失败的触发器配置
Name - 填"Login attempt has failed"
Expression - 填写如下:
{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].str(Failed)}=1&{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].nodata(60)}=0
表达式的含义为:如果用户登录失败了,item返回数据中会包含"Failed",则触发器被触发,60秒内没有新数据的话,触发器恢复。这样就保证了触发器不会一直在触发状态。
下面把表达式拆解分析:
A:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].str(Failed)}=1,表示如果字符串中包含"Failed"则表达式为真。
B:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].nodata(60)}=0,表示60秒内有数据产生则表达式为真,即60秒内如果没有新数据了,则表达式为假。
逻辑为A & B,表示同时符合A、B两个条件(同时为真),触发器才会触发。
2、用户在非常规的时间登录成功的触发器配置
Name - 填"Login attempt has accepted"
Expression - 填写如下:
{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].str(Accepted)}=1&{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].nodata(60)}=0&({Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].time(0)}<080000|{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].time(0)}>200000)
表达式的含义为:晚上20点到早上8点之间如果有用户登录成功了,item返回数据中会包含"Accepted",则触发器被触发,60秒内没有新数据的话,触发器恢复。
下面把表达式拆解分析:
A:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].str(Accepted)}=1,表示如果字符串中包含"Accepted"则表达式为真。
B:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].nodata(60)}=0,表示60秒内有数据产生则表达式为真,即60秒内如果没有新数据了,则表达式为假。
C:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].time(0)}<080000,表示当前时间小于8点(08:00:00)则表达式为真。
D:{Template OS Linux:log[/var/log/secure,"(Accepted|Failed) password",,,skip,].time(0)}>200000,表示当前时间大于晚上8点(20:00:00)则表达式为真。
逻辑为A & B & (C | D),表示A和B要同时为真且C和D只要一个为真,则整个表达式为真,触发器才会触发。
这样“Template OS Linux”模板我们就配置好了,下面配置Linux agent客户端。
三、Linux客户端配置
1、保证两个Hostname一致
第一个Hostname是指zabbix_agentd.conf配置文件中的"Hostname"参数;第二个Hostname是指主机配置里的"Host name"。
这两个配置要相同,因为agent是以"Hostname"为参数向server发送"active checks"请求,server收到请求,到数据库里找到相同的名称的主机后,向agent返回active类型的监控项列表。agent根据这个item list进行监控,收集数据,并主动把数据推送给server。
具体请看官方文档:https://www.zabbix.com/documentation/2.2/manual/appendix/items/activepassive#active_checks
2、设置ServerActive参数
agent向哪个server发送"active checks"请求是由配置文件中的"ServerActive"参数决定的。"ServerActive"定义了zabbix server的ip和端口。
3、设置日志文件的权限
/var/log/secure的权限一般是600,zabbix agent对此文件没有权限。zabbix用户是agent的启动用户,所以我们要设置zabbix用户对/var/log/secure有可读权限,这样agent才能监控。
执行下面的命令,追加zabbix的可读权限:
setfacl -m u:zabbix:r-- /var/log/secure
4、修改logrotate配置
sed -i '/kill/a\/usr\/bin\/setfacl -m u:zabbix:r-- \/var\/log\/secure' /etc/logrotate.d/syslog
agent上要注意的配置就是这些了。修改完配置文件后要重启agent。
最后,我们还要在zabbix web上设置"Actions",定义告警操作,设置告警收件人。这样发生告警后,相关的收件人会收到告警邮件。