这里用的是zabbix6.0LTS版本,这里记录自定义配置报警,因为邮件报警基本已经很少有人使用了,大部分是,短信、飞书、钉钉等等工具,所有需要定制化报警
cd /usr/local/zabbix/etc
[root@node1 etc]# vim zabbix_server.conf
#增加报警脚本的存放路径
AlertScriptsPath=/usr/local/zabbix/share/zabbix/alertscripts
点击"管理" --> “报警媒介类型”–>“创建媒体类型”
1处: 自定义报警媒介名称
2处: 报警媒介的类型,我们是自定义报警,所有选择"脚本"类型,一切报警的处理逻辑都在脚本中处理
3处: 脚本名称,此处的脚本名称就是调用放在 "AlertScriptsPath"参数路径中的脚本文件
4处: 此处有3个参数,这3个参数的写法是固定的,顺序也是固定的,不要调整它们的顺序
{ALERT.SENDTO} 的含义: 报警信息接收人
{ALERT.SUBJECT}的含义: 报警主题
{ALERT.MESSAGE}的含义:报警的具体消息
cd /usr/local/zabbix/share/zabbix/alertscripts
[root@node1 alertscripts]# touch log
[root@node1 alertscripts]# chmod 777 log
[root@node1 alertscripts]# cat main.sh
#!/bin/bash
url=$(dirname $(readlink -f $0))
echo "{ALERT.SENDTO} = $1" >> $url/log
echo "{ALERT.SUBJECT} = $2" >> $url/log
echo "{ALERT.MESSAGE} = $3" >> $url/log
找到要测试的报警媒介,点击右侧的测试
填写测试内容
测试成功结果如下:
在服务器端查看是否有日志生成,
[root@node1 alertscripts]# cat log
{ALERT.SENDTO} = 12345678910
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = 这是一个测试报警消息
总结:
根据结论得出,在报警媒介定义的3个脚本参数 分别通过位置参数传递给了脚本
再次发送相同的测试内容
日志内容如下:
[root@node1 alertscripts]# cat log
{ALERT.SENDTO} = 故障报警
{ALERT.SUBJECT} = 这是一个测试报警信息
{ALERT.MESSAGE} = 12345678910
根据日志内容能够说明两点:
1.说明{ALERT.SENDTO}这三个参数的编写顺序是直接对应$1、$2、$3的顺序
2.说明
"收件人" 的值 赋值给 {ALERT.SENDTO} 变量
"主题" 的值 赋值给 {ALERT.SUBJECT} 变量
"消息" 的值 赋值给 {ALERT.MESSAGE} 变量
这个赋值的动作,不会随着脚本参数的顺序的变化而变化,
如果接收报警的人只限于运维部门几个人,可以直接在zabbix的Admin账号中配置多个接收人报警接收人。
注意:虽然这里是一个Admin 账户,但是里边的有3个报警信息接收人,此时Admin账号除了是一个zabbix系统的 “登录用户” 的身份,又是一个 “报警接收人组” 的身份
添加完成后如下图,然后点击更新:
如果公司中有很多项目,不同的运维人员负责不同的项目,那就常见不同的zabbix用户,在不同的zabbix用户中增加不同的报警用户接收人,这样就可以根据不同的项目发送给不同的报警接收人
选择创建触发器
添加表达式如下图
[root@node1 ~]# /usr/local/zabbix/bin/zabbix_get -s "127.0.0.1" -p 10050 -k 'system.users.num'
1
多开启几个终端,现在登录用户数量变成了3个,我们的触发器规定的是大于2个就报警
[root@node1 ~]# /usr/local/zabbix/bin/zabbix_get -s "127.0.0.1" -p 10050 -k 'system.users.num'
3
目前触发器触发之后,只会显示有问题,不会通知用户,这时候就需要触发器触发之后,有相关的动作,讲警告信息通知给用户,此时就用到了动作
这里只是用于测试,生产中可以根据主机群组来定义
如下图:
这里的含义为,此报警动作是在zabbix server主机 有报警级别大于等于严重的情况下会触发此动作
注意:这里的主体和消息对应的就是 上述中的 {ALERT.SUBJECT} {ALERT.MESSAGE}参数。
这里的操作主要就是将 收件人信息、主题、 消息 已参数的形式发送给前边定义的"main.sh"脚本.
消息内容如下
故障:{TRIGGER.STATUS},服务器:{HOSTNAME1}发生:{TRIGGER.NAME}故障!
告警主机:{HOSTNAME1},IP地址:{HOST.CONN}
告警时间:{EVENT.DATE}{EVENT.TIME}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
告警项目:{TRIGGER.KEY1}
问题详情:{ITEM.NAME}:{ITEM.VALUE}
当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}
事件ID:{EVENT.ID}
恢复:{TRIGGER.STATUS},服务器:{HOSTNAME1}已经恢复!:{TRIGGER.NAME}
告警主机:{HOSTNAME1} ,IP地址:{HOST.CONN}
告警时间:{EVENT.DATE}{EVENT.TIME}
告警等级:{TRIGGER.SEVERITY}
告警信息:{TRIGGER.NAME}
告警项目:{TRIGGER.KEY1}
问题详情:{ITEM.NAME}:{ITEM.VALUE}
当前状态:{TRIGGER.STATUS}:{ITEM.VALUE1}
事件ID:{EVENT.ID}
完成如下图:
在server端查看记录日志
[root@node1 alertscripts]# tail -f log
{ALERT.SENDTO} = 13811111111
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = IP地址:127.0.0.1
告警时间:2023.04.0921:43:01
告警信息:用户登录数量报警
告警项目:system.users.num
问题详情:Number of logged in users:3
{ALERT.SENDTO} = 13822222222
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = IP地址:127.0.0.1
告警时间:2023.04.0921:43:01
告警信息:用户登录数量报警
告警项目:system.users.num
问题详情:Number of logged in users:3
{ALERT.SENDTO} = 13833333333
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = IP地址:127.0.0.1
告警时间:2023.04.0921:43:01
告警信息:用户登录数量报警
告警项目:system.users.num
问题详情:Number of logged in users:3
因为报警接收人1、2、3都接收"严重"报警,触发器的报警级别是"严重",所有在脚本中收到了3个人的报警信息
现在将"用户登录数量报警"的触发器的报警级别调整为"一般严重"
将动作级别也调整为"一般严重"
服务器日志如下: 只有用户1 和3 收到了报警信息,2没有收到
{ALERT.SENDTO} = 13811111111
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = IP地址:127.0.0.1
告警时间:2023.04.0922:00:01
告警信息:用户登录数量报警
告警项目:system.users.num
问题详情:Number of logged in users:3
{ALERT.SENDTO} = 13833333333
{ALERT.SUBJECT} = 故障报警
{ALERT.MESSAGE} = IP地址:127.0.0.1
告警时间:2023.04.0922:00:01
告警信息:用户登录数量报警
告警项目:system.users.num
问题详情:Number of logged in users:3
生产中一般不会设置不同的人接收不同级别的的报警信息,这里只是做了验证。
报警模板
故障告警:{TRIGGER.NAME}
告警项目:{$PROJECT}
医院运维:{$BPUSER}
告警主机:{HOST.CONN}
告警信息:{ITEM.NAME}
当前状态:{ITEM.VALUE1}
恢复模板
故障恢复:{TRIGGER.NAME}
告警医院:{$PROJECT}
医院运维:{$BPUSER}
告警主机:{HOST.CONN}
告警项目:{ITEM.NAME}
当前状态:{ITEM.VALUE1}
持续时间:{EVENT.AGE}