一、告警系统主脚本
告警系统主脚本 告警系统配置文件 告警系统监控项目_第1张图片
我们要养成习惯,把shell脚本放到/usr/local/sbin/目录下,方便我们查找
[root@linux-01 ~]# cd /usr/local/sbin/
[root@linux-01 sbin]# mkdir mon
[root@linux-01 sbin]# cd mon/
[root@linux-01 mon]# mkdir bin conf shares log mail
[root@linux-01 mon]# cd bin/ //主脚本放到bin目录下,主脚本作为入口,需要判断配置文件,查看xx监控项目是否需要监控,去调取各个需要监控的子脚本
[root@linux-01 bin]# vim main.sh
#!/bin/bash
#Written by aming.
#是否发送邮件的开关
export send=1
#过滤ip地址
export addr=/sbin/ifconfig |grep -A1 "ens33: "|awk '/inet/ {print $2}'
dir=pwd
#只需要最后一级目录名
last_dir=echo $dir|awk -F'/' '{print $NF}'
#下面的判断目的是,保证执行脚本的时候,我们在bin目录里,不然监控脚本、邮件和日>志很有可能找不到
if [ $last_dir == "bin" ] || [ $last_dir == "bin/" ]; then
conf_file="../conf/mon.conf"
else
echo "you shoud cd bin dir"
exit
fi
exec 1>>../log/mon.log 2>>../log/err.log
echo "date +"%F %T" load average"
/bin/bash ../shares/load.sh
#先检查配置文件中是否需要监控502
if grep -q 'to_mon_502=1' $conf_file; then
export log=grep 'logfile=' $conf_file |awk -F '=' '{print $2}' |sed 's/ //g'
/bin/bash ../shares/502.sh
fi

//脚本解释:export send=1,这里send定义为1,以下所有监控都会发邮件告警,如果系统处于维护状态,我们需要把告警先暂停下,让它不发告警邮件,但是监控还是正常,引用export意味着send这个变量和应用在所有的子脚本里面;
export addr中addr的目的是告诉我们发邮件的是哪个机器,分布式不需要客户端,每台机器独立运行,export addr=/sbin/ifconfig |grep -A1 "ens33: "|awk '/inet/ {print $2}' 这里需要注意,网卡名称注意要修改为自己机器上的网卡名称;
dir=pwd 查看下当前路径;
last_dir=echo $dir|awk -F'/' '{print $NF}'表示过滤出最后一行目录;
if [ $last_dir == "bin" ] || [ $last_dir == "bin/" ]; then
conf_file="../conf/mon.conf"
else
echo "you shoud cd bin dir"
exit
fi //这一段判断是否在bin目录下,必须在bin目录下才能执行mail.sh脚本;
exec 1>>../log/mon.log 2>>../log/err.log输出正确日志和错误日志;
echo "date +"%F %T" load average"标记时间,求出系统负载,因为系统负载是每台机器必须监控的项目,我们可以把这一项放到主脚本中;
/bin/bash ../shares/load.sh 主脚本中调用子脚本

二、告警系统配置文件
告警系统主脚本 告警系统配置文件 告警系统监控项目_第2张图片
[root@linux-01 mon]# cd /usr/local/sbin/mon/conf
[root@linux-01 conf]# vim mon.conf
##to config the options if to monitor
##定义mysql的服务器地址、端口以及user、password
to_mon_cdb=0 ##0 or 1, default 0,0 not monitor, 1 monitor
db_ip=10.20.3.13
db_port=3315
db_user=username
db_pass=passwd
#httpd 如果是1则监控,为0不监控
to_mon_httpd=0
#php 如果是1则监控,为0不监控
to_mon_php_socket=0
#http_code_502 需要定义访问日志的路径
to_mon_502=1
logfile=/data/log/xxx.xxx.com/access.log
#request_count 定义日志路径以及域名
to_mon_request_count=0
req_log=/data/log/www.discuz.net/access.log
domainname=www.discuz.net

//脚本解释:to_mon_cdb=0 是否监控cdb数据库,如果监控就是1,不监控就是0,在主脚本中会过滤这个数字,如果是1,就会执行这个子脚本,如果是0,就不执行子脚本;
要想使自己的脚本兼容性很强,需要把各个日志文件载入到配置文件里,这样修改起来很方便;

三、告警系统监控项目
告警系统主脚本 告警系统配置文件 告警系统监控项目_第3张图片
[root@linux-01 conf]# cd /usr/local/sbin/mon/shares/ //把监控项目放到shares路径下
1、系统负载脚本:load.sh
[root@linux-01 shares]# vim load.sh
#! /bin/bash
##Writen by aming##
load=uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1
if [ $load -gt 10 ] && [ $send -eq "1" ]
then
echo "$addr date +%T load is $load" >../log/load.tmp
/bin/bash ../mail/mail.sh [email protected] "$addr_load:$load" cat ../log/load.tmp
fi
echo "date +%T load is $load"

//脚本解释:
[root@linux-01 shares]# uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1
0 //使用这个命令可以查看到load的值;
if [ $load -gt 10 ] && [ $send -eq "1" ]判断系统负载是否高于指定的阈值10并且send开关等于1;
echo "$addr date +%T load is $load" >../log/load.tmp 输出一条日志,显示机器IP,时间,负载是多少,其中../log/load.tmp 是发邮件用到;
/bin/bash ../mail/mail.sh [email protected] "$addr_load:$load" cat ../log/load.tmp会调用mail.sh和mail.py脚本,发送邮件;
echo "
date +%T` load is $load"记录一条日志

2、502状态码脚本:
[root@linux-01 shares]# vim 502.sh
#! /bin/bash
d=date -d "-1 min" +%H:%M
c_502=grep :$d: $log |grep ' 502 '|wc -l
if [ $c_502 -gt 10 ] && [ $send == 1 ]; then
echo "$addr $d 502 count is $c_502">../log/502.tmp
/bin/bash ../mail/mail.sh $addr_502 $c_502 ../log/502.tmp
fi
echo "date +%T 502 $c_502"

//脚本解释:
d=date -d "-1 min" +%H:%M
c_502=grep :$d: $log |grep ' 502 '|wc -l 截取系统一分钟之前的数据;
/bin/bash ../mail/mail.sh $addr_502 $c_502 ../log/502.tmp调用mail.sh脚本,mail.sh指定发送给谁,发送的主题、内容

3、磁盘监控脚本:
[root@linux-01 shares]# vim disk.sh
#! /bin/bash
##Writen by aming##
rm -f ../log/disk.tmp
for r in df -h |awk -F '[ %]+' '{print $5}'|grep -v Use
do
if [ $r -gt 90 ] && [ $send -eq "1" ]
then
echo "$addr date +%T disk useage is $r" >>../log/disk.tmp
fi
if [ -f ../log/disk.tmp ]
then
df -h >> ../log/disk.tmp
/bin/bash ../mail/mail.sh $addr_disk $r ../log/disk.tmp
echo "date +%T disk useage is nook"
else
echo "date +%T disk useage is ok"
fi

//脚本解释:
思路:把所有的磁盘挨个看下
告警系统主脚本 告警系统配置文件 告警系统监控项目_第4张图片
这个命令查看的是已用的百分比,没有%符号
[root@linux-01 shares]# echo "12:aa#sdfgh:11#333" |awk -F '[:#]' '{print $3}' //冒号和#做分隔符,截取第三段字符串
sdfgh //这个就是截取出来的第三段字符串
[root@linux-01 shares]# echo "12:aa#sdfgh:11#333" |awk -F '[:#]' '{print NF}' //查看有几段
5
告警系统主脚本  告警系统配置文件  告警系统监控项目
如果多加一个#,它判断出来的就是6段字符串,但是加一个+,它判断出来的就是5段
if [ $r -gt 90 ] && [ $send -eq "1" ]判断当磁盘已用百分比大于等于90就发邮件了