20.23/20.24/20.25 告警系统邮件引擎


·mail.sh内容

其中 mail.py 内容到这里下载https://note.youdao.com/share/?id=dac98a142b86abba9b118e113969d4c4&type=note#/

mail.sh为的是做告警手收敛

log=$1
t_s=`date +%s`
t_s2=`date -d "2 hours ago" +%s`
if [ ! -f /tmp/$log ]
then
    echo $t_s2 > /tmp/$log
fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`
echo $t_s>>/tmp/$log
v=$[$t_s-$t_s2]
echo $v
if [ $v -gt 3600 ]
then
    ./mail.py  $1  $2  $3
    echo "0" > /tmp/$log.txt
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt
    fi
    nu=`cat /tmp/$log.txt`
    nu2=$[$nu+1]
    echo $nu2>/tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
        ./mail.py  $1 "trouble continue 10 min $2" "$3"
        echo "0" > /tmp/$log.txt
    fi
fi


理解:

第一次告警,之前没有告警过,没执行过mail.sh

t_s为现在时间,t_s2为目前时间前2小时,时间差为7200秒

那么如果$log(在mon.conf中定义的logfile)不存在,则把2小时前的时间戳写入到$log中,也就是7200

t_s2为7200,把t_s追加到$log中

差值t_s和t_s2差值v等于7200,大于3600,所有发邮件告警mail.py,并且计数 0 到 $log.txt中

第一次告警结束

mail.sh一分钟执行一次,第二次执行时

t_s2=`tail -1 /tmp/$log|awk '{print $1}'`会把t_s2=`date -d "2 hours ago" +%s`的值覆盖掉,因此

t_s2为1分钟前的时间,因为$log为1分钟前,然后在追加现在时间到$log

差值v是60,小于3600,不告警,直接计数

那么执行else,判断$log.txt是否存在,第二次执行时不存在,所有计数0到$log.txt中,结束判断

因此nu=0,nu2=1,把nu2也就是1计数写入到$log.txt中

判断nu2是否大于10,那么显然不大于10,直接结束判断,结束脚本

第三次执行时,跟第二次类似,只不过计数会变化,nu=1,nu2=2

以此类推,在最后一次告警10分钟后,nu=10,nu2=11>10,那么符合if [ $nu2 -gt 10 ]的判断,执行mail.py告警,并把计数器重新清为0

如果之后没有问题,不会执行mail.sh,如果有问题,每一分钟执行一次mail.sh,十分钟后如果问题没有解决,再发邮件告警





20.26 运行告警系统


把main.sh加入crontab,一分钟执行一次

[root@localhost shares]# crontab -e

* * * * * cd /usr/local/sbin/mon/bin;bash main.sh

[root@localhost bin]# sh -x main.sh
+ export send=1
+ send=1
++ grep -A1 'ens33: '
++ awk '/inet/ {print $2}'
++ /sbin/ifconfig
+ export addr=192.168.65.128
+ addr=192.168.65.128
++ pwd
+ dir=/usr/local/sbin/mon/bin
++ echo /usr/local/sbin/mon/bin
++ awk -F/ '{print $NF}'
+ last_dir=bin
+ '[' bin == bin ']'
+ conf_file=../conf/mon.conf
++ date '+%F %T'
+ echo '2018-04-23 22:23:48 load average'
2018-04-23 22:23:48 load average
+ /bin/bash ../shares/load.sh
22:23:48 load is 0
+ grep -q to_mon_502=1 ../conf/mon.conf
++ awk -F = '{print $2}'
++ sed 's/ //g'
++ grep logfile= ../conf/mon.conf
+ export log=/data/log/xxx.xxx.com/access.log
+ log=/data/log/xxx.xxx.com/access.log
+ /bin/bash ../shares/502.sh
grep: /data/log/xxx.xxx.com/access.log: No such file or directory
22:23:48 502 0


mail.sh 中的 $1,$2,$3 就是mail.py中的 to=sys.argv[1],subject=sys.argv[2],content=sys.argv[3]  三个参数,$1发送给谁,$2主题,$3内容


·如果load.sh有问题,那么它发告警,那么也是要带三个参数的,给谁发,主题,内容

(第三个参数也可以cat,把内容作为第三个参数)