nagios被动检测

最近发现nagios主动检测有个不好的地方,就是权限的问题,不好控制,每次得有太多设置。而且对于类似想看下备份有没有成功之类的,用主动检测有很多不好的地方。这时候被动检测就派上用场了,

被动检测用来监控磁盘只读、是否备份成功等都是比较方便的。其实应该说被动检测是发挥自己编写插件的最好方式,所有监控的方式都使用被动检测,配置应该最方便了。

1: 先上一个被动检测的脚本,nagios这边叫做被动检测。其实在被监控的机器上应该叫做主动上报信息

#!/bin/sh
Host=192.168.0.2
Check_Desc="Check Disk Read Only"
OK=0
CRITICAL=2
houzhui=`date "+%Y%m%d"`
df -h|awk '{print $NF}'|grep '^/'|sort -u|while read line;do
    echo "nagios_test" > ${line}/nagios_test_${houzhui}
    if [ $? -ne 0 ];then
        echo "${Host};${Check_Desc};${CRITICAL};CRITICAL. ${line} read only|result=-1"|send_nsca -H 192.168.0.1 -d ";" -c /etc/nagios/send_nsca.cfg
        exit 1
    fi
    rm ${line}/nagios_test_${houzhui}
done
if [ $? -eq 0 ];then
    echo "${Host};${Check_Desc};${OK};OK. all disk is checked ok |result=0"|send_nsca -H 192.168.0.1 -d ";" -c /etc/nagios/send_nsca.cfg
fi
  • 这里假设nagios的ip是192.168.0.1。被监控的机器的ip是192.168.0.2。

  • 被动检测的话,被监控机器需要向nagios汇报的内容有:主机名称,监控项名称,四个返回值,显示在nagios网页的信息。

  • 主机名称:类似192.168.0.2,web_0_2。监控项名称:check_disk_read_only,check backup mysql。四个返回值:OK(0),WARNING(1),CRITICAL(2),UNKNOWN(3)。输出信息:自定义输入。

  • 使用send_nsca发送信息,send_nsca可以使用epel源安装nsca-client即可。yum install epel-release -y 。 yum install nsca-client -y。配置只需要改下/etc/nagios/send_nsca.conf的password


2: nagios监控端的nsca配置文件,需要配置服务器的ip和监听的端口(默认5667)。只需要配置一次

    server_port=5667

    server_address=192.168.0.1

    password=xxxx  ; 跟上面的password配置要对应上。不然信息无法接收。

    /etc/init.d/nsca restart启动nsca服务

3: nagios监控端的命令配置,只需要配置一次

    define command {

            command_name                    check_dummy

            command_line                    $USER1$/check_dummy $ARG1$

    }

4: nagios检测项目的配置

    define service{

            use passive-web-service

            host_name 192.168.0.2

            service_description Check Disk Read Only

            check_command check_dummy

    }

  • host_name和第一个说的${Host}要一致。service_description和第一个说的${Check_Desc}要一致。

  • check_dummy现在个人理解起来应该就是用来解析的,并且在网页上呈现。

5: nagios模板的配置文件如下

    define service{

            name                            passive-web-service

            active_checks_enabled           0

            passive_checks_enabled          1

            parallelize_check               1

            obsess_over_service             1

            check_freshness                 1     ;如果没接收到信息,则服务端主动刷新。

            freshness_threshold             120    ; 120s后就主动刷新了。

            notifications_enabled           1

            event_handler_enabled           1

            flap_detection_enabled          1

            process_perf_data               1

            retain_status_information       1

            retain_nonstatus_information    1

            is_volatile                     0

            check_period                    24x7

            max_check_attempts              3

            normal_check_interval           3

            retry_check_interval            2

            contact_groups                  web

            notification_options            w,u,c,r

            notification_interval           0

            notification_period             24x7

            register                        0

            }

  • 这个模板,一来不去主动探测,二来就是如果一定时间内接收不到信息,则主动刷新。

  • 120s主动刷新是在模板上配置的,对于监控的频率,我们可以自己设置。如果一天只汇报一次,就设置为86400。


基本上被动检测的配置就如上,被动检测个人感觉好处如下:

    1: nagios用户权限太小,不好去做的事,可以用被动检测。

    2: 在写备份脚本的时候,有时候突然想检测一下成功不,可以向nagios汇报下。不然实现方便就得成功发个邮件,不成功也发个邮件,太麻烦了。有些人会说成功可以不发邮件啊,但万一你备份的脚本被删除了,那你会一直认为是成功的,其实已经没在跑了。

    3: 另外,对于编写程序比较厉害的人,可以写个脚本,去检测一翻,如果成功则向上汇报All ok。如果有个不成功,可以在信息上echo出来,可以减少监控的选项。

你可能感兴趣的:(nsca,磁盘只读告警,nagios被动检测,nsca-client)