针对监控Linux主机常见的报警错误修复方法:
(1.nagios服务器监控linux报警NRPE: Command 'check_swap' not defined错误:
分析原因:由监控原理可知被监控端做监控然后传给监控服务器绘总,设置监控详细参数主要是设置被监控端的nrpe.cfg文件,如果nagios服务器想要监控客户机swap分区,但客户机nrpe.cfg文件没有swap监控对像,这时监控服务器就是报错(NRPE command ‘check_swap’no defined).
修复方法:首先查看被监控主机的/usr/local/nagios/etc/nrpe.cfg文件看是否有定义如下的命令: command[check_swap]=/usr/local/nagios/libexec/check_swap -w 20 % -c10%
如果没有定义就添加此命令到/usr/local/nagios/etc/nrpe.cfg文件中之后在被控端Linux主机重启xinetd服务
service xinetd restart 并重启下nrpe服务/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg �Cd
之后在被监控Linux主机查看是否存在5666端口(nrpe的默认端口)
netstat -an | grep 5666
tcp 0 0 0.0.0.0:5666 0.0.0.0:* LISTEN
如果存在则说明nrpe服务正常。之后再次查看nagios监控图即可发现问题已经解决变为ok状态。
(2.nagios服务器监控Linux报警NRPE: Command 'check_uses' not defined错误:
分析原因:首先查看被监控Linux主机的nrpe.cfg配置文件看是否将此行命令中的users写成了uses : command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
如果写错了改成users。之后在nagios监控服务器上Vim /usr/local/nagios/etc/objects/mylinux.cfg看是否将其中的users写成了uses如果写错更改为users(其中mylinux.cfg文件是你自己定义的为了监控linux主机服务的一个文件。)
define service{
use generic-service
host_name mylinux
service_description check-users
check_command check_nrpe!check_users
}
之后在nagios服务器重启nagios服务,xined服务,并在被监控端Linux主机重启nrpe,xinetd,nagios服务。
(3.nagios监控Linux主机报警错误信息:check_users:Warning threshold must be a positive integer
解决方式:修改被监控Linux主机的/usr/local/nagios/etc/nrpe.cfg中将dont_blame_nrpe=1改为dont_blame_nrpe=0(默认即为0)之后看如下命令前面是否有#号存在如果没有加上#号将以下的命令注释掉:
#command[check_users]=/usr/local/nagios/libexec/check_users -w $ARG1$ -c $ARG2$
#command[check_load]=/usr/local/nagios/libexec/check_load -w $ARG1$ -c $ARG2$
#command[check_disk]=/usr/local/nagios/libexec/check_disk -w $ARG1$ -c $ARG2$ -p $ARG3$
#command[check_procs]=/usr/local/nagios/libexec/check_procs -w $ARG1$ -c $ARG2$ -s $ARG3$
之后在被控Linux主机重启xinetd,nrpe服务即可。
(4.nagios监控Linux主机报警错误信息:NRPE: Command 'check_disk' not defined
解决方式:查看nagios监控服务器上的/usr/local/nagios/etc/objects/mylinux.cfg的mylinux.cfg文件(其中mylinux.cfg文件是你自己定义的为了监控linux主机服务的一个文件。)看其中的关于
define service{
use generic-service
host_name mylinux
service_description check-disk
check_command check_nrpe!check_disk
中的check_command参数是否和被监控Linux主机的nrpe.cfg文件中是否正确定义此命令:command[check_disk]=/usr/local/nagios/libexec/check_disk -w 20% -c 10%
如果没有加上此命令。之后在被控主机重启xinetd,nrpe服务即可。
(5.nagios监控Linux主机报警错误信息:PROCS WARNING: 274 processes
分析原因:可能是被控Linux端的开启的进程数超过了nrpe.cfg文件中定义的进程数:
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 300
比如被控端Linux进程超过了150也就符合了-w 150所以就会报警warning