本文首发于烂泥行天下
在前两篇文章中,我们介绍了有关nagios的安装与配置,文章为《烂泥:学习Nagios(一):Nagios安装》、《烂泥:学习Nagios(二):Nagios配置》,这篇我们来介绍下NRPE的相关知识。
有关NRPE的介绍,我们主要分以下几个步骤:
1、 什么是NRPE
2、 NRPE的工作过程
3、 安装及配置NRPE
4、 通过NRPE监控主机
5、 给NRPE传递参数
6、 NRPE监控注意事项
一、什么是NRPE
NRPE是Nagios Remote Plugin Executor的简称,它是nagios的一个扩展工具,用在被监控主机上。通过它可以向nagios监控服务器提供该主机的一些本地信息。例如:cpu负载、内存使用情况、磁盘容量、登陆用户数、总进程数、僵尸进程数、swap分区使用情况等等。
注意:NRPE方式的监控,只能监控主机本地的信息,并不能监控数据库。
NRPE可以称为nagios的for linux客户端。而为什么要使用这个客户端呢?
有以下两个原因:
1、nagios只能监控自己所在的服务器,而对其他主机的监控则无能为力。毕竟没得到被监控主机的适当权限是不可能得到这些信息的。为了解决这个问题,我们就可以通过NRPE来完成对远程主机本地信息的监控。
2、在nagios的监控插件中,有一个名为check_ssh的插件,它也可以实现对远程主机本地信息的监控。但是,相对NRPE而言,check_ssh占用的系统资源就略多一点。监控少量的服务时可能还不会察觉,但是如果监控对象比较多的话,那么两者的差距就非常明显了。
同时还有一点要说明, 由于NRPE的监控过程并不需要远程主机上的系统账号信息以及不登录到系统中等操作,所以其安全性也就高于check_ssh的监控方式。
二、NRPE的工作过程
在上一章中,我们介绍了什么是NRPE,这一章我们来介绍下NRPE的工作过程。
NRPE总共由两部分组成:check_nrpe插件和NRPE daemon。
其中check_nrpe插件,存在于nagios监控服务器和被监控主机上。而NRPE daemon只运行在被监控主机上。
当nagios需要监控某个远程主机的服务或资源时,NRPE工作过程如下:
1、nagios监控服务器会运行本地check_nrpe插件,告诉它要检查哪些服务或资源。
2、nagios监控服务器上的check_nrpe插件会连接到远程主机上的NRPE daemon。
3、远程主机上的NRPE daemon会运行本地的各种nagios插件去监测本地的服务或资源。
4、NRPE daemon将检查的结果返回给nagios服务器上的check_nrpe插件,然后该插件再把结果送到nagios状态队列中。
5、nagios依次读取队列中的信息,最后把结果显示出来。
以上就是整个NRPE的工作过程,相关示意图如下:
三、安装及配置NRPE
在第二章中,我们介绍了NRPE的工作过程,通过介绍我们知道。要使nagios通过NRPE方式监控远程主机,我们需要在nagios服务器和被监控主机上都要安装NRPE,同时我们还需要在被监控的主机上安装nagios插件。
注意:被监控主机一定要安装nagios插件,否则NRPE daemon不能做任何监控。因为NRPE daemon监控的数据都是要通过nagios插件获得。
3.1 被监控主机安装NRPE
要在被监控的主机上安装NRPE,我们首先要在被监控主机上安装nagios插件,至于为什么要安装nagios插件,到下面我们讲解NRPE的配置文件时会进行介绍。下载nagios插件,如下:
wget http://nagios-plugins.org/download/nagios-plugins-2.0.3.tar.gz
3.1.1 创建NRPE用户
在所需要的软件包都下载完毕后,我们现在来创建NRPE daemon运行时所需要的用户。NRPE daemon运行默认使用nagios用户,所以我们先来创建该用户。如下:
useradd -M -s /sbin/nologin nagios
grep nagios /etc/passwd
3.1.2 安装nagios插件
现在我们开始安装nagios插件,nagios插件的安装很简单,按照平时安装软件的方法即可。如下:
tar -xf nagios-plugins-2.0.3.tar.gz
cd nagios-plugins-2.0.3
配置nagios插件,如下:
./configure
编译与安装nagios插件,如下:
make && make install
查看nagios插件安装后的目录,如下:
ll /usr/local/nagios/
查看所安装的插件,如下:
ll /usr/local/nagios/libexec/
通过上图,可以很明显的看出nagios插件中已经包含check_nrpe插件。
3.1.3 安装NRPE
nagios插件安装完毕后,我们现在来下载NRPE的软件包,如下:
http://exchange.nagios.org/directory/Addons/Monitoring-Agents/NRPE--2D-Nagios-Remote-Plugin-Executor/detail
http://sourceforge.net/projects/nagios/files/nrpe-2.x/
wget http://sourceforge.net/projects/nagios/files/nrpe-2.x/nrpe-2.15/nrpe-2.15.tar.gz
NRPE软件包下载完毕后,我们现在开始安装NRPE,如下:
tar -xf nrpe-2.15.tar.gz
cd nrpe-2.15
配置NRPE,如下:
./configure --enable-command-args
注意:--enable-command-args参数很重要,如果要给NRPE传递参数的话,在安装配置NRPE时一定要加上该参数。
编译NRPE,如下:
make all
安装NRPE插件check_nrpe,如下:
make install-plugin
通过上图,我们可以很明显的看到check_nrep已经安装到/usr/local/nagios/libexec/目录下。
安装NRPE命令,如下:
make install-daemon
安装NRPE配置文件,如下:
make install-daemon-config
有关NRPE的具体安装步骤,在NRPE软件包的doc目录下也是有安装文档的。如下:
3.2 在nagios服务器上安装NRPE
在nagios服务器上安装NRPE和在被监控主机上安装差不多,只是步骤没有在被监控主机上安装多而已。
下载nrpe插件,如下:
wget http://sourceforge.net/projects/nagios/files/nrpe-2.x/nrpe-2.15/nrpe-2.15.tar.gz
解压NRPE软件包,如下:
tar -xf nrpe-2.15.tar.gz
cd nrpe-2.15
配置NRPE,如下:
./configure
编译NRPE,如下:
make all
安装NRPE插件check_nrpe,如下:
make install-plugin
查看check_nrpe插件,如下:
ll /usr/local/nagios/libexec/ |grep check_nrpe
注意:如果不想在nagios服务器上安装NRPE插件的话,我们也可以从已经安装好NRPE插件的被监控主机上,把/usr/local/nagios/libexec目录下的check_nrpe文件复制一份到nagios服务器的/usr/local/nagios/libexec目录下,然后修改其用户属性为nagios用户,同时赋予其执行权限即可。
以后自己写的监控脚本,可以通过这种方式上传到nagios的插件目录。
NRPE安装完毕后,我们来测试下check_nrpe插件。如下:
/usr/local/nagios/libexec/check_nrpe -H 192.168.1.248
通过上图,我们可以很明显的看出, nagios服务器上的check_nrpe已经被正常安装,同时被监控主机192.168.1.248上的NRPE也已经正常工作,并且NRPE的版本号为2.15。这个和我们通过check_nrpe插件得到版本号是一致的。
3.3 NRPE帮助命令
NRPE命令的使用方式,我们可以通过查看其帮助得到。如下:
/usr/local/nagios/bin/nrpe –h
通过查看NRPE的帮助命令,我们知道NRPE运行的方法,如下:
nrpe -c NRPE配置文件路径 运行模式
注意:NRPE命令只存在被监控主机上。
NRPE相关参数说明,如下:
-n表示不使用SSL方式传输数据,默认使用SSL方式传输数据。
-i以超级守护进程inetd或xinetd方式运行NRPE,要通过这种方式运行的话还要安装和配置xinetd,一般不用。
-d独立守护进程方式运行NRPE,一般常用这种运行方式。
3.4 NRPE配置文件
在启动NRPE之前,我们来看看NRPE的配置文件nrpe.cfg。该文件默认在/usr/local/nagios/etc/目录下。如下:
ll /usr/local/nagios/etc/
现在我们来编辑该文件,如下:
egrep -v "^#|^$" /usr/local/nagios/etc/nrpe.cfg
pid_file=/var/run/nrpe.pid 定义NRPE的PID文件。
server_port=5666定义NRPE daemon使用的端口。
nrpe_user=nagios nrpe_group=nagios
定义NRPE运行时,所使用的用户及用户组,默认为nagios用户及nagios用户组。
allowed_hosts=127.0.0.1
定义允许连接到该主机的nagios服务器。如果是多个服务器的话,可以使用逗号隔开。如果是允许一个网段的话,格式如下:192.168.1.0/24。
command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
定义NRPE执行check_users命令时,所要运行的扩展插件命令。
注意:根据以上格式,我们可以看出NRPE在执行相关命令时,是要先执行本地的nagios插件,然后把执行的结果反馈给NRPE。
这个也就是为什么我们要在NRPE上安装nagios插件的原因。
在此NRPE给出一些列子,用于监控本地主机。如下:
command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20
command[check_hda1]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/hda1
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200
以上就是NRPE默认扩展插件命令,这是非常至关重要的地方。当被监控主机运行NRPE守护进程时,同时就运行这些在NRPE配置文件中定义的NRPE扩展插件命令。
并且通过上述例子,我们可以很明显的看出这些扩展命令都已经指定了好了命令名、插件路径以及选项参数。格式如下:
command[NRPE命令名]=插件路径/插件 选项1 参数1 选项2 参数2 ...
注意:如果要指定该被监控主机需要被监控的服务的话,就必须在这里都配置好NRPE命令并运行在NRPE守护进程里。如果这里没有配置的NRPE命令的话,那么nagios服务器是无法监控到的。
当然以上命令格式,nrpe.cfg配置文件也给出了使用格式,如下:
command[
3.5 启动并查看NRPE端口
NRPE安装完毕后,我们切换到被监控主机上来启动NRPE,如下:
/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
ps aux|grep nrpe
查看NRPE的端口,如下:
netstat -tunlp |grep nrpe
通过上图,我们很明显的看到NRPE使用的是TCP的5666端口。
四、通过NRPE监控主机
NRPE在被监控主机和nagios服务器安装完毕后,我们就可以通过NRPE监控主机了。
但是在正式开始监控之前,我们还需要做几点工作。
注意:以下所有的操作都是nagios服务器上完成。
4.1 定义check_nrpe命令
要使用NRPE监控主机,我们需要把check_nrpe命令在commands.cfg文件中进行定义。如下:
vi /usr/local/nagios/etc/objects/commands.cfg
define command{
command_name check_nrpe
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ }
注意:
command_name check_nrpe表示定义一个名叫check_nrpe的命令,以后我们要使用的话就可以通过use直接引用该命令。
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
表示要执行的命令,其中-c后面只能接被监控主机nrpe.cfg中定义的命令名称,$ARG1$就是表示被监控主机nrpe.cfg中定义的命令。例如:
4.2 自定义引用的host和service
在check_nrpe命令定义完毕后,我们还需再来定义一个host和service模版在templates.cfg文件中,用于以后的主机和服务的引用。
当然,这个定义我们也可以不在templates.cfg中进行,可以再单独定义一个cfg文件,但是这个单独的cfg文件需要在nagios.cfg文件中引用才能正常使用。
除此之外,如果我们不想自定义host的话,也可以直接使用templates.cfg文件中已经定义好的host。
注意:在nagios中已经定义好的host、service等其他对象,都是可以通过use命令被直接引用的。
在此我们定义一个host和service,先来定义一个名称为ilannihost 的host,如下:
vi /usr/local/nagios/etc/objects/templates.cfg
define host{
name ilannihost
use generic-host
check_period 24x7
check_interval 5
retry_interval 1
max_check_attempts 10
check_command check-host-alive
notification_period workhours
notification_interval 120
notification_options d,u,r
contact_groups admins
register 0
}
其中:
name ilannihost表示该定义host的名称为ilannihost。
use generic-host表示引用generic-host这个定义的host。而generic-host这个host的定义也是在templates.cfg文件中进行定义的。如下:
host定义完毕后,我们再来定义service。定义一个名称为ilanniservice的service,如下:
vi /usr/local/nagios/etc/objects/templates.cfg
define service{
name ilanniservice
use generic-service
max_check_attempts 4
normal_check_interval 5
retry_check_interval 1
register 0
}
其中:
name ilanniservice表示该定义service的名称为ilanniservice。
use generic-service表示引用generic-service这个定义的service。而generic-service这个servic的定义也是在templates.cfg文件中进行定义的。如下:
4.3 配置需要监控的主机
以上有关check_nrpe、host及service定义完毕后,我们现在开始配置需要监控的主机。
为了能更好的和实际生产环境接近,在此我们不是先一个一个的添加需要监控的主机,然后在nagios.cfg文件中引用的,而是通过修改nagios.cfg文件把所所有的主机cfg文件存放到同一个目录下,来达到引用的目的。如下:
mkdir /usr/local/nagios/etc/ilanni
vi /usr/local/nagios/etc/nagios.cfg
cfg_dir=/usr/local/nagios/etc/ilanni
现在我们来添加一台需要监控的主机,在/usr/local/nagios/etc/ilanni目录下新建一个cfg文件,并填写相关内容。如下:
vi /usr/local/nagios/etc/ilanni/248.cfg
define host{
use ilannihost
host_name ilanni
alias test_NRPE
address 192.168.1.248
check_command check-host-alive
}
define service{
use ilanniservice
host_name ilanni
service_description nrpe_load
check_command check_nrpe!check_load
}
注意:
host_name要在整个nagios中是唯一的,不能有和其相同的host_name,否则nagios会报错。
check_command check_nrpe!check_load
其中的check_nrpe就是我们在commands.cfg文件中定义的check_nrpe命令,!check_load对应该命令中的$ARG1$参数。
所以该配置文件在nagios服务器上先执行的命令是:/usr/local/nagios/libexec/check_nrpe -H 192.168.1.248 -c check_load。
该命令执行完毕后,nagios服务器上的check_nrpe插件就会调用被监控主机上的NRPE daemon。
被监控主机上的NRPE daemon会调用本机的check_load命令,而check_load命令会调用本机的nagios插件check_load,所以在被监控主机上最后的执行命令是:/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20。该命令执行完毕后,再把结果反馈到nagios服务器上。
主机配置文件修改好后,我们现在来通过nagios命令检查下该配置文件是否有问题,如下:
/usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
如果感觉这种方法检查配置文件比较麻烦的话,我们也可以通过执行nagios的启动脚本,来达到目的。如下:
/etc/init.d/nagios configtest
通过上图,我们很明显的看到nagios的所以配置文件都是没有问题的。
4.4 查看监控的主机
nagios的配置文件没有问题,我们现在来启动nagios,查看我们刚刚新加的主机。如下:
/etc/init.d/nagios start
nagios正常启动后,我们现在登录到web界面查看下刚刚新增加的主机,如下:
通过上面两张图片,我们可以很明显的看到刚刚新增加的主机ilanni已经被正常监控。
五、给NRPE传递参数
通过上面的实验,我们已经成功的通过NRPE命令监控主机。但是还有一点不足的情况,就是我们对监控对象的阀值修改很不容易。现在的情况是,每一次修改阀值都要到被监控主机上修改,很不方便。
其实,我们完全可以通过传递参数的形式来达到修改不同监控主机的阀值。
但是要实现以上要求,我们需要在被监控主机和nagios服务器上进行配置。
5.1 被监控主机配置
第一、在安装配置NRPE时,必须要加上参数--enable-command-args,这个我们在前面安装配置NRPE时已经加上。如下:
注意:如果在安装配置NRPE时,没有加上--enable-command-args参数,那么需要把已经安装好的NRPE删除掉重新安装。这一点非常重要。
第二、修改nrpe.cfg文件中参数dont_blame_nrpe=1。如下:
以上两处修改完毕后,我们现在来开始进行配置一个测监控对象。
修改nrpe.cfg文件,去掉check_disk前的注释,并把其命名为check_disk_nrpe,如下:
vi /usr/local/nagios/etc/nrpe.cfg +234
其中+234表示显示第234行。
command[check_disk_nrpe]=/usr/local/nagios/libexec/check_disk -w $ARG1$ -c $ARG2$ -p $ARG3$
注意:该check_disk_nrpe命令中$ARG1$、$ARG2$、$ARG3$参数。等会我们在nagios服务器上传递的参数,就是这个进行一一对应。
注意:修改nrpe.cfg文件后,一定要重新启动NREP daemon。如下:
pkill nrpe
/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
netstat -tunlp |grep nrpe
5.2 nagios服务器配置
在被监控主机上修改完毕后,我们现在切换nagios服务器上进行配置。
在command.cfg文件中定义一个名为check_disk_ilanni命令,如下:
define command{
command_name check_disk_ilanni
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -a $ARG2$ $ARG3$ $ARG4$
}
注意:
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$ -a $ARG2$ $ARG3$ $ARG4$
命令中$ARG1$参数接收的是被监控主机nrpe.cfg文件中定义的监控命令,在此我们是以check_disk_nrpe命令为例的。
-a表示接收额外的参数,其中$ARG2$参数对应被监控主机check_disk_nrpe命令中的$ARG1$参数,$ARG3$参数对应被监控主机check_disk_nrpe命令中的$ARG2$参数,$ARG4$参数对应被监控主机check_disk_nrpe命令中的$ARG3$参数。
为了更能形象的说明问题,特意画了一张图:
以上定义完毕后,我们现在修改248.cfg文件为192.168.1.248主机定义此服务。内容如下:
define service{
use local-service,srv-pnp
host_name ilanni
service_description DISK
check_command check_disk_ilanni!check_disk_nrpe!10%!5%!/tmp
}
check_command check_disk_ilanni!check_disk_nrpe!10%!5%!/tmp
表示监控192.168.1.248主机的/tmp分区,当该分区剩余10%时,就发出报警,当该分区剩余5%时,就发出紧急告警。
248.cfg文件配置完毕后,我们再来重新加载nagios程序,如下:
/etc/init.d/nagios reload
现在登录到nagios上看看,实际的监控情况。如下:
通过上图,我们可以很明显的看出,我们通过248.cfg的文件传递的参数已经成功的传递到被监控主机192.168.1.248上,并且也获得了正确的数据。
六、NRPE监控注意事项
1、通过NRPE方式监控,如果要修改nagios监控的相关阀值,必须在被监控主机的nrpe.cfg文件中扩展命令中修改。
2、通过NRPE方式监控,如果要新增nagios监控的对象时,必须要先在被监控主机的nrpe.cfg文件中定义。
3、NRPE daemon是在被监控主机上运行的。