Nagios监控Linux主机

 Nagios监控Linux主机(NRPE安装与应用)

 

本文参考网络上各路高手的文档整理而成,如有不对之处敬请留言!

一、NRPE简介及工作原理

NRPE是nagios的一个扩展,它被用于被监控的服务器上,向nagios监控平台提供该服务器的一些本地的情况。例如,cpu负载、内存使用、硬盘使用等等。NRPE可以称为nagios的for linux 客户端。

NRPE 由两个部分组成:工作在监控机一侧的check_nrpe 插件、工作在被监控机一侧的NRPE 守护进程。

Nagios 服务器执行check_nrpe 插件并告诉他检查哪个服务,check_nrpe 插件通过SSL 连接方式联系远程服务器上的NRPE 守护进程,NRPE 守护进程执行相应的插件完成指定的检查,并返回结果。

工作原理是:插件nrpe在被监控机上开启一个daemon,通过这个daemon来和监控主机建立一条ssl加密通道,通过这条通道来传送被监控机的本地信息,达到监控的目的。装在被监控机上的daemon就相当于一个nagios的传递员,命令行从nagios监控主机发出,然后daemon接受到信息,就会执行这条命令行,执行的方式,其实是和nagios主机是一样的,所以被监控机上也需要装一套nagios-plugins插件。例 如:nagios主机需要监控被监控机的硬盘信息,就会对被监控机发出一条命令说:“我要看你的硬盘信息。”被监控机nrpe的daemon接到这个命 令之后,就会运行一个插件,来检查被监控机本地硬盘的信息,然后插件把信息反馈到nrpe,nrpe通过ssl通道再把这些信息反馈到nagios主机。

如下图所示


二、NRPE安装

1、所需安装包nrpe、nagios-plugins,这两个包都可以从www.nagios.org上得到,本例为nrpe-2.12.tar.gz

2、安装opensslopenssl-devel;

yum install -y openssl

yum install -y openssl-devel

3、安装nrpe和nagios-plugins插件

1) 安装nagios-plugins,在安装时首先在被监控机上新建nagios用户及组。

① #groupadd nagios && useradd nagios -g nagios -M -r

② 安装nagios-plugins插件

    # tar zxvf nagios-plugins-1.4.15.tar.gz

    # cd ./nagios-plugins-1.4.15

    # ./configure --prefix=/usr/local/nagios

    # make && make install

③ 更改nagios文件夹所属用户和组
        # chown  -R nagios:nagios  /usr/local/nagios/

    # chown -R nagios.nagios /usr/local/nagios/libexec/

2) 安装nrpe插件

① 在被监控机上安装nrpe插件

        # tar zxvf nrpe-2.12.tar.gz

        # cd ./nrpe-2.12

        # ./configure

        # make all

        # make install-plugin   //安装check_nrpe插件,在被监控机上安装这个插仅仅是为了测试,而这个插件是nagios监控主机需要安装的,这个插件就是向nrpe的daemon发命令的工具。

        # make install-daemon   //安装daemon到被测试机,等待接受命令。

        # make install-daemon-config  //安装配置文件,所有的daemon所接受到得命令都必须通过这个配置文件才能和插件建立联系。

② 检查安装是否成功

安装好了,可以到/usr/local/nagios/下面检查一下,应该生成了4个目录:bin、etc、libexec、share。

③ 在监控机即nagios服务器上安装nrpe插件

    # tar xzf nrpe-2.8.1.tar.gz

    # cd nrpe-2.8.1

    # ./configure

    # make all

# make install-plugin

如果安装成功,就可以在/.../nagios/libexec 目录中找到 "check_nrpe"这个插件。
之后需要定义一个可以在监控平台使用的命令,这个定义一般会在/.../nagios/etc/commands.cfg中,其内容如下:

define command{

command_name check_nrpe

command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$

 }

3) 修改配置文件

修改配置文件,目的是让NRPE可以以守护进程的形式监听5666端口,为特定地址的nagios平台提供服务。在官方的NRPE文档中,详细说明了如何将 NRPE嵌入xinetd服务中,这里不做介绍。有些情况,我们的服务器上没有xinetd或者inetd这样的服务,那如何办呢?我在这里介绍一 种更加通用的方法。

首先,需要修改/usr/local/nagios/etc/nrpe.cof。找到“allowed_hosts=127.0.0.1”将其改为:allowed_hosts=127.0.0.1,$Nagios监控服务器的IP地址或域名

这个配置的作用是声明合法的nrpe服务对象,没有在这里声明的地址是无法从本机的NRPE获得服务的。“$Nagios监控服务器的IP地址或域名”可以是ip 地址,也可以是域名。在我环境中,nagios监控平台没有一个固定的公网ip,所以其他在公网上的服务器如果安装了NRPE的话,就只能通过动态域名来 辨别监控平台的地址。

4) 启动NRPE守护进程:(可以将此命令加入/etc/rc.local,以便开机自动启动)

# /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d

此命令生成的日志会在系统的日志(/var/log/message)中。如果没有出错,就基本搞定了。

5) 测试是否安装成功

在被监控机上:/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1

在监控机即nagios服务器上:/usr/local/nagios/libexec/check_nrpe -H $目标主机地址

正常的返回值为被监控服务器上安装的NRPE的版本信息:

[root@Linux227 ~]# /usr/local/nagios/libexec/check_nrpe -H 127.0.0.1

NRPE v2.12

如果看到这些,恭喜你,你的NRPE安装成功了。

 

三、NRPE的应用

通过NRPE,可以监控到哪些信息呢? 只要在被监控服务器上有的插件,都可以使用。即/usr/local/nagios/libexec中的所有插件。也就是说,你想监控什么,只要有对应的插件,就可以实现。需要监控什么信息,我们只需要修改被监控机下的nrpe.conf文件即可,插件信息如下图

1、监控远程Linux服务器上CPU负载

1) 在被监控机上的nrpe.conf添加如下命令

command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20

2) 在监控机上通过nrpe调用该命令

在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的CPU负载,如下:

define service{

       host_name                        Linux227

       use                               generic-service,srv-pnp

       service_description                cpu_load

       check_command                   check_nrpe!check_load

       register                            1

}

注:此服务中的check_load就是在被监控机的nrpe.conf中定义的check_load命令。

2、检查根分区的空间

1) 在被监控机上的nrpe.conf添加如下命令

command[check_root_partition]=/usr/local/nagios/libexec/check_disk  -w 30% -c 20% -p /

2) 在监控机上通过nrpe调用该命令

在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

define service{

       host_name                        Linux227

       use                               generic-service,srv-pnp

       service_description                Root Partition

       check_command                   check_nrpe!check_root_partition

       register                            1

}

3、检查系统内存情况

1) 下载内存监控脚本

https://github.com/justintime/nagios-plugins/zipball/master

2) 在被监控机上的nrpe.conf添加如下命令

command[check_memory]=/usr/local/nagios/libexec/check_memory.pl  -u -w 90 -c 95

3) 在监控机上通过nrpe调用该命令

在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

define service{

       host_name                        Linux227

       use                               generic-service,srv-pnp

       service_description                check memory

       check_command                   check_nrpe!check_memory

       register                            1

}

4、检查系统CPU情况

1) 下载CPU监控脚本

https://www.monitoringexchange.org/attachment/download/Check-Plugins/Operating-Systems/check_cpu-sh/check_cpu.sh

2) 在被监控机上的nrpe.conf添加如下命令

command[check_cpu]=/usr/local/nagios/libexec/check_cpu.sh

3) 在监控机上通过nrpe调用该命令

在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

define service{

       host_name                        Linux227

       use                               generic-service,srv-pnp

       service_description                check cpu

       check_command                   check_nrpe!check_cpu

       register                            1

}

5、检查系统运行时间

1) 下载监控脚本,并重命名为check_uptime.sh

https://www.monitoringexchange.org/attachment/download/Check-Plugins/Operating-Systems/check_uptime2/10-01-22_09-49-27_check_uptime

2) 在被监控机上的nrpe.conf添加如下命令

command[check_uptime]=/usr/local/nagios/libexec/check_uptime.sh -c 20 -w 60

3) 在监控机上通过nrpe调用该命令

在nagios监控服务器上定义一个远程监控服务,以调用上面定义命令进行监控远程Linux服务器的根分区空间情况,如下:

define service{

       host_name                        Linux227

       use                               generic-service,srv-pnp

       service_description                check uptime

       check_command                   check_nrpe!check_uptime

       register                            1

}

注:监控系统运行时间也可以借助系统命令uptime

# cp /usr/bin/uptime /usr/local/nagios/libexec/check_uptime

# chown nagios.nagios /usr/local/nagios/libexec/check_uptime

# chmod +x /usr/local/nagios/libexec/check_uptime

要监控其它的内容,可按两样的方法设置,介绍一个下载插件的好网站

https://www.monitoringexchange.org

你可能感兴趣的:(linux,职场,nagios,nrpe,休闲)