check_openmange 安装与使用


客户端 1,下载Openmange的版本软件:

cd /opt/ wget http:/support.dell.com (这里是网上的地址) mon02-001 /opt/DELL/dell 下面有 OM_6.1.0_ManNode_A00.tar 把这个下载下来

tar zxvf omsa...*.tgz

sh ./setup.sh

有三次选择,

  输入y, 表示接受协议,

  输入6,表示选择全部组件,

  输入i,    表示安装所选择

  安装时提示安装的路径,选择默认路径的就行(/opt/dell/srvadmin/)   建议自己定义下目录位置  /usr/local/openmanage

以下是我安装的时候出现的错误(仅供参考)出错有:

    1. libstdc++.so.5 找不到

安装:compat-libstdc 相关版本的软件就好

    2.libcurl.so.3 找不到

安装curl 就OK 了

我们现在做的是用client 端和服务端都在一起

wget http://folk.uio.no/trondham/software/files/check_openmanage-3.6.5.tar.gz (mon02-001 /opt/DELL 有这个包)

tar zxvf check_openmanage-3.6.5.tar.gz

cp /tar包/check_openmanage 这个Perl 脚本 放到/usr/local/nagios/libexec 里面

client 端 :定义 nrpe.cfg

vi /usr/local/nagios/etc/nrpe.cfg

add 增加一行

command[check_dell_hardware]=/usr/local/nagios/libexec/check_openmanage -e --only critical

保存下。

运行 /usr/local/nagios/libexec/check_openmanage -e --only critical 看是否有返回值。如果返回都OK ,客户端设置完毕。


以下设置服务端:


server 端里定义service:

define service {

   use                        saa-service
   host_name                  localhost
   service_description        check_hardware
   check_command              check_nrpe!check_dell_hardware

}

其中的localhost 根据监控的机器变动主机名。

检测监控是否成功:

服务端/usr/local/nagios/libexec/check_nrpe -H hostIP -c check_dell_hardware

如果有问题检测 NRPE 是否正常。


下面的用SNMP 安装服务端

    服务端

安装: 1,安装相关Perl-snmp软件包

  perl-Crypt-DES-2.05-3.2.el5.rf.i386.rpm
  perl-Digest-HMAC-1.01-2.2.el5.rf.noarch.rpm
  perl-Digest-SHA1-2.12-2.el5.rf.i386.rpm
  perl-Net-SNMP-5.2.0-1.2.el5.rf.noarch.rpm
  perl-Socket6-0.23-1.el5.rf.i386.rpm
  安装顺序安装其他包,最后安装perl-Net-SNMP-5.2.0-1.2.el5.rf.noarch.rpm

下载check_openmanage 插件 (http://folk.uio.no/trondham/software/check_openmanage.html#download) 根据系统的不同,下载不同的软件。

wget http://folk.uio.no/trondham/software/files/check_openmanage-3.6.5.tar.gz

wget http://folk.uio.no/trondham/software/files/nagios-plugins-check-openmanage-3.6.5-1.el5.x86_64.rpm

上面是简单的安装,有些地方是直接复制别人的。 安装没什么花头的,所以看下应该都能会。

下面的是使用,一些参数的剪辑。

  • check_openmanage -s 显示详细的服务状态报警 check_openmanage -S 显示简短的服务状态报警 (也就是critcal 简写成C)
  • check_openmanage -i 以服务编号为前缀的服务状态报警

例:[JV8KH0J] Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date

  • check_openmanage -e 显示机器的类型和报警信息(以单线为区分号 显示机器的系统 机型 服务号 )

例:Power Supply 0 [AC]: Presence Detected, Failure Detected, AC Lost Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date

  ------ SYSTEM: PowerEdge 1950, SN: JV8KH0J
  • check_openmanage --postmsg 'NOTE: Service tag: %s - Dell support: 800-8888-8888' 根据参数 --postmsg 可以自定义提示信息。

Power Supply 0 [AC]: Presence Detected, Failure Detected, AC Lost Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date NOTE: Service tag: JV8KH0J - Dell support: 800-8888-8888

    1. 其中 %s 是系统内部的变量调用,以下是所有的内部变量

%m System model 机器型号

%s Service tag 服务编号

%b BIOS version bios 版本

%d BIOS release date Bios 发布日期

%o Operating system name 系统名称

%r Operating system release 操作系统的版本

%p Number of physical drives 物理驱动器数

%l Number of logical drives 逻辑驱动器数

%n Line break 换行符

%% A literal % 一个文字%

以上报警信息 可以多参数一起使用。例如: check_openmanage -i -s

  • check_openmanage -o 默认情况下,输出的OK 信息为一行,我们可以控制的,可以输入check_openmanage -o 3 显示3行,并且显示一些硬件的底层。
  • check_openmanage -H localhost -b ctrl_driver=all -b pdisk=1:0:0:1 -B Openmanage 可以控制黑名单,通俗的说也就是无关泾要的监控,使用参数 -b 可以添加不要监控的项,但是等黑名单多了的时候,我们就无法知道到底什么被去掉了,这个时候 在后面加个 -B =(show-blacklist) 显示被黑的名单。。
  • check_openmanage -d 显示软件运行后的debug信息。 (这个是我们人工手动调试的时候用的,在nagios 里面不要使用这个选项)

 

    • 自定义温度阀值

omreport 这是装好openmanage 的自检程序

omreport chassis temps 显示机器的温度

check_openmanage -H myhost --only temp -d 这是check_openmanage 的调试 ,显示机器的温度,我们可以定义阀值报警的。

check_openmanage -w 0=30 -c 0=40 更改温度报警阀值

check_openmanage -w 0=30/15 -c 0=40/10 这个表示15分钟 如果温度大于30,warning,10分钟大于40,critcal. 这个可以自己更具需要更改时间写

 

 添加黑名单

当一些不重要的信息我们不想看到的时候,我们可以根据 -b 来调试。

例如:

check_openmanage -s -b ctrl_driver=0,1 不检测 Controller 的驱动问题。 如果所有的Controller驱动都不需要监控 可以使用ctrl_driver=all

以下是设备的代号(缩写):

check_openmange 安装与使用_第1张图片


=======================

==- 利用--check 来检测单个项目 0表示关闭,1表示开启

check_openmanage --check storage=0,esmlog=1 关闭检测存储,查看esmlog 信息

我们也可以定义一个文件,然后用--check 来执行文件里面定义的check 项目(方便我们每次的重复操作) vi /tmp/check_openmanage.check storage=0,esmlog=1

check_openmanage --check /tmp/check_openmanage.check

==- 利用--only 来监控指定项目

check_openmanage --only storage 只检查 存储,其他的任何的都不监控

以下是Only 的一些参数


 

== 如果想check 所有, check_openmanage -a 就check 所有了。

最后就是结合 PNP4Nagios 用图片显示信息。

 

注:

本人在装的时候发现一个比较严重的问题:

Openmange 这个软件不要重复的在服务器上卸载,安装,这样的话会导致多出很多进程,每装一次 他们会生成3个为一组的进程例如以下:

root     30672  0.0  0.0  21688  1056 ?        S    Jun08   0:00  \_ hald-runner
68       30680  0.0  0.0  12320   848 ?        S    Jun08   0:00      \_ hald-addon-acpi: listening on acpid socket /var/run/acpid.socket
68       30693  0.0  0.0  12320   844 ?        S    Jun08   0:00      \_ hald-addon-keyboard: listening on /dev/input/event0
 

而且你卸载这个软件过后,这个进程是不会Kill 掉的,只有人工手动kill, 还有这个进程多了很多以后占用CPU 资源很多, 每十分钟CPU LOAD 有个波动。 我们公司的app 服务器就是因为装了这个  load 会每十分钟波动一次,从1波动到20, 然后马上下降,所以大家一定要注意,不要在生产环境中重复的安装和卸载。

其他的方面没什么问题,软件还是蛮好用的,可以结合nagios 和 zabbix  实现硬件监控。

 

 

 

 

 

 

 

 

你可能感兴趣的:(职场,nagios,休闲,openmanage,监控硬件)