客户端 1,下载Openmange的版本软件:
cd /opt/ wget http:/support.dell.com (这里是网上的地址) mon02-001 /opt/DELL/dell 下面有 OM_6.1.0_ManNode_A00.tar 把这个下载下来
tar zxvf omsa...*.tgz
sh ./setup.sh
有三次选择,
输入y, 表示接受协议,
输入6,表示选择全部组件,
输入i, 表示安装所选择
安装时提示安装的路径,选择默认路径的就行(/opt/dell/srvadmin/) 建议自己定义下目录位置 /usr/local/openmanage
以下是我安装的时候出现的错误(仅供参考)出错有:
1. libstdc++.so.5 找不到
安装:compat-libstdc 相关版本的软件就好
2.libcurl.so.3 找不到
安装curl 就OK 了
我们现在做的是用client 端和服务端都在一起
wget http://folk.uio.no/trondham/software/files/check_openmanage-3.6.5.tar.gz (mon02-001 /opt/DELL 有这个包)
tar zxvf check_openmanage-3.6.5.tar.gz
cp /tar包/check_openmanage 这个Perl 脚本 放到/usr/local/nagios/libexec 里面
client 端 :定义 nrpe.cfg
vi /usr/local/nagios/etc/nrpe.cfg
add 增加一行
command[check_dell_hardware]=/usr/local/nagios/libexec/check_openmanage -e --only critical
保存下。
运行 /usr/local/nagios/libexec/check_openmanage -e --only critical 看是否有返回值。如果返回都OK ,客户端设置完毕。
以下设置服务端:
server 端里定义service:
define service {
use saa-service
host_name localhost
service_description check_hardware
check_command check_nrpe!check_dell_hardware
}
其中的localhost 根据监控的机器变动主机名。
检测监控是否成功:
服务端/usr/local/nagios/libexec/check_nrpe -H hostIP -c check_dell_hardware
如果有问题检测 NRPE 是否正常。
下面的用SNMP 安装服务端
服务端
安装: 1,安装相关Perl-snmp软件包
perl-Crypt-DES-2.05-3.2.el5.rf.i386.rpm
perl-Digest-HMAC-1.01-2.2.el5.rf.noarch.rpm
perl-Digest-SHA1-2.12-2.el5.rf.i386.rpm
perl-Net-SNMP-5.2.0-1.2.el5.rf.noarch.rpm
perl-Socket6-0.23-1.el5.rf.i386.rpm
安装顺序安装其他包,最后安装perl-Net-SNMP-5.2.0-1.2.el5.rf.noarch.rpm
下载check_openmanage 插件 (http://folk.uio.no/trondham/software/check_openmanage.html#download) 根据系统的不同,下载不同的软件。
wget http://folk.uio.no/trondham/software/files/check_openmanage-3.6.5.tar.gz
wget http://folk.uio.no/trondham/software/files/nagios-plugins-check-openmanage-3.6.5-1.el5.x86_64.rpm
上面是简单的安装,有些地方是直接复制别人的。 安装没什么花头的,所以看下应该都能会。
下面的是使用,一些参数的剪辑。
例:[JV8KH0J] Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date
例:Power Supply 0 [AC]: Presence Detected, Failure Detected, AC Lost Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date
------ SYSTEM: PowerEdge 1950, SN: JV8KH0J
Power Supply 0 [AC]: Presence Detected, Failure Detected, AC Lost Controller 0 [PERC 6/i Integrated]: Driver '00.00.03.15-RH1' is out of date NOTE: Service tag: JV8KH0J - Dell support: 800-8888-8888
%m System model 机器型号
%s Service tag 服务编号
%b BIOS version bios 版本
%d BIOS release date Bios 发布日期
%o Operating system name 系统名称
%r Operating system release 操作系统的版本
%p Number of physical drives 物理驱动器数
%l Number of logical drives 逻辑驱动器数
%n Line break 换行符
%% A literal % 一个文字%
以上报警信息 可以多参数一起使用。例如: check_openmanage -i -s
omreport 这是装好openmanage 的自检程序
omreport chassis temps 显示机器的温度
check_openmanage -H myhost --only temp -d 这是check_openmanage 的调试 ,显示机器的温度,我们可以定义阀值报警的。
check_openmanage -w 0=30 -c 0=40 更改温度报警阀值
check_openmanage -w 0=30/15 -c 0=40/10 这个表示15分钟 如果温度大于30,warning,10分钟大于40,critcal. 这个可以自己更具需要更改时间写
添加黑名单
当一些不重要的信息我们不想看到的时候,我们可以根据 -b 来调试。
例如:
check_openmanage -s -b ctrl_driver=0,1 不检测 Controller 的驱动问题。 如果所有的Controller驱动都不需要监控 可以使用ctrl_driver=all
以下是设备的代号(缩写):
=======================
==- 利用--check 来检测单个项目 0表示关闭,1表示开启
check_openmanage --check storage=0,esmlog=1 关闭检测存储,查看esmlog 信息
我们也可以定义一个文件,然后用--check 来执行文件里面定义的check 项目(方便我们每次的重复操作) vi /tmp/check_openmanage.check storage=0,esmlog=1
check_openmanage --check /tmp/check_openmanage.check
==- 利用--only 来监控指定项目
check_openmanage --only storage 只检查 存储,其他的任何的都不监控
以下是Only 的一些参数
== 如果想check 所有, check_openmanage -a 就check 所有了。
最后就是结合 PNP4Nagios 用图片显示信息。
注:
本人在装的时候发现一个比较严重的问题:
Openmange 这个软件不要重复的在服务器上卸载,安装,这样的话会导致多出很多进程,每装一次 他们会生成3个为一组的进程例如以下:
root 30672 0.0 0.0 21688 1056 ? S Jun08 0:00 \_ hald-runner
68 30680 0.0 0.0 12320 848 ? S Jun08 0:00 \_ hald-addon-acpi: listening on acpid socket /var/run/acpid.socket
68 30693 0.0 0.0 12320 844 ? S Jun08 0:00 \_ hald-addon-keyboard: listening on /dev/input/event0
而且你卸载这个软件过后,这个进程是不会Kill 掉的,只有人工手动kill, 还有这个进程多了很多以后占用CPU 资源很多, 每十分钟CPU LOAD 有个波动。 我们公司的app 服务器就是因为装了这个 load 会每十分钟波动一次,从1波动到20, 然后马上下降,所以大家一定要注意,不要在生产环境中重复的安装和卸载。
其他的方面没什么问题,软件还是蛮好用的,可以结合nagios 和 zabbix 实现硬件监控。