一.阀值Thresholds
1.配置流程
(1)首先,必须要收集你想要监控阀值的数据。
(2)然后,在 thresholds.xml中为你想要监控的数据配置一个阀值。
(3)然后在threshd-configuration.xml中设置需要监控阀值的设备、IP段、接口。
(4)最后为阀值监控创建报警或通知。
2.阀值监控的种类(type)
按照data source分类有两种。
Basic Threshold——直接对data source进行监控。
Expression based Threshold——监控按照表达式进行处理后的data source
(1).high:当数据高于设定的阀值时,触发一个'highthreshold'事件,直到数据低于re-arm值时,事件才被取消。
(2).low:与high相反。
(3).relativeChange:监控数据的相对变化,如下配置数据上涨了50%将引发事件(rearm值relativeChange无效)
<!-- Note: the "rearm" and "trigger" values are not currently used. -->
<threshold type="relativeChange" ds-name="ifInOctets" ds-type="if" value="1.5" rearm="1.0" trigger="1"/>
(4)absoluteChange:监控数据的绝对变化,如下配置数据上涨或下降3将引发事件。
<!-- Note: the "rearm" and "trigger" values are not currently used. -->
<threshold type="absoluteChange" ds-name="loss" ds-type="node" value="3" rearm="1.0"
trigger="1"/>
3.配置文件中的标签和属性含义:
thresholds.xml
type:阀值监控的类型:‘high’ ‘low’ ‘relativeChange' 'absoluteChange'
rrdRepository:rrd数据存放目录,指向SNMP收集到的数据存放地址
expression:对数据源进行计算处理的数学表达式
ds-name:data source的名称
ds-type:data source类型,节点数据对应“node",接口数据对应‘if’
ds-label:data source的标签
value:阀值,对不同的type有不同的意义,如果设置为负数,将取其绝对值
rearm:The value at which the threshold will reset itself. Not used for relativeChange thresholds.
trigger:设置数据超过阀值的多少次才会引发事件,对 relativeChange 不适用
triggeredUEI:当阀值监控被触发时,向event发送事件时的UEI,如果设置为空,将默认生成一个标准thresholds UEIs.
rearmedUEI:threshold rearm时发送事件时的UEI
filters:一个正则表达式,用于对data source进行过滤
filterOperator:多个filter之间的连接符,可用or和and,默认值为or
threshd-configuration.xml
在thresholds.xml中,为每一个thresholds配置了相关的阀值、过滤、数据源等,并将其分到不同的group中,而在threshd-configuration.xml中为每一个group建立一个package,可以在其中配置被监控的设备IP段、
filter:对IP地址进行过滤,符合条件的设备才进行监控
include-range:将一个IP段加入到监控中
4.在web UI中管理thresholds
Admin->Manage Thresholds->选择一个Group,点击Edit进行编辑
NOTE:早期的OpenNMS中,threshd进行阀值监控和collectd不是同步的,threshd取出的数据可能是错误。后期OpenNMS将threshd和collectd进行了同步,collected收集到数据后,立即由threshd将数据与阀值进行比较,对于ICMP的数据,threshd和poller是同步的,如果需要开启SNMP同步功能可以在collectd-configuration.xml中,添加一个parameter
<parameter key="thresholding-enabled" value="true"/>
5.配置举例:为disk设置阀值
在threshd-configuration.xml中添加一个group:
<package name="Your NetWare Server Name">
<filter>IPADDR IPLIKE *.*.*.*</filter>
<specific>"Your NetWare IP Address"</specific>
<service name="SNMP" interval="300000" user-defined="false" status="on">
<parameter key="thresholding-group" value="Your NetWare server name-snmp"/
</service>
<outage-calendar>zzz from poll-outages.xml zzz</outage-calendar>
</package>
在thresholds.xml中为group配置阀值:
<group name="Your NetWare server name-snmp"
rrdRepository = "/var/opennms/rrd/snmp/">
<threshold type="low" ds-name="disk-sys-free" ds-type="node" value="1204764" rearm="1304764" trigger="3"/>
<threshold type="low" ds-name="disk-dept-free" ds-type="node" value="20062184" rearm="2104764" trigger="3"/>
<threshold type="low" ds-name="disk-nos-free" ds-type="node" value="2085172" rearm="2185172" trigger="3"/>
<threshold type="low" ds-name="disk-ts-free" ds-type="node" value="564680" rearm="664680" trigger="3"/>
<threshold type="low" ds-name="disk-psft-free" ds-type="node" value="20897928" rearm="21897928" trigger="3"/>
<threshold type="low" ds-name="disk-user-free" ds-type="node" value="10025812" rearm="11025812" trigger="3"/>
<threshold type="low" ds-name="disk-apps-free" ds-type="node" value="7417340" rearm="7517340" trigger="3"/>
</group>
note:ds-name可以在$OPENNMS_HOME/etc/datacollection/*.xml中查找到
二.事件events
1.event种类
(1).由OpenNMS内部产生的“internal event”.
(2).通过SNMP traps 生成的event
2.配置文件:eventconf.xml
UEI:Universal Event Identifier 用于辨识事件
event-label:web UI 中显示的时间标签
dscr:对事件的描述,支持html标签
logmsg:对事件的简短描述,包含一个“dest”属性,用于指明是否在数据库中log或在web Ui中展现,dest包含以下几个选项
logndisplay:在数据库中记录,并在web UI中展示
logonly:只记录,不展示
suppress:不记录也不展示
donotpersist:不在数据库中记录,但依然想其余进程发送event
discardtraps:只适用与trapd进程抛出trap的时候 ,trapd将不生成事件,直接忽略trap
severity:事件的严重程度,包含七个级别,并用不同颜色区分
Critical (dark red):表明网络中大量设备被这个event影响,应立即得到修正
Major (light red):设备完全down或有down的风险,事件应收到重视
Minor (orange):部分服务或功能损坏
Warning (yellow):不太紧要的,事件有可能需要得到注意,但是不用立即解决。
Normal (green):正常的事件
Cleared (light grey):表明之前的一个错误事件已经被纠正,服务已经恢复
Indeterminate (yellow-green):事件的影响无法预测
operinstruct:给管理员的操作提示
mouseovertext:web Ui中鼠标停留在event上时的文本提示
event-file:包含其他文件中的event
修改eventconf.xml文件后应用以下命令通知OpenNMS事件配置已经修改:
$OPENNMS_HOME/bin/send-event.pl uei.opennms.org/internal/eventsConfigChange
可以利用一下脚本来测试event配置:
$OPENNMS_HOME/bin/send-event.pl
$OPENNMS_HOME/bin/send-trap.pl
3.Event translator
event translator 允许对已经生成的event进行更改,它将clone一个相同的事件,并按照配置文件修改event中的一部份属性。使用这个功能的原因是:
创建被动状态事件。
将事件与不同的节点关联起来。
配置文件为:$OPENNMS_HOME/etc/translator-configuration.xml
可以利用从数据库取出的数据、正则表达式匹配的数据、String来替换event原有的属性,并生成一个新的event
4.事件发生时调用bean shell script
事件触发时,可以通过调用bean shell脚本来处理事件,脚本可以在$OPENNMS_HOME/etc/scriptd-configuration.xml中针对不同的UEI配置,也可以配置针对所有事件全局的脚本。
5.通过XML-RPC远程发送event
OpenNMS有一个个xmlrpcd进程,允许通过xml-RPC向远程系统转发event,配置文件为:$OPENNMS_HOME/etc/xmlrpcd-configuration.xml
1.配置举例:
<xmlrpcd-configuration max-event-queue-size="5000">
<external-servers retries="3" elapse-time="15000">
<xmlrpc-server url="http://10.1.8.10:8000" />
</external-servers>
<subscription>
<subscribed-event uei="uei.opennms.org/nodes/nodeLostService"/>
<subscribed-event uei="uei.opennms.org/nodes/nodeRegainedService"/>
<subscribed-event uei="uei.opennms.org/nodes/nodeUp"/>
<subscribed-event uei="uei.opennms.org/nodes/nodeDown"/>
<subscribed-event uei="uei.opennms.org/nodes/interfaceUp"/>
<subscribed-event uei="uei.opennms.org/nodes/interfaceDown"/>
<subscribed-event uei="uei.opennms.org/internal/capsd/updateServer"/>
<subscribed-event uei="uei.opennms.org/internal/capsd/updateService"/>
<subscribed-event uei="uei.opennms.org/internal/capsd/xmlrpcNotification"/>
</subscription>
</xmlrpcd-configuration>
标签和属性含义:
max-event-queue-size:存储队列的最大值
generic-msgs:默认是false,表示仅转发默认的六种basic event(node/service/interface +down/up)。设置为true时,表示转发所有订阅的event
external-servers:需要转发的xmlrpc服务器地址
retries:重试次数
elapse-time:重试等待时间
subscription:一组订阅的需要转发的事件,可以设置一个name
subscirption-event:一个订阅的需要转发的事件
OpenNMS系统将对external-servers中配置的所有服务器转发event,如果所有服务器都不可达,系统将存储5000条数据(max-event-queue-size)
2.激活xmlrpcd:
该进程默认是关闭的,如果需要开启这个功能,应该编辑$OPENNMS_HOME/etc/service-configuration.xml 解除以下配置代码的注释:
<service>
<name>OpenNMS:Name=Xmlrpcd</name>
<class-name>org.opennms.netmgt.xmlrpcd.jmx.Xmlrpcd</class-name>
<invoke at="start" pass="0" method="init"/>
<invoke at="start" pass="1" method="start"/>
<invoke at="status" pass="0" method="status"/>
<invoke at="stop" pass="0" method="stop"/>
</service>
3.运行流程
xmlrpcd初始化时,为每一个XMLRPC server创建一个EventListener和queue,当EventListener监听到一个被订阅的event时,将将event加入到queue中等待处理。当事件被处理时,xmlrpcd先检查generic-msgs属性,如果为false,只有默认的6种事件会被转发给XMLRPC server。
6.Automation 自动化
automation是opennms从1.3版本开始提供的功能,它由一个trigger和一个操作数据库的action statement构成,它可以完成一系列自动化的动作,比如定期清楚过期数据或当一个event长事件没有acknowledged,自动的将其severity级别升级。
配置文件:$OPENNMS_HOME/etc/vacuumd-configuration.xml
1.automation的属性:
name(required):用于区别automation的String
interval(required):整数,单位为毫秒,指明多长事件允许一次automation
trigger-name:通过名字来引用trigger
action-name(required):通过名字来引用action
action-event:需要发送的action-event名字
2.trigger:包含下列三个属性,并球有一个SQL statement,SQL语句的结果将由action中的语句进行处理。
name:名字 row-count和operator:两个属性一起使用,共同决定是否应该执行action
如:
<trigger name="selectNumBlafasel" operator=">=" row-count="1" >
<statement>
select
distinct(ipaddr) as _ipaddr,
count(nodeid)
nodeid as _nodeid
from events
where
eventuei='uei.opennms.org/test/blafasel' and
eventtime >= now()-'2 minutes'::INTERVAL
group by nodeid,ipaddr
having count(nodeid) > 10;
</statement>
</trigger>
当statement中的查询结果数量大于1时才执行action
3.action:action是automation中必须的一个组成部分,包括name和可以处理trigger中结果或独立执行的SQL statement。如:
UPDATE alarms SET severity = least(7, severity+1)
WHERE alarmid = ${alarmid}
AND alarmAckUser is NULL
automation将对语句进行解析,并确定trigger中的result set包含语句中所需的字段,然后执行语句,更新数据库。
4.action-event:当automation运行时生成一个或多个event,但不是必须的。
八.警报 Alarms
Alarms是由event衍生出来的,它的配置同event整合在一起,在$OPENNMS_HOME/etc/eventconf.xml中.在event中添加alarm-data标签来配置alarm:
1.alarm-data的属性:
reduction-key:用于区分警报,对事件进行过滤,防止重复报警。如一下配置:
<alarm-data reduction-key="%uei%:%nodeid%" alarm-type="1" auto-clean="false" />
alarm将把event中的uei和nodeid存储到报警列表中,对之后的生成的有相同uei和nodeid的event将不会产生报警,而是只更新alarm的lastEventTime, lastEventID,这样就防止了重复警报
alarm-type:这个属性共有三个可能值 “1”表示需要解决,“2”表示警报已解决方案,“3”表示可能没有解决方案。
auto-clean:如果设置为true将自动从数据库删除满足 reduction-key中的条件的event
clear-key:仅当alarm-type设置为2的时有效,用于在故障恢复后,自动将满足clear-key的alarm清除