监控系统的数据采集,从其工作模式来看,可以分为主动采集数据,然后发送给你数据收集中心,也可以分为被动监控,数据收集中心来向数据采集节点询问采集数据。从其采集的客户端来看,可以分为公众的采集方法,私有的采集方法,公众的采集方法是通用的程序协议,如SNMP,IPMI,JMX,SSH,TELNET等,私有的采集协议是专用的客户端,监控程序内部的一套协议。而一个理想的监控系统,其采集端支持多种方式,其扩张能力就强大。

监控系统需要提供一个api,方便其他功能系统来对监控数据进行操作管理,这在业务系统精密的情况下显得特别重要,其实在软件中,能不能对外提供API,可以说是一个非常重要的指标,通常能对外提供API功能的软件,其用户群会更大,其产品会越做越好。

监控系统需要对故障数据进行分析汇总,从故障中分析出现的概率,从而可以累积经验,避免以后出现类似的问题。例如由于机器硬件导致的故障,这个几率有多大,什么部件最容易出问题,出问题的影响概率多大,问题解决的几率有多大,从监控的数据中,就可以分析发现出相关数据,再次基础上进行分析汇总,可以整理出相应的对策,相应的技术应急方案,让数据说话,而不是凭感觉来操作。

常见的监控系统性能采集指标:

主机监控

CPU、内存、磁盘的剩余空间/利用率,Disk I/OSWAP使用率、系统UP时间、进程数,负载

网卡监控:

IPPing 的往返时间及包成功率,网卡的流量,包括流入、流出量和错误的数据包数(列表,网卡ID

文件监控

文件大小,hash值,匹配查询,是否存在

URL监控

监测指定 URL 访问过程中的返回码、下载时间及文件大小,支持内容匹配

应用程序

端口,内存使用情况,cpu使用情况,服务状态、请求数、并发连接数、消息队列的字节数、 Client 事务处理数、 Service 状态等。

数据库

表空间监测数据库中指定的表空间,数据库的游标数、 Session 数、事务数、死锁数、缓冲池命中率、库 Cache 命中率、 当前连接数、进程的内存利用率等性能参数

日志

错误日志匹配,特定字符串匹配

对时间的要求:

     实时,非实时。