随着智能化的快速发展及信息通信技术的不断创新,甲方企业信息化运维工作的要求越来越高。如何保证信息系统的安全稳定运行,及时发现和消除信息系统隐患是对企业信息系统运维人员的巨大挑战。自动化巡检的应用提升了信息系统运行的可靠性,减轻了运维人员的工作压力,对大型复杂信息系统的运维工作模式具有重要示范意义。
1
自动化巡检的目标
1、全面自动化巡检
对机房基础环境设备、网络设备、主机设备、数据库及中间件系统等实现全面监控,形成完整的实时监控系统,自动收集各种监控指标,及时发现系统缺陷和故障,为不同角色的运维人员提供统一的工作平台,对各种运行设备巡检实行量化、动态管理的现代化手段,促进信息系统运维的科学化管理。
2、全面综合分析
1)在全面监控的基础上,建立信息化建设和信息化运维管理展现窗口,从整体业务角度,将各个管理对象有效组织起来,对每个运维环节可能出现的问题,及时发现,快速定位,提前发现潜在的风险。
2)提供各种业务系统的运行状态展现,让运维人员和管理人员通过这些数据了解系统运行动态,通过建立科学的数据分析模型来提高系统在数据分并为信息化建设规划提供有效数据支撑。
3)以运维部门日常管理为主线,根据巡检器中记录的数据对巡检工作的完成情况进行管理,实现日常运维管理的信息化,加强信息系统运维管理的科学化、制度化,提高整体管理水平。
2
自动化巡检如何实现
高度集成的易于扩展的标准化信息系统自动巡检平台,可以对各种软硬件设备运维数据进行自动采集和分析,形成电子巡检记录,使信息系统综合运行质量得到有效提升。信息系统正常运行所采用的技术方法和手段 ,涉及操作系统、集群、网络、备份、中间件、数 据库、应用系统、监控等相关的信息技术,设备状态信息采集工作的标准需要包括信息采集的目标、范围、 原则和内容,明确信息设备状态参数的基础要素 。
通过信息系统自动巡检平台,可以将多种相关的功能整合在一个展现平台上,使信息系统自动巡检平台模块清,层次分明,各模块之间既相互独立,又相互关联,可以实现对被管设备的集中监控和管理,通过Web 方式对用户进行集中展现。
信息系统的数据模型是在各种数据抽取的基础上构建的,按照系统的数据管理需求和数据管理模式对系统后台业务数据进行类型划分和来源分析,通过建立科学的数据分析模型来提高系统在数据分析过程中的整体效率及数据可用性 。
机房基础环境透明化
1)机房基础环境包括机房温度、湿度、精密空调状态、UPS 电源、漏水、烟感、摄像头、门禁等,信息系统自动化巡检平台以三维立体方式,集成展现机房设备对象,实时显示各项关键参数,实现所见即所得的透明化管理。
2)以机柜为单位通过仿真方式,展现各种设备在机房中的真实位置以及设备实时运行状况,并且可以通过点击设备方式与设备管理功能相关联,实时查看该设备的背板、端口以及流量等。对于重要机房环境数据UPS、温度、烟感等实时监测,如有异 常立即报警。
信息网络设备统一集中管理及故障自动告警
1)实现信息网络设备统一集中管理,主动对核心设备的负载及故障情况进行实时监控,发现故障及时告警,并通过 IP 地址管理,配置实用的网络管理工具进行高效的核心网络管理,对信息系统的核心设备以及链路进行关键数据分析,为网络整体规划提供科学的数据依据。
2)自动发现、构建所有网络使用者的 IP、MAC、连接位置等实时信息形成信息网络拓扑图,并提供基于该地址表的非法网络连接及使用监视告警,通过 IP/MAC 地址绑定,实时发现非法接入网络设备及用户私自更改 IP 地址的行为。通过在系统中设定不同的用户,并赋予不同的权限,管理者可以拦截与放行设备,手动或者自动将非法设备隔离出网络。
硬件设备统一集中管理及图形化界面显示
1)实现企业全部信息系统硬件设备的统一集中管理,包括小型机服务器、PC 服务器、存储设备,可对不同操作系统的主机进行监控,如 AIX,Sun Solaris,Redhat Linux,Windows 等。
2)通过一体化查看的方式,同时以图形化界面直观地显示出主机的系统和网络关联信息,技术上采用SSH2、SNMP 等多种协议。
3)对于系统日志,如小型机 ERRPT 系统错误日志、审计日志等采用原文本的方式传输到管理服 务器上,抽取关键字及相关数据等进行统计分析。
4)抽取主机操作系统的运行状态、关键进程、日志信息、负载情况等信息,对主机设备、存储设备硬件进行故障扫描并可以及时报警。如果主机空间、存储设备空间的使用超出阈值平台可以及时报警,并对双机环境的集群运行状态进行监测。
数据库及中间件系统运行状态监控
实现对多种类型数据库系统进行自动巡检管理,实时监控SQLServer,Oracle,Sybase,Mysql,DB2,Informix,SybaseIQ 等数据库系统的运行状态, 实时监控Weblogic,Domino,Tuxedo,WebSphere,Cognos,DSG,OGG 等中间件系统的运行状态。
运维指标抽取及偏离告警
一般企业信息系统运行要求有多项考核指标, 从信息系统自动巡检平台设备及软件运行数据中抽取相应的数据,根据指标设定上下限阈值,在运维指标出现偏离前发出告警信息,提醒管理人员和运维 人员分析指标偏离原因,及时采取运维措施,提高运维指标水平。
高效率智能自动巡检及预警
1)安全预警根据安全态势的分析结果建立自适 应的阈值设定模型,实现危险状态警报阈值的自适 应调整,并依据设定的阈值对系统的危险级别达到 一定程度的安全状态进行预警,定期输出安全态势 评估报告,有效帮助相关领导掌控信息系统自身和 外围的安全态势,准确、高效地进行安全决策。
2)利用所有系统可自动采集的指标和对象,实现定时采集和自动判断,并以最短15 s的巡检频率确保异常事件能被及时发现,不仅可以提供细化到某个应用进程某一列的值进行告警,而且支持更为先进的趋势告警,准确地把握故障发生前的“异常”,真正做到“事前管理”。
3)自动巡检结果异常报警方式采用邮件、短信、 即时通软件等多种形式,同时系统具有大屏窗口展 示功能,运行人员可以通过大屏窗口实时监控,及时 发现信息系统运行动态问题。
全网运维分析报表自动建立
建立各种系统自动巡检报告、缺陷故障报告、运 行分析报告和性能分析报告等,信息运维人员和管理人员可以根据这些报告准确评估信息系统整体运 行情况,及早发现故障隐患,为管理人员决策提供参 考依据。
3
自动化巡检应用效果
1)较好的自动化巡检平台一般可具有50多种自动巡检组件类型,近1000 多个巡检指标,并且实现各类指标的阈值设定和故障告警,运维人员能在不同业务分析场下找到所涉及的关键指标,如主机进程、网络设备端口流 量、数据库及中间件运行状态等。
2)平台以关键参数运转图方式,动态实时展现设备及系统运行的关键参数,使运维人员能及时掌握各类设备及系统的动态变化情况,并及时采取措施,避免产生设备及信息系统的运行风险。