1 项目概况 7
1.1 项目背景 7
2 现状概述 7
2.1 当前现状分析 7
2.2 当前面临的运维问题 7
3 需求分析 8
3.1 传统运维工具局限性 8
3.2 具体需求分析 8
4 建设方案 10
4.1 建设目标 10
4.1.1 实现自动监控主动预警管理 10
4.1.2 实现IT设备设施统一集中监控 10
4.1.3 实现网络拓扑、业务拓朴的全景化、可视化管理 10
4.1.4 IT资产统计管理,实现便捷的资产生命周期管理维护 11
4.1.5 灵活的运行数据和报表管理,为运行维护及增容扩建提供数据依据 11
4.2 系统建设规划 11
4.3 方案建设亮点 14
4.3.1 实时监控 14
4.3.2 定制化服务监控 14
4.3.3 智能预警 14
4.3.4 故障预处理 14
4.3.5 定制报警通知 14
4.3.6 大屏三维可视化呈现 14
4.3.7 异地分布式监控 15
4.3.8 运维大数据功能 15
4.3.9 硬件识别功能 15
4.3.10 大规模、高并发监控 15
4.3.11 秒级响应 15
4.3.12 操作简便快捷 15
4.3.13 良好的可靠性和先进性 16
4.3.14 系统灵活扩容和升级 16
5 HYDO智能运维监控平台方案 16
5.1 大屏展示 16
5.2 综合展示 19
5.3 网络管理 21
5.3.1 拓扑管理 21
5.3.2 真实设备背板图 23
5.3.3 设备性能分析 24
5.3.4 链路性能分析 24
5.4 服务器管理 25
5.4.1 服务器性能监控 25
5.4.2 服务器性能监控 27
5.4.3 硬件监控 27
5.5 对WINDOWS系统的监控 28
5.6 对LINUX操作系统的监控 29
5.7 数据库管理 29
5.7.1 数据库性能监控 29
5.7.2 自定义SQL语句功能 30
5.8 中间件管理 31
5.8.1 中间件性能监控 31
5.9 应用管理 31
5.9.1 应用性能监控 31
5.9.2 应用定制化监控 31
5.10 摄像头管理 32
5.11 配置管理 32
5.12 IP地址簿管理 33
5.13 存储管理 34
5.14 虚拟化管理 35
5.14.1 虚拟机总体监控 35
5.14.2 宿主机监控 36
5.14.3 虚拟机监控 36
5.15 巡检管理 36
5.16 故障管理 37
5.16.1 报警机制及策略 37
5.16.2 事件过滤 38
5.16.3 报警方式 39
5.16.4 告警记录查看 41
5.16.5 报警事件处理的注释与查看 42
5.17 报表管理 42
5.18 异地监控 42
5.19 动力环境监控管理 43
5.19.1 UPS监控 44
5.19.2 精密空调监控 44
5.19.3 温湿度监测 44
5.19.4 区域漏水监测 44
5.19.5 消防监测 45
5.19.6 门禁系统 45
5.19.7 红外监控 45
6 智能运维监控平台实施效果 45
6.1 实现全面、完整的统一管理 45
6.2 实现IT设施透明化管理 45
6.3 事前的运维管理,主动反映故障隐患 46
6.4 灵活多样的通知方式 46
6.5 实现协同管理 46
6.6 实现专业化大数据分析 46
6.7 提供开放接口,易于系统扩展 46
6.8 简单易用性 47
1 项目概况
1.1 项目背景
随着信息化发展,云计算、高性能集群等应用规模不断扩大、机房设备数量不断增加。传统的厂商监控工具无法满足运维人员日常工作需要,反之会给运维人员增加负担,传统的设备厂商监控工具有管网络设备的,有管机房环境的,有管主机服务器的,有管数据库、中间件的等。各管一滩、各自为政,这样让维护业务系统成为一个难题,一旦某个业务运行缓慢甚至中断时,无法及时判断问题根源,所以需要建立一套实时、统一、集中有效的智能运维监控管理平台。
2 现状概述
2.1 当前现状分析
信息化时代的来临,渗透各行各业中,IT基础设施的架构越来越复杂,针对机房中设备不同品牌不同型号及不同业务系统,单纯凭某个监控工具或某个人,已经不能胜任如此大的运维工作量和满足信息中心监控需求。
无法实现对虚拟化、存储、机房动力环境等IT基础设施的监控管理,信息中心也逐渐的开始意识到建立一套新的统一、集中有效的智能运维监控管理平台显得格外重要。
2.2 当前面临的运维问题
目前中国妇女报的IT管理主要面临以下问题:
机房动力环境运行监测薄弱
目前没有对动力环境进行监控管理的智能化系统,需对机房动力系统(包括主要配电设备、UPS电源监控)、环境系统(机房专用精密空调系统、漏水系统、温湿度)实行完善的监控和控制功能,能对发生的各种事件都结合机房具体情况及时准确的给出处理信息,提示值班人员进行操作。
网络管理覆盖不足
缺乏统一的运维管理平台
没有对机房环境、网络设备、主机服务器、系统资源及应用软件的运行状况进行实时监测。不能提前预警、及时告警,导致信息滞后。同时,由于没有形成一套完整的监控平台,运维人员不能对业务及业务相关联的资源进行总体监控和掌握,只能分割的管理各个部分,不能形成有效的、统一的运行维护管理。
IT系统运维状态无法全景的展现
无统一的机房整体运行状态信息展示界面
3 需求分析
3.1 传统运维工具局限性
结合上面针对目前运维问题,总结起来即:传统的运维方式无法实现对繁多的IT基础设施、业务系统、机房动力环境、虚拟化、安全等设备实现自动、高效的统一管理。
HYDO智能运维大数据管理平台具有先进的系统架构,结合大数据分析及人工智能等功能,管理范围能覆盖日常运维涉及的网络设备、服务器、应用系统、虚拟化、存储、动力环境、安全设备等,提供全年724小时监测管理,对异常及时预警,对故障即时报警,使运维管理人员可实时掌握IT运行状态。平台提供灵活、完整的运维数据报表,为数据中心的扩容及发展提供基础数据;通过直观、极具科技感的大屏实时展示数据中心整体运行状态,平台具有网络配置管理、IP地址管理和自动巡检等功能,能够极大的减少运维人员的工作量和降低运营风险,使数据中心的运维工作实现自动化、数字化和可视化。。
3.2 具体需求分析
针对当前信息化现状,该智能运维监控平台的建设从技术要求上需要重点考虑以下方面:
能够对网络系统内的各种设备进行跨厂家、跨平台的统一管理,能针对各厂家产品提供统一的管理界面,实现对基础设备的”透明化、精细化、全面化“管理。
能够对机房中的交换机、路由器、防火墙、负载均衡、网关、服务器、无线设备进行状态、性能监控。
能够对机房UPS、电源、烟感、门禁、水浸、空调等动力环境设备进行状态、性能集中监控和管理。
能够对办公场所的电脑、打印机、复印机、IP摄像头等进行状态监控,出现故障能够即时告警,主动告之运维人员。
具备跨平台管理的能力,保护设备和系统投资
从保护投资角度和后续扩容的多角度方面考虑,需要系统能够对市面上主流厂家的设备和系统做到全面兼容。
能够自动的发现整个网络的真实物理拓扑结构
系统能够自动发现各个设备间真实的物理连接,真正掌握设备间的连接情况,形成真实的物理拓扑图。
具备丰富的应用服务管理功能,提供对服务器、存储设备和应用管理
实现对服务器主机系统、数据库、中间件、应用、虚拟化、存储等,实现业务系统相关资源的统一监管。
具备丰富的告警功能,保障全天候监控信息化状况
系统管理员不在机房时,系统应能够主动发现可疑问题和故障源头,并可以通过微信、邮件、手机短信、声音等各种方式来通知管理员,以便及时处理问题。
4 建设方案
4.1 建设目标
4.1.1 实现自动监控主动预警管理
通过运维平台代替人工对IT资源的巡检监控管理,扭转IT运维被动救火的服务状态,避免监测盲点;建立有效的预警和故障自动修复机制,并保持IT运行监控与IT项目建设同步成长。
4.1.2 实现IT设备设施统一集中监控
IT资源(架构)涉及数量庞大的主机设备、数据库、业务应用系统等。运维管理平台能够跨越各个技术层面、各个设备厂商,对IT资源(架构)实现统一监控和集中管理。
能够实现对各业务应用系统进程、日志、端口的统一监控;运维平台将具有良好的扩展能力,支持个性化的业务关键性能监控;能够灵活配置监控的检测频率和报警阈值。
4.1.3 实现网络拓扑、业务拓朴的全景化、可视化管理
运维平台能够有序地梳理IT资源运行状况与IT环境基础架构,不仅为IT技术保障人员提供统一的管理平台,也能够为使用者和管理者提供统一展现IT资源运行状态和IT基础架构的全景化视图。
以业务为主线梳理错综复杂的IT基础架构,建立每个业务通向IT资源性能监测点的关联视图。业务关联视图能够按照设备的分布区域、业务应用系统类型以及设备类型等多个角度划分多层子视图。业务和部门关联一旦建立,能够支持灵活的配置修改界面,使业务管理视图能够快速与业务应用系统的开发和整合保持同步。
运维平台可以提供IT基础设施资源724小时不间断的监控, 当服务器操作统、数据库超过预设的阈值时会实现主动的事件报警,使运维人员能够及时发现故障,避免故障扩散。
4.1.4 IT资产统计管理,实现便捷的资产生命周期管理维护
运维平台通过自动采集、手动录入的方式,为管理者提供便捷的IT资产统计管理。能够实现全量资产信息自动采集,包括厂商、型号、序列号、部件号等各部件配置信息。提供丰富的维护管理信息,支持维保时间到期提醒等功能。
4.1.5 灵活的运行数据和报表管理,为运行维护及增容扩建提供数据依据
运维平台提供图文并茂的报表样式、数据统计,可灵活的选择设备及时间段,生成各种类型图表(饼图、曲线图、线面图、数据表、仪表图、WORD、PDF、EXCEL文件等)并通过邮件自动发送。为系统的运维质量提供实际的数据依据,为用户分析信息网络和主机等各种被管理设备的运行状况提供了基础数据和专业化的分析方法。
4.2 系统建设规划
针对需求分析后,本次智能运维监控平台建设的主要内容如下:
(1)网络管理
实现对交换机、路由器、交换路由器、负载均衡、防火墙、IP节点等网络设备进行集中管理,可对设备运行状态、性能进行监控,并提供拓扑图功能。
(2)链路管理
实现对链路状态、总流量、帧流量、广播包、丢包率、链路延时等指标进行实时监控。
(3)服务器管理
实现对于windows、linux、unix、中标麒麟等操作系统的管理,包括对服务器基本信息、运行状态、硬件状态、进程状态、性能分析等监控管理。
(4) 数据库管理
实现对Oracle、SQL Server、Sybase、Mysql等主流数据库监控管理,包括对数据库状态、表空间大小、库缓存监控、监听器监控、进程监控、回滚段监控、服务器实例监控、会话监控、 SGA监控等指标监控。
(5)中间件管理
实现支持对WebLogic、Tuxedo、Websphere、Tongweb、tomcat、apache等主流中间件实时监控,包括中间件运行状态、性能和通道、队列信息、线程、事务信息、连接池状态、连接数量、最大连接数量、Session数等指标监控。
(6) 应用管理
实现对HTTP、HTTPS、FTP等应用系统实时监控,包括运行状态、进程状态、进程占用资源情况、下载速度、最大时延、最小时延、平均时延、端口状态等指标监控。
(7)IP摄像头管理
实现对各厂商各类型摄像头运行状态进行集中管理,提前预警。帮助管理人员能够更好的判断视频运行质量。
(8)动力环境管理
支持对机房环境中温湿度探针、UPS、精密空调、漏水、烟感、摄像头、门禁、机柜等各类机房设备进行集中管理。
(9)日志管理
实现对操作系统、数据库、中间件、网络设备及应用系统等日志信息的统一收集、留存和快速定位、分析,并支持实时上下文挖掘分析海量结构化与非结构化数据等功能。
(10) 配置管理
提供对网络设备的配置文件定期的备份功能,通过TFTP、telnet等方式对各个品牌、类型设备实现配置文件备份,帮助管理人员能够及时分析问题,排除问题等。
(11)存储管理
实现对EMC、HP、浪潮、华为等主流存储设备监控,支持对磁盘阵列、磁带库、光纤交换机基础信息及运行状态监控。
(12) 虚拟化管理
实现对Vmware、华为、KVM等主流虚拟化监控,包括虚拟环境中宿主机、虚拟机、虚拟存储、集群、资源池、虚拟交换机各对象的性能、状态和告警实时监控。
(13) IP地址簿管理
系统通过ARP表、MAC表、IP地址表可自动生成当前全网的IP信息总览表,实现对全网IP资源监控管理。
(14)报警管理
支持自定义告警设置功能,可设置告警阀值,告警条件,主动屏蔽告警等方式进行过滤处理,过滤掉用户不关心的告警信息,智能判断可能出现的潜在故障并提醒,以降低故障率和系统风险。提供多种报警手段,如微信、邮件、短信等,发现问题第一时间通知系统管理员。
(15)报表管理
提供报表管理的基础功能,通过简单设置可实现不同管理域的个性化报表,同时可提供日周月季年多个统计周期的报表。
(16)权限管理
支持一个管理中心和多用户权限管理模式,不同岗位的管理员可设置不同的管理对象和权限。
4.3 方案建设亮点
4.3.1 实时监控
对大规模数据中心的各类硬件、系统软件、应用软件进行秒级实时监控,以可视化图形展示运行状态。
4.3.2 定制化服务监控
根据业务需求灵活修改或新增监控对象,如电子政务平台、税务管理系统、国产数据库、中间件等服务,可自定义监控指标,满足用户个性化需求。
4.3.3 智能预警
对被监控主机及服务运行数据进行统计与分析,预测未来运行状态,判断可能出现的潜在故障并提醒。
4.3.4 故障预处理
故障发生时,智能运维监控管理平台将在第一时间进行预处理和自动恢复,有效保障业务的安全和连续性。
恢复成功后会向管理员发送成功恢复提醒,当自动恢复不成功时向管理员发送报警。
4.3.5 定制报警通知
根据故障级别、业务划分及用户权限,定制微信、短信、邮件、声音、网页等报警形式,以及自定义通知发送的系统管理员,使相关责任人第一时间知晓机房运行信息。
4.3.6 大屏三维可视化呈现
通过集中式显示大屏二维或三维方式展示机房全局,实时监测机房整体运营情况及关键性能指标动态,实现可视化运维。
4.3.7 异地分布式监控
实现了跨地域分布式监控和异地多站点的集中统一监控, 对每个站点各种设备和服务进行有效的监控和报警,提高系统的利用率,降低系统运维强度和复杂性。
4.3.8 运维大数据功能
智能运维监控管理平台功能模块将自动收集被监控对象的运行日志,对响应时间、服务质量、网络状态、网络流量、性能指标、故障频率、安全指标等海量运行数据进行数据关联、挖掘与分析,全面展示数据中心的运行状态和薄弱环节,并给出运营优化及规模扩展建议。
4.3.9 硬件识别功能
HYDO智能运维监控管理平台支持多类型、多品牌型号的设备,并能自动识别设备型号及配置。
4.3.10 大规模、高并发监控
HYDO智能运维监控管理平台采用高并发检查机制,通过多线程、线程池、进程池技术实现高并发任务,并采用多种调度策略,被监控对象数量可达30000以上。
4.3.11 秒级响应
通过实现最大并发数、优化监测功能的执行效率、优化操作系统的性能指标,实现大并发、高吞吐量、减少监控延迟,最终实现秒级响应。
4.3.12 操作简便快捷
HYDO智能运维监控管理平台采用B/S架构,以网页形式呈现,界面简单易用且不受登录地点的限制,所有功能以菜单呈现,可在任意界面快速返回或切换。
4.3.13 良好的可靠性和先进性
系统基于Web的集中管理模式,遵循面向对象的设计结构,具有高度集成化和先进性、安全性、可扩展性、高效性、高可靠性。
4.3.14 系统灵活扩容和升级
在不影响现有平台使用的情况下实现灵活扩容,增加监控对象只需要更新LICENSE文件即可,对于版本更新可实现安全平滑升级。
5 HYDO智能运维监控平台方案
HYDO机房综合智能运维大数据管理平台V6.0是北京0000科技有限公司依据多年对大型数据中心、机房运维的经验,逐步提炼和凝结出代表当今最新运维理念的第六代平台。该智能运维监控管理平台采用了大数据、云计算、人工智能、物联网的最新研究成果和技术,实现了大规模数据中心的集中管理、实时监控、智能优化、安全运行。通过对本地、异地数据中心机房的服务器、存储、网络、动力环境等设备及应用服务的运行情况实时监控,精确采集、分析、判断系统性能,采用预防性警示、故障自动报警和处理、运维数据分析等措施,综合大数据分析和计算的成果,向管理、使用和维护人员提供科学、合理的决策信息和升级改造建议,确保大规模数据中心机房稳定、安全、高效地运行。
5.1 大屏展示
通过多种直观方式从多个视角提供对整个IT系统运行的综合、全面、集中、7*24小时监控展现。
(1) 系统健康度
实时分析机房(数据中心)所有硬件、服务的运行数据,通过统计算法来综合分析机房整体健康情况,以百分数值和优、良和差来展现。
(2) 系统整体负载
以曲线图形式显示机房(数据中心)整体负载数及随时间变化的情况。
以曲线图形式显示机房(数据中心)整体CPU核数及随时间变化的情况。
以曲线图形式显示机房(数据中心)整体进程数及随时间变化的情况。
(3) 存储空间监控
监控存储设备的空间使用情况,以柱状图形式展示各存储设备的总空间、使用空间、剩余空间。当机房内只有一台存储设备时,将以饼图形式展示。
(4) 主机基本信息
实时显示数据中心所有主机的汇总信息,包括主机总数、正常运行数、宕机数及不可达数,并将各项数据占比以饼图和不同色彩展示。
(5) 服务基本信息
实时显示数据中心所有服务的汇总信息,包括服务总数、正常运行数、严重故障数、警报故障数及未知故障数,并将各项数据占比以饼图和不同色彩展示。
(6) TOP3主机监控
实时监控关键指标排名前三的主机信息,并以视图形式展示各指标值和主机名称,使维护人员可实时了解关键指标峰值的主机情况。监控的指标有:
负载量:显示当前环境中负载排名前三的主机信息;
内存使用量:显示当前环境中内存使用量排名前三的主机信息;
网络流入/出量:显示当前环境中网络流入或流出值排名前三的主机信息;
进程数:显示当前环境中运行进程数排名前三的主机信息。
交换空间容量:显示当前环境中交换空间容量排名前三的主机信息。
(7) 资源组状态监控
用户可根据业务类型、重要程度或维护人员责任管理需要对机房设备或业务进行分组,以实现对组内设备及业务进行实时监控。此时,监控以组为单位进行,使维护人员可以很直观的查看到关键设备性能变化情况及关键业务动态,同时也便于查看所负责机组的运行情况。
资源组的状态信息,包括:主机的运行数、宕机数、不可达数,以及服务的运行数、严重故障数、警报故障数及未知故障数。
(8) 网络监控
监控所有网络、安全设备运行状态,对整体网络流量(出/入)实时监测并以面积图显示及变化。
(9) 数据库系统监控
实现对Oracle、DB2、SQL Server、Sybase、Mysql、Gbase、达梦等数据库的监控管理,并以面积图形式实时展示数据库的连接数和并发数。
(10) 平台自身性能监控
HYDO智能运维监控管理平台的自检功能,实时监测自身运行情况和数据采集的最小时间、最大时间和平均时间,并以面积图展示。
5.2 综合展示
综合展示功能以集中展示机房IT硬件设备和业务系统等资源运行情况、性能状况、TOP分析等内容,通过饼图、柱状图、曲线图、仪表盘等可视化功能使部门领导、管理者、运维人员和值班人员能迅速掌握整体IT设备运行状态。主要展现告警统计、运维系统TOP排行、设备性能统计等信息,并可根据用户的具体需求和应用场景,提供定制化开发。
综合监控部分主要是对系统各个监控对象进行快速浏览,适合用户查看管理对象的日常运行情况,操作简单,界面直观明了。通过设备负载、线路流量自动TOP N排序,主动告诉用户哪些设备需要关注,全网运行的隐患在哪里。
5.3 网络管理
5.3.1 拓扑管理
HYDO智能运维管理平台提供拓扑自动发现和拓扑添加两种拓扑生成方式,通过ping、SNMP等协议能够快速搜索整个网络内的网络设备,自动生成真实物理拓扑图, 能够自动识别各设备品牌、类型;实现对思科、华为、华三、Juniper、锐捷、迈普、天融信、深信服等主流厂商网络设备、安全设备进行集中监控。通过SNMP、ICMP、ARP等协议自动采集设备基本信息、设备接口配置信息、设备之间物理连接关系等,对网络设备监控指标包括设备性能信息,如:设备IP、设备名称、厂商、系统描述、CPU负载、MEM利用率,端口、总流量、出流量、入流量;帧流量、广播流量、丢包率、带宽占用比等监控信息。
网络拓朴功能说明:
(1) 提供网络拓扑图页面,将各管理设备的运行状态、告警信息进行统一展示。
(2) 在拓扑生成前,系统需要提供设备批量验证功能,可提前测试设备是否符合拓扑生成条件,可将设备IP段及SNMP参数输入测试工具中进行批量测试,测试成功表示设备符合拓扑自动生成条件。
(3) 拓扑生成系统需要提供“拓扑生成”和“拓扑添加”两种生成方式,拓扑生成主要用于首次拓扑生成,会将数据进行初始化处理,拓扑添加是在原数据的基础上进行拓扑添加。
(4) 拓扑生成提供多种灵活生成条件,可根据IP范围、具体IP地址、路由深度进行拓扑生成。针对不同IP、不同SNMP协议参数也可做组合拓扑生成。拓扑生成搜索到的设备会放至网络拓扑图中做统一展示。
(5) 拓扑添加中的搜索条件和拓扑生成条件一致,区别为拓扑添加不会改变原数据。
(6) 拓扑生成完毕后系统提供拓扑报告功能,在报告中可查看到已扫描到的网段、扫描开始时间、结束时间,已发现的对象数、设备IP、设备厂商及设备类型。
(7) 提供拓扑自动更新功能,更新任务可灵活设置,包括更新范围、更新周期,拓扑更新提供周、月2种更新周期, 触发更新任务后当系统发现新增设备后需要人工确认后才能加入拓扑图中。
(8) 在网络拓扑图中需要将跨厂商、跨品牌设备在拓扑中进行统一展示,具体信息如下:
a) 设备颜色需要和设备状态进行动态关联,在拓扑图中不同颜色代表设备不同状态;
b) 链路颜色需要和链路状态进行动态关联,在拓扑图中不同颜色代表链路不同状态;
c) 在拓扑图中将鼠标移动至设备上可动态展示设备的性能信息及管理信息;
d) 在拓扑图中将鼠标移动至链路上可动态展示链路信息;
e) 拓扑图中不同类型设备用不同图标展示;
f) 拓扑图中设备可灵活设置显示信息,如显示设备IP、设备品牌型号、设备类型、CPU负载、MEM利用率等信息都可进行展示设置;
g) 拓扑图中链路显示信息也可灵活设置,如链路名称、链路类型、链路总流量、帧流量、广播包流量、丢包数、错包数、延时、带宽占用比等指标都可进行展示设置;
h) 当设备或链路发生故障触发告警后,在拓扑图中设备图标上会有醒目的提醒;
i) 设备的采集周期可进行灵活设置,如在拓扑图空白地方提供采集周期设置功能,修改后会对所有设备的采集周期生效,也可单独对某台设备进行设置,如需要单独设置,在拓扑图中右击该设备进行采集周期设置。
j) 提供性能历史记录分析功能,可查看服务器各项指标的性能曲线图。
k) 提供Ping、Remoteping、Telnet、Web管理页面等检测工具,以便在异常情况时,维护人员进行维护和检测。
5.3.2 真实设备背板图
针对不同品牌、不同类型的网络设备系统提供设备真实面板图,在面板图中可透明展示端口状态,用绿色、红色、蓝色代表设备端口状态,可显示设备端口对应的MAC地址及下联设备信息。如下图:
(1) 对多种网络设备提供设备真实面板图,能够直观展现各个端口的状态。
(2) 在拓扑图中提供“网络设备面板图”功能,在面板图中真实展示设备的面板信息,面板中端口采用不同颜色来代表端口不同状态。
(3) 在面板图中将鼠标放到端口上可展示端口信息。
(4) 在面板图中可查看端口的下联设备。
(5) 在面板图中可对端口进行开启、关闭功能。
5.3.3 设备性能分析
系统提供网络设备性能分析管理,包括对设备的CPU、MEM实时观察,可以将设备负载从高到底依次排列,让用户可以迅速定位有隐患的设备和链路。帮助用户从宏观把握整个网络资源的利用情况,通过排序功能可快速找到负载高的设备。如下图:
5.3.4 链路性能分析
系统提供可实时显示链路的详细流量信息,并可通过不同颜色对链路的负载情况进行告警提示,可自定义流量阀值。如线路状态、线路,线路颜色和线路状态动态关联,用绿色、黄色、红色代表线路负载情况,线路告警阀值可自定义。
通过流量曲线图实现对端口流量进行实时监控,包括端口总流量、帧流量、广播包、丢包率等
5.4 服务器管理
实现对Linux/Unix、Windows、Solaris 、FreeBSD、AIX、Android等主流操作系统监控管理,具体监控参数包括:设备IP、设备名称、厂商、系统版本、运行状态、CPU负载、MEM利用率、内存大小、虚拟内存利用率、磁盘大小及利用率、I/O性能、进程状态、进程占用CPU、MEM情况、网络接口流量、消息队列等进行实时监控。
5.4.1 服务器性能监控
服务器监控主要参数包括:设备IP、设备名称、厂商、系统版本、运行状态、CPU负载、MEM利用率、内存大小、虚拟内存利用率、磁盘大小及利用率、I/O性能、进程状态、进程占用CPU、MEM情况、网络接口流量、消息队列等进行实时监控。
系统提供可定制被监控的服务内容,实现对关键业务或应用系统的监控和管理。监控的指标包括有:服务运行状态、端到端响应时间、业务/应用所关联的资源对象的性能和故障等信息。
5.4.1.1 CPU负载分析
提供性能数据的历史曲线,对应用服务器的性能资源进行记录,帮助管理人员根据这些统计结果分析出这些设备的主要运行参数的变化规律,从而为正确评定用户设备的承载能力提供依据,通过历史曲线可帮助运维人员及时、准确定位故障根源。
5.4.3 硬件监控
系统通过IPMI方式可实现对支持服务器支持带外管理监控,可监控服务器上各个硬件组件的健康状况,CPU状态、风扇、电源、电压、温度等,当服务器出现异常能够第一时间通知运维人员。
带外管理模式可以在服务器操作系统无法启动时,感知到具体的设备异常,运维人员无需进入机房即可实现对服务器开机、关机和重启操作,从而实现真正的远程运维。
5.5 对Windows系统的监控
运维平台通过SNMP、Agent两种方式对windows各版本操作系统的性能指标监控。监控内容能够满足对于windows平台主机的监测要求,并且能够通过灵活的指标阈值设置判断系统各项指标的运行状态,如有异常能够通过短信、微信、邮件等方式通知管理员。具体监控包括以下主要内容:
(1) 操作系统版本及补丁情况;
(2) 内存交换区状态;
(3) 监控系统日志文件的变化情况;
(4) 系统的网络状态;
(5) CPU利用率,显示系统、用户的空闲时间的百分比;
(6) 系统进程的运行情况及资源占用情况;
(7) 登录的用户情况;登录用户记录及登录时间;
能够对用户指定的TCP和UDP端口进行检查,同时用户还可指定端口的报警状态,当任何端口为用户指定的状态时,系统都会产生报警事件。
5.6 对Linux操作系统的监控
运维平台通过SNMP、Agent两种方式对Linux内核的各版本操作系统的性能指标监控。并且支持Linux操作系统下,Agent插件的批量部署,提高实施效率,节约部署成本。能够通过灵活的指标阈值设置判断系统各项指标的运行状态,如有异常能够通过短信、邮件、微信等方式通知管理员。具体监控包括以下主要内容:
(1) 操作系统运行状态;
(2) 系统进程及关键进程运行状态和资源占用情况;
(3) C盘点用空间及文件系统空间情况;
(4) 内存交换区状态;
(5) CPU利用率,显示系统、用户的空闲时间的百分比;
(6) 虚拟内存(Virtual memory)和物理内存的使用情况提供有关内存使用情况的信息。
5.7 数据库管理
5.7.1 数据库性能监控
实现对Oracle、SQL、MySQL、DB2、GBase、达梦等主流数据库监控,包括:运行状态、连接数、并发数、数据库日志监控、缓存监控、文件监控、索引信息监控、库缓存监控、监听器监控、进程监控、回滚段监控、服务器实例监控、会话监控、 SGA监控、 ASM和RAC监控、实例性能信息监控、SQL语句执行状况监控、日志监控和表空间使用率等监控。
功能说明:
(1)提供对数据库所有指标的性能历史分析功能,可根据指标、时间查看指标历史曲线图。
(2)提供统计分析功能,将数据库的表空间、数据库会话、锁信息以TOPN方式进行排序展示,点击性能负载情况可展示性能分析曲线图。性能分析中可查看数据库IP、名称、数据库类型、表空间名称、表空间类型、使用率信息。
5.7.2 自定义SQL语句功能
提供数据库自定义SQL语句功能,可编辑自定义需要查询的语句。
5.8 中间件管理
5.8.1 中间件性能监控
实现支持对WebLogic、Tuxedo、Websphere、Tongweb、tomcat、apache等主流中间件实时监控,包括中间件运行状态、性能和通道、队列信息、线程、事务信息、连接池状态、连接数量、最大连接数量、Session数等指标监控。
5.9 应用管理
5.9.1 应用性能监控
实现对WEB应用系统实时监控,包括web系统运行状态、进程状态、进程占用资源情况、下载速度、最大时延、最小时延、平均时延、端口状态等指标,系统自动定期轮询其服务运行质量,当触发告警规则后可通过短信、微信、邮件等多种方式发送至运维人员提供性能统计分析报表。
5.9.2 应用定制化监控
可定制被监控的应用服务内容,如电子政务、OA、ERP、HIS、MES等应用系统或关键业务进行监控和管理。监控的指标包括有:服务运行状态、端到端响应时间、业务/应用所关联的资源对象的性能和故障等信息。
5.10 摄像头管理
实现对各厂商各类型摄像头运行状态进行集中管理,提前预警。帮助管理人员能够更好的判断视频运行质量。
包括摄像头状态、品牌、型号、设备名称及流量信息,当摄像头出现故障能够及时报警通知运维人员。
5.11 配置管理
提供对网络设备的配置文件定期的备份功能,通过TFTP方式对各个品牌、类型设备实现配置文件备份,备份任务,备份周期、备份数量可灵活设置,支持配置文件对比分析,对于多配置文件可自动进行对比,当配置信息发生变动时能够及时进行告警,帮助管理人员能够及时分析问题,排除问题等。
支持网络设备、安全设备的配置信息进行备份管理。
当系统检测到配置文件有差异,会及时触发告警。
支持配置文件的在线查看功能。
5.12 IP地址簿管理
实现对全网IP资源管理,系统通过ARP表、MAC表、IP地址表可自动生成当前全网的IP信息总览表,包括IP对应的MAC、IP所在端口、所在VLAN、设备名称等信息,通过IP地址管理可快速掌握已分配的IP地址列表、未分配的IP地址列表,并可将IP段与部门进行绑定划分,当有非法IP接入时候系统可主动进行告警通知。
提供全网络IP-MAC总览功能,能够明确IP-MAC对应关系。
提供IP规划和IP分配和绑定功能,当有用户修改IP会触发告警,及时通知运维人员。
提供IP批量导入、导出功能。
5.13 存储管理
实现对EMC、HP、浪潮、华为等主流存储设备监控,支持对磁盘阵列、磁带库、光纤交换机基础信息及运行状态监控,支持SAN/NAS等各种部署方式,能够监控磁盘阵列的电源、电池、风扇、温度、磁盘、控制器等各个关键硬件信息。
5.14 虚拟化管理
实现对虚拟化环境中宿主机、虚拟机、虚拟存储、集群、资源池、虚拟交换机各对象的性能、状态和告警实时监控,提供详细的资源对象配置数据、状态数据、性能数据集中显示。涵盖VMWare、Citrix、Xen、HyperV的等监控对象,包括虚拟机总体监控、宿主机层面和虚拟机三个层面的监控与管理。
图18 虚拟机监控
5.14.1 虚拟机总体监控
提供对虚拟集群的总体监控,监控项包括:
(1)DataCenter/Cluster控制的宿主机数量和运行统计分析;
(2)DataCenter控制的虚拟机数量和运行统计分析;
(3)整体存储使用和可用空间;
(4) DataCenter的CPU运行使用率百分比、CPU当前运行频率(MHz) 、内存使用情况、内存使用率、SWAP 使用情况 、网络发送带宽(流量)、网络接收带宽(流量)。
5.14.2 宿主机监控
实现对宿主机监控,主要包括:
(1)宿主机的CPU、内存、硬盘、网络等使用情况和性能分析;
(2)宿主机所起虚拟机的整体统计和运行状态;
(3)宿主机上启动的相关虚拟化服务的运行情况;
(4)宿主机的报错信息报警。
5.14.3 虚拟机监控
实现对虚拟机监控,主要包括:
(1)为虚拟机分配的可使用的CPU、内存等资源值;
(2)虚拟机实际的CPU频率、CPU使用率、内存使用情况、硬盘使用空闲空间、硬盘读写的I/O速度、虚拟机的网络流入流出量值;
(3)操作系统实时运行情况;
(4)虚拟机实时运行状态等。
除此之外,我们可提供虚拟机监控指标定制化功能。
5.15 巡检管理
智能运维监控平台提供自动巡检功能,可自动对网络设备、安全设备、服务器、业务系统等对象的进行定期巡检,对指标进行自动收集、自动分析、并自动完成正确性判断,提供巡检统计报表,巡检报表可主动推送至相关人员邮箱,为管理者提供简单便捷的统计数据。
支持巡检指标的配置,可以根据任何指标进行配置,可日巡检,周巡检,月巡检,季巡检等多种方式,也支持一日多次巡检。
巡检功能优势如下:
(1) 配置灵活,可根据对象、指标进行自定义配置。
(2) 巡检方式支持手工巡检和自动巡检
(3) 提供数据统计依据,提供管理效率。
(4) 多样的巡检方式,提高巡检完备性
(5) 减轻运维人员工作量,提高工作效率
5.16 故障管理
5.16.1 报警机制及策略
智能运维监控平台经过多年的应用和改进,建立了高效的报警机制,并采用了灵活的、清晰的报警策略。
报警策略的四个重要考量:
(1) 对报警进行分级、分类;
(2) 在添加报警时要能够批量添加、批量更改;
(3) 针对某一个或者某一组设备要有具备单独抽离控制的能力;
(4) 当发生大范围产生报警时,要具备有能力对报警进行合并,避免报警干扰。
不同级别的策略产生的任务被存储在不同的通道,低级别报警需要达到一定数量才会合并成一条发出告警,如此以避免报警过多的干扰。
报警策略流程图
5.16.2 事件过滤
智能运维监控平台可以实现在采集器、告警服务器和用户界面多个层次上的告警过滤。
(1)数据采集层面过滤
对于数据采集层面上的告警过滤可通过在相应采集策略规则文件中根据告警对象、告警级别、告警内容或三者的组合设定相应的条件,对满足条件的告警信息进行屏蔽和过滤,以过滤掉从底层提取的告警信息中监控人员认为不重要的信息,从而减少轻微告警的干扰,以提高监控与处理的效率。
通过规则设定,提供以下过滤处理:
通过关联性处理,对于局域网接入设备端口up/down事件进行过滤处理;
通过设定告警内容,对不需要关注的事件直接在缺省策略中进行过滤等;
通过设定告警对象,对某些监控对象不需要关注的事件在特定的监控策略中过滤。
(2)服务器处理层面过滤
在处理层面上,智能运维监控平台以图形化的方式提供功能强大的条件定义器,对上传来的告警事件进行过滤处理,过滤掉用户不关心的告警信息。
(3)通过自定义设置进行过滤
智能运维监控平台提供自定义告警设置功能,可设置告警阀值,告警条件,主动屏蔽告警等方式进行过滤处理,过滤掉用户不关心的告警信息。
5.16.3 报警方式
系统支持多种报警手段,如微信、邮件、短信等,发现问题第一时间通知系统管理员。
(1)微信报警通知
(2)短信报警通知
(3)邮件报警通知
智能运维监控平台送出通知的判定是由主机与服务的检测逻辑来完成的。主机与服务发生故障与恢复的时候,系统将通知发送给负责该主机或者服务的联系人组。联系人组可以包括一个或几个相互独立的联系人。联系人将通过用户配置的方式例如:Email、短信等方式接收通知。
5.16.4 告警记录查看
维护人员可以后台查看故障汇总或分别查看某组、单个设备或服务的故障信息。并可根据权限对这些主机或服务进行恢复或相关处理。
也可查看所有主机或服务的告警详细信息和汇总信息。所有告警数据将自动存储到历史告警库中,默认存储时间为1年,此时间可根据需要自定义,到期之前HYDO智能运维监控管理平台会提醒导出并另行保存,否则将做自动清空处理。
5.16.5 报警事件处理的注释与查看
运维人员可对主机和服务添加注释,方便在故障排除的时候记录每个主机的状态或故障原因,尤其对于轮班制的管理模式,添加注释是很有必要的。用户可以在主机或者服务检查命令中添加注释。
5.17 报表管理
实现对所有被管主机、网络、数据库、中间件、线路、端口流量、其他服务等对象的运行状态、性能指标、告警、资源统计报表功能,通过报表统计分析,可以为用户提供详尽的系统运行状态报表(日、周、月、年),可以根据用户需要的时间段来出具直观的,各种类型图表(饼图、曲线图、柱状图、线面图、数据表、仪表图、PDF、EXCEL文件等),从而为用户分析信息网络和主机的运行状况提供了专业化的分析方法。
5.18 异地监控
传统的监控软件只能够完成单个站点的有效监控,本地和那些处于异地远程的站点需要部署独立的监控系统进行运维管理。每一个站点需要一套监控系统,极大的降低了系统管理的效率。
智能运维监控平台能够实现一个跨地域多站点的分布式统一监控,通过跨地域分布式扩展模式,实现异地多站点的集中统一监控, 对每个集群中各种设备和服务进行有效的监控和报警,提高系统的利用率,降低系统运维强度和复杂性。按照分布式监控的设计原理,首先根据物理位置、网络层次、系统功能、或者防火墙设置等情况将整个数据中心划分为若干个抽象的独立区域。在每个区域中设置一台二级监控服务器,不用配置Web展示和发送报警,它的功能只进行本区域内的数据采集汇总,并将结果发送给主监控服务器(中心服务器)。根据数据中心的实际环境设计的两级分布式架构。
跨地域分布式监控系统架构
按照不同任务角色将监控服务设备分为三种,主监控服务器、二级服务器、被监控对象。
5.19 动力环境监控管理
动力环境监控实现了对温湿度探针、UPS、精密空调、漏水、烟感、摄像头、门禁、机柜等各类机房设备进行集中管理。
5.19.1 UPS监控
HYDO智能运维监控管理平台可对机房内的UPS运行状态进行实时监测。可监控UPS的工作状态及设备的电压、电流、蓄电池的温度、电压及充电程度等。
5.19.2 精密空调监控
智能运维监控平台可对机房内的精密空调的运行状态进行实时监控。包括:回风温度、回风湿度、回风温湿度限值、温度设定值、湿度设定值、加热器运行状态、制冷器运行状态、除湿器运行状态、压缩机高低压报警、主风扇过载报警、滤网堵塞报警等。
5.19.3 温湿度监测
智能运维监控平台可对机房内重要区域的温度、湿度进行实时监测。可实时显示温湿度传感器所在位置的温度、湿度变化情况。
5.19.4 区域漏水监测
智能运维监控平台可对机房内的空调的冷凝水、窗户和易漏水等位置进行监控且实时报警。 通过在机房易漏水的下方或周围铺设漏水感应线,将感应线接到漏水控制器上,再将控制器的输出信号接到GoodFly运维监控主机。这样当漏水感应线检测到有水时,平台会立即报警并通知机房管 理人员。
5.19.5 消防监测
智能运维监控平台可对机房内的消防主机的输出干接点信号进行监测。 当检测到消防主机的干接点有报警信息产生时,HYDO智能运维监控管理平台也会发出告警。
5.19.6 门禁系统
智能运维监控平台可对机房内的重要门实施门禁进出管理。智能运维监控管理平台通过读取门禁控制器内的刷卡开门记录。如:时间、刷卡者ID号、门状态。也可以通过加装门磁传感器,将其连接到机房环境监控主机的接口上,实现监测当各门的状态。
5.19.7 红外监控
智能运维监控平台可对进出机房人员情况进行监测。 通过红外感应装实时监测人员的移动情况。
6 智能运维监控平台实施效果
6.1 实现全面、完整的统一管理
实现对IT基础设施的统一监控,在管理对象上覆盖各类设备管理,包括网络设备管理、安全设备管理、服务器管理、中间件管理、应用系统管理、数据库管理、机房环境管理、IP地址管理、配置管理、虚拟化管理、存储设备管理、动力环境监控,实现基础设施的结构清晰、层次简单及灵活扩展,使IT系统能够真正辅助管理者进行科学决策、在线控制和规划预测。
6.2 实现IT设施透明化管理
通过网络拓扑图、虚拟化拓扑图直观透明化呈现企业IT的基础架构,各设备使用不同图形展现,颜色变化代表了设备当前运行情况,能够动态实时了解各个设备运行状态,提前发现设备故障隐患,从而变“被动”为“主动”,变“事后”才处理为“事前”积极预防,将“复杂”的网络管理通过透明化的多种视图实现一目了然的简单管理,将各类分散的网络设备、服务器设备、业务系统、集中到一个管理平台实现综合全面的信息化管理。
6.3 事前的运维管理,主动反映故障隐患
实现主动预警,在问题出现之前了解这个IT信息网络中的异常情况并提前进行故障隐患的排除,真正做到了风险预知、智能预警,智能提醒、服务故障自动修复等功能,实现事前管理,使网络管理的工作变被动为主动,从全方面极大地提升了运维管理的智能化水平,使原来错综复杂的运维管理工作变的简单和轻松,提高工作效率,减少网络故障率。
6.4 灵活多样的通知方式
提供多种通知方式,通过颜色,语音、E-mail、短信、微信等多种手段,主动告知用户网络中可能存在的故障隐患点,实现“机房无人值守”。
6.5 实现协同管理
整个信息中心有运维人员、业务人员和决策人员,岗位、角色的不同关心的信息也不同,系统能够为决策人员、业务人员、IT运维人员、值班人员提供一致的可视化监控管理视图,实现协同管理。
6.6 实现专业化大数据分析
通过智能运维管理平台的报表统计分析,可以为用户提供详尽的运行状态报表(日、周、月、年),可以根据用户需要的时间段来出具直观的各种类型图表(饼图、曲线图、柱状图、线面图、数据表、仪表图、PDF、EXCEL文件等),从而为用户分析信息网络和个业务系统的运行状况提供了专业化的分析方法。
6.7 提供开放接口,易于系统扩展
针对不断变化的信息化需求,可以有效地容纳和支持IT规模的不断扩大和延伸,智能运维系统提供多种开放接口WebService、HTTP等,可根据用户需求定制开发服务,系统采用开放的API和高度模块化设计,能够实现整个信息化资源整合,构建更为完善的自动化统一管理平台,以保证整个系统与其他系统之间的无缝连接。
6.8 简单易用性
运维平台采用全图形化界面,具有简单易用的特点。使用人员只需进行简单的使用培训即可独立操作,主要包括以下几个方面:
(1) 提供全中文视图界面;
(2) 监控对象的配置、添加具有自动发现的功能,最大限度的节省了运维人员操作的工作量;整个监控管理平台能够不断自适应建设IT基础架构和业务系统过程中的快速扩展和调整;
(3) 运维平台的网络拓朴、虚拟化拓朴、机房拓朴及业务管理视图支持自动发现、自动生成和灵活变更功能。为设备连接关系的变化和业务层次依赖关系的变化提供了简易界面配置操作,包括:自动发现、自动生成、增加、修改、删除、复制、移动,批量复制、批量移动、批量删除等。
(4) 流程引擎是整个运营调度中心的核心,让用户轻松实现流程的定制。流程引擎不仅能够定义出ITIL相关流程,还能够定义其他IT运维流程。