导语:随着IT的快速发展,中国用户对先进技术的追逐和应用正日益高涨。回想我们已经建立的这些业务系统。我们不得不用如下几个词来形容:复杂、动态、故障多和管理难。在繁琐的日常运维工作中,来自各个部门的人,似乎又在默契地担负和实现着这样的同一个使命:保持关键核心业务系统正常运转。网络系统监控软件是用来帮助IT运维人员,缩短故障解决时间和提高工作效率的有力工具。选购网络系统监控软件的技巧在于对自己的IT系统深刻的理解和对管理需求深刻的理解。假设您的用户是通过这样的一个访问路径来查看客户信息:浏览器àInternetàWeb服务器à中间件服务器à数据库;首先标出在这个路径中的每个点上,开发、测试和运行维护等各部门人员是怎样分布的。假设在每一点都有这样的一个自底向上的技术堆栈:网络à服务器操作系统à数据库à中间件àWeb服务器à客户端。再让各部门的每个相关的人员标出在哪些区间所消耗的时间和遇到的故障是最多的;这些故障是什么?记住把这些信息记录下来,并打印出来,无论如何这样的原始数据都是IT管理优化非常好的参照。在得到这样一个管理需求的分布图后,接下来就可以按图索骥来挑选相关的管理平台以及相应管理模块。一个好的监控管理系统并不一定试图监控和管理到技术堆栈中的所有对象,而是在您最需要帮助的核心部分提供有利的支持,为您清晰呈现IT系统的这样几个关键因素:可用性、性能和故障状况。记录和分析核心业务系统在这些方面的变化情况是IT监控管理软件的主要功能。
IBM Tivoli和HP OpenView是主流IT监控管理套件中的两个重量级角色。它们是两个著名的市场品牌,旗下丰富的管理模块组成了非常全的产品线。选择标准如何确定呢?管理工具提供的管理功能永远超过其它因素,做单纯产品线长短的比较是没有意义的。一个清晰的管理需求定义可以使您能够非常轻松的考察和比较不同品牌的管理产品。由于它们都属于管理平台型产品,管理功能都非常的丰富和全面。本文对这两个产品的介绍和分析,无法面面俱到,所以只能对它们的工作方式、特性和原理等方面做粗略的比较;旨在抛砖引玉,引起读者注意,给您提供若干提示和思路。下面就网络管理和应用系统故障管理(操作系统、数据库、Web应用等)这两方面来做一个简要的分析和比较。这也是对核心业务系统监控管理的最基本内容。
网络管理方面:IBM NetView和HP OpenView Network Node Manager都是很好的产品,有很多可选的功能模块。众所周知NetView产品是当年IBM从HP购买的,NetView和OpenView NNM算是一对孪生兄弟。后来,它们在各自的家庭里慢慢的长大,成为个性不同的两个产品。如今的OpenView NNM在下面的一些方面可能比NetView做的更为出色一些:1)很好的支持多种行业标准的管理协议:多个版本的SNMP、ROMON、Netflow、Ipv6、OSPF、HRSP、CDP等;2)提供全面的网络管理视图,包括二层和三层的网络拓补图;以及VLAN和其它协议视图;3)有效的内嵌事件关联引擎和事件管理配置工具,对用户处理事件和相关事件非常有帮助。OpenView NNM毕竟是具历史悠久的成熟产品,不过在IBM收购了Micromuse后;今后可能在网络管理方面,IBM和HP也可以不相伯仲了。网络管理的特殊性在于:只能通过行业标准的管理协议来从这些硬件设备上获得所需要的信息。网络监控系统一般作为网络设备的数据收集器和网络设备SNMP Trap的目的地。在多厂商设备的网络环境中,监控系统需要的是对各种硬件设备的兼容性;从实际环境出发,选择更能反映真实运行环境,更易于理解,而且容易使用的产品。
应用系统故障管理:这个管理范畴中包含最多的管理功能和管理模块,它管理操作系统和操作系统之上运行的一切对象:各种数据库、Web应用、中间件、Web服务、邮件服务和标准商业应用等。它与实际业务应用系统同时运行在同一个网络环境当中,是它肩负着对核心业务系统的监控。由于这部分的功能最多最复杂,它往往被看作是管理监控的平台或者框架,是监控系统的核心部分。所有管理对象的故障告警事件都汇聚到里,其它各个功能模块都以它作为通讯平台和数据存储中心。Tivoli Monitoring和OpenView Operations就是这样的核心模块产品;它们都有很多其它相关的管理模块,这些模块大多数需要加载到这个核心框架上运行;部分模块是可以独立运行,同时和它们做故障事件集成。用户使用界面、管理策略定制、管理对象轮询、故障事件报警和管理报表等功能都关联到这里。下面将从四个不同角度简单比较一下Tivoli Monitoring和OpenView Operations的各种特性。
1、监控代理的差异 在监控主机上安装监控代理是各个厂商的相同做法,代理程序运行在被监控主机上和管理服务器通讯;执行各种数据收集任务和管理策略。操作系统代理是最基础的模块;有的厂商可以通过操作系统监控代理程序来实现对数据库、Web应用、中间件、Web服务和邮件服务等的监控,有些需要安装和配置多个代理监控程序。
IBM Tivoli Monitoring |
代理程序和管理服务器之间,以及管理服务器的各个组件之间用CORBA协议通讯。管理代理负责从资源对象中参照CIM模型采集可用性、容量和性能等监控数据,并且提供数据的本地保存。管理代理可以执行用户通过管理界面输入的操作命令;收集和分发管理服务器所需的实时和历史性能数据。提供命令行工具实现远程代理程序安装。 |
HP OpenView Operations |
代理程序和管理服务器之间是Client/Server结构,通过RPC和TCP/UDP协议用来实现通讯。代理程序属于是SNMP代理,一个操作系统代理由三个部分组成Message Agent、Monitor Agent和Action Agent。对各种数据库和应用程序的监控通过各种智能插件(SPI)来完成,这些SPI是多组监控模版、策略文件和报表。代理程序只支持本地安装。 |
2、告警机制的差异 代理程序在采集和整理实时和历史的监控数据时,需要随时检查各种报警条件是否满足。监控最好能在故障状况发之前,将各种迹象以不同级别的事件精确地、及时地汇总到管理服务器端,以邮件,短信等方式通知到相关工作人员。
IBM Tivoli Monitoring |
在监控对象阈值设置上可以实现复杂的逻辑。对于某个采集点在某时间点或者时间段上的数值,可以设置它和另外一个数值的几乎所有算术关系的比较;还可以逻辑上和其它采集点的状况做关联。告警条件的定义可扩展到:在给定的时间内、多资源、多阈值的情况。告警条件的判断是在代理程序端完成,最终发送告警事件到管理服务器。能定义在临界值到达时的自动触发处理动作。 |
HP OpenView Operations |
告警条件的设置可以对于某个采集点在某时间点上的数值,能提供大于和小于的比较条件;其它的情况可以通过VB、Perl脚本来实现复杂条件判断。能设置尖峰持续时长,对有本地重复事件报警抑制功能;代理程序可以在临界值的到来、持续和结束三个不同阶段,定义和发出不同的事件提示;执行不同的故障修复动作。 |
3、用户使用界面的差异 图形化用户界面是产品选型的重要因素之一,易用性高的用户使用界面可以降低软件的复杂度。IT管理软件功能的复杂性是很多用户望而却步的一个主要因素。中国用户对报表的需求是比较特殊和苛刻的,往往需要定制和开发特定的管理报表,所以需要详细考察预定义报表和相关开发接口。
IBM Tivoli Monitoring |
窗口用户界面和Web界面保持高度的一致性,用户可以通过Java客户端和Web浏览器连接到相同的工作区上。Tivoli用户界面非常像是一个报表分析系统。在工作区中有很多预定义的窗口,能方便的开始系统状态的查看和监控策略的定制。管理平台内置的基于权限和角色的管理也由用户界面得到了实现;分权和分区域管理是很多大型企业环境的必要需求。 |
HP OpenView Operations |
图形用户界面能提供业务管理的业务视图,管理员进行面向业务的管理,实现故障定位、分析、跟踪和解决等相关管理工作。用户界面还包括各种预定义的策略模版、工具和报表。多种不同层面的中文管理报表,可以满足客户对网络性能、故障、配置等各方面的管理要求。Web用户界面和窗口用户界面稍有不同。 |
4、体系架构的差异 根据企业环境和管理需要的不同,监控系统有时候需要能够跨地域全网监控;有时候也只限于监控某个IT中心的核心系统。监控系统有时候和生产系统在同一个网络,有时候又只能部分运行于生产环境。在完成所有监控任务的同时,还要能被用户方便的访问;对网络的适应和防火墙的友好性是必不可少的。
IBM Tivoli Monitoring |
它的三层管理结构可以实现分布式多级系统管理。内置了基于角色和权限分工的安全机制,所有的权限定义在管理平台中实现。IP.PIPE协议可以满足跨火墙地址转换的管理需要。同时,IP.PIPE也对防火墙端口的设置有最小的要求,以适应企业越来越严格的安全规范。 |
HP OpenView Operations |
能支持灵活的分布式管理模式;能实现包括对等中心、向阳式和互为备份管理中心等多种方式。用这些架构特点可以保证跨地域和跨广域网统一集中管理的实现。两层的管理结构使得管理架构相对简捷和易于部署。 |
上述四点是应用系统故障管理的几个关键部分。其中的技术细节和实现方式和运行细节往往比较复杂。其实任何一个具体的IT环境对监控产品都是非常具有挑战性;监控产品也可能在某些环境中无法工作;也可以对系统造负面影响。然而,深刻理解监控管理需求和实际IT环境的您则只需要做好对产品功能和架构特性的考察即可;同时将所有其他影响都降低到最小化的可以接受的范围。
IT监控管理系统的复杂性和企业对业务应用系统管理需求的动态性,使我们很难简单的总结出一个管理秘笈或者产品技术宝典。IT管理工作的开展除了选择好用的管理监控工具外,还一定要遵循:“二分工具,八分流程”的二八管理原则。如果您机房中的电缆正像蜘蛛网一样蔓延;您的IT运维人员天天都在抱怨的电话中度过;您的硬件维护开支在漫无边际的增长;这是您可能需要学习借鉴一下ITIL最佳管理实践模型,对IT管理的优化和改革不仅需要各种监控工具的帮助,也需要通过改造管理流程来提高工作效率。总之:核心业务系统不仅需要好的IT监控管理工具,也需要CIO/CTO来设计和驾驭优良的管理流程。