IT监控工作如何引入热门的ITIL?

IT部门需要有一张业务视图反映IT 环境。出现了什么问题,就可以到里面去找,会清楚地知道这影响什么,会关联什么,以及关联的原因。CMDB(配置管理库)就是这样一种工具。

ITIL作为现今IT业务管理的热门词,在信息中心的工作中发挥着怎样的作用?8月份,我刊组织企业与BMC公司就“IT监控工作如何引入ITIL?”开展了小型研讨会。本刊记者整理了研讨内容,以飨读者。下文中,提问方为企业代表,解答方为BMC公司。

问:怎样从运维角度理解ITIL?

BMC:对于运维来说,ITIL可以说是最佳理论,是一套指导思想。参与运维的工作人员要知道什么是ITIL, ITIL包含什么内容。怎样做好运维?怎样在已有的基础上如何提高水平?这是从运维角度理解ITIL的要旨。这需要考察运维的现状是什么样,下一步该怎样去做,这包括将来的组织架构、人员安排、分工和分配,所使用的设备等等是如何结合的。这些都需要在ITIL理论的指导下进行。

问:信息中心作为一种提供IT服务的部门,怎样在实际工作中体现ITIL?

答:ITIL的意义在于为业务人员和信息中心提供一套“共同的语言”。因为人员、工作领域、角色的不同,双方需要有一个有效沟通的平台。而参与业务工作的人员如果对ITIL的理解达成共识,有利于大家就进一步讨论建造服务模型、设置变更控制模型、设置配置管理等。

这涉及事件管理、问题管理、服务台、配置管理、变更管理等一系列过程。到底要解决什么样的问题?问题的解决需要哪些角色参与?每一个人又是处于哪种角色?所有的业务部门就可能会有一个相应的变化,每一个角色在整个流程中会向哪个方向发展,因此就形成了一个相互沟通的平台,在这个平台上,可以继续讨论怎么达到很好的效果、寻找互相配合的方式。

ITIL解读

问:ITIL的主要内容包括什么?怎样具体理解?

BMC:ITIL主要分为两大部分,一部分是服务支持,一部分是服务交付。每部分当中各有5个流程。总括起来是比较明确的10个流程。ITIL是IT服务管理,即有效地结合流程、人员和技术,把这三者有效结合起来交付一种高质量的服务,这就是IT服务管理想要达成的目标。在实际中会涉及很多问题,这是因为每个部门对此真实操作与应用的理解不同。

另外,由于具体从事工作的都是人,每个人都有自己的特点,有很多不确定因素。这些人员的不确定性因素,最终影响IT服务的质量,那么需要人们采取一定的办法把这问题解决掉,并保证每次提供的服务质量都差不多。实际上,这就是控制。通过控制保证服务是一个很有效的过程。

服务支持涉及的内容是运行部门在日常工作中会经常用到的东西。比如事件管理、问题管理、配置管理、变更管理和发布管理,再加上服务台,这些构成了服务支持。

服务交付中涉及的内容是一种战略性的东西。它包括5个交付流程,比如容量管理、IT服务的财务管理、可用性管理、服务水平管理以及IT的服务连续性管理。这些内容更具战略性意义。比如,如何避免那些偶然发生的事情的影响;比如服务连续性,不管天灾人祸都能保持一定水准的连续性;容量管理也不是一个短期的东西,需要根据业务需求变化而进行。

需要说明的是来自业务部门的要求不断变化,因此服务管理也必须是一个连续的过程。在这个循环过程里面,要保证原则性的东西不变。

如何划分人员角色?

问:能否举例说明,按照ITIL,信息部门的人员角色如何划分呢?

BMC:以数据中心为例进行具体分析,有面向技术也有面向用户的部门设置。传统的网络管理、数据管理、应用管理、操作系统管理,是以技术为导向,针对不同的技术特点形成的岗位设置,形成的不同团队。而面向用户即业务部门,就是ITIL中经常使用到的变更管理、问题管理等。

服务台作为一个接口,其作用是要用户知道问题发生的时候要找谁,而不是直接找网络管理员或者信息管理员,而是首先应该找服务台。

假定要做一个补丁的分发,应该有一个变更管理的角色来控制这个过程,因为这个过程很可能是跨越好几个组/团队的,需要有一个面向用户的管理员,由他来协调不同组/团队之间的合作关系。比如客户的账户管理,加账户或者减账户,这些都是最常见的问题。

比如问题管理,有些问题总是解决不了,总是需要有一个人牵头去解决,这个事情的解决可能要牵涉到系统、数据库、应用等多方面。这就需要这个牵头的人在用户界面提供接口。比如提供桌面支持,面向常见用户产生的要求。比如说机器无法启动,安装办公软件等,常常会在用户界面设立一个团队来解决这些问题。

  


另外就是后台的一些支撑部门,是一些策略性的部门,如容量管理。就是某一个人来进行容量管理的规划,根据未来一年或者半年业务方面可能产生的需求来做计划。

问:在上述案例的数据中心中,ITIL设计的意义是什么?

BMC:数据中心需要做一种战略性的规划设计,还有整个架构的设计。需要有人负责整个数据中心的框架工作,还有咨询服务,知识的共享或者内外知识的传递,来形成内部要做一件事情的共识。

另外,比如项目管理主要指后台管理来保证整个项目的质量。还有安全管理,这是跨越多个部门的任务,其他的就是负责日常沟通的工作。

这是一个典型的数据中心可能会出现的功能分布:技术方面就是按照环境来分解人员的责任;用户方面是根据客户需求来分解人员角色;支撑部门是根据全局来划分任务的,是策略性的任务划分。

另外的一些部门设置就是因为支持的客户是远程的。比如说公司的远程部门,在某国、某地的派驻人员。这就是一个较大的IT部门可能的组织结构。

问:在EDC(企业数据中心),怎样体现ITIL思想呢?

BMC:从IT的整个人员布局来看,应该是围绕着数据中心来布局的。

EDC MANAGER是围绕着数据中心这群人的一个管理者。比如BMC公司自己的数据中心有两个,一个是主,一个是备;一个位于休斯敦,一个位于硅谷;绝大部分IT人员也主要集中在那两个地方。然后其他地方都是些派出人员,比如整个亚太地区只有六个人,可能要支持整个亚太区的十几个分支办公室。EDC MANAGER 可能在德州,也可能有一个硅谷,这两者是平行的,其他的就是各区的派出机构。

CMDB:建立业务视图

问:如何从ITIL意义上理解CMDB(配置管理库)在企业中发挥的作用呢?

BMC:一般企业需要一个CMDB,在做IT运营的时候需要这样的一个数据源,因为能够大大加快运营效率。从IT运营的发展目标来看,如果要强调精准性和效率,建立CMDB肯定是一个发展方向。

从业务角度来看,它不仅仅实现对IT系统内部各个元素信息的跟踪,而是能够深入了解各个流程配置信息,并对配置信息进行共享。

在实际工作中因为数据库维护的工作量很大,不可能靠人工来维护,业务人员希望拥有一个能够分担一部分工作的工具。这个工具能够扫描IT管理的环境,比如里面都有什么构件,使用的是什么版本等,以及它们之间是怎么连接起来的,这样可以减轻大量工作,而这就形成了CMDB的数据源。

问:这是否意味着,在实际工作中,是需要一张业务视图来考察整个IT的运营情况?

BMC:是的,需要有一张业务视图反映IT 环境。出现了什么问题,就可以到里面去找,会很清楚地知道这会影响什么,会关联什么,以及关联的原因。如果实际中有这个业务视图的话,会大大提高工作效率。

除此之外,人们还需要基础架构来监测系统的运行状况,所有的结果将会以事件形式表现出来,然后根据事件与整个业务视图的关联来查找事件的原因、破坏程度大小、影响范围等方面的信息,最终确定会影响到的业务部门以及相关度大小。主要是通过事件与整个业务视图建立关联关系来提高工作效率。

从服务台里得到这个业务影响信息之后,就可以启动相应的服务管理流程。

再就是变更管理,在系统中,一个很小的变化,可能因为没有有效的管理而带来很大的影响,需要有一个变更流程来预防变更的风险。

变更管理实际上是把许多人员放到一个系统里面,需要多种角色参与,来保证变更的风险是最小的,对整个系统没有影响。

以某银行为例:其IT规模其实不大,有70多个服务器,40多个IT人员,组织机构并不是很大。但是承担的任务很大,它影响到很多银行和持卡用户,因此对IT运行的要求非常高。

实施ITIL之后,该企业总结认为主要有三方面的收益:

一、 业务的成功。他们的网络平台搭建用了3个月的时间。

二、 实现不间断服务。因为银行后端问题不断,每天产生的事件量也比较大,而BMC的服务管理工具remedy提供了比较好的平台工具,缩短了故障处理时间。主要是流程控制方面做得比较好,保证了服务的连续性,采取了预防性的措施,把问题消灭在发生之前。

 


三、 提高了客户满意度。BMC拥有专门针对Unix、Windows、WebLogic、BEA Tuxedo、DB2 UDB、Sybase、Oracle等的Patrol软件,通过和Patrol企业管理平台(PEM)的集成,这样可以监控和管理整个企业内部的IT设备和应用程序,在网络设备或计算机出现异常状况,会在业务视图里通过不同的颜色表现出来。

例如,CPU占用率过高、硬盘剩余空间过低时,自动通知(短信通知)相关的技术人员,在故障发生之前就开始处理。

同时,由于Patrol企业管理平台和Remedy操作请求系统套件(ARS)配合,在故障发生时,系统自动形成故障单,形成一个历史记录,并能够自动通知级别不同的技术人员来解决故障,自动化消除停机时间,缩短故障响应时间,使服务可用性和性能达到最大化,直接提高了其直接客户的满意度。

另外,依靠Remedy Help Desk(帮助台软件),该企业可以为其间接客户—持卡人提供更加优质的服务。该企业的IT部门可以跟踪ATM、POS机等发生故障时的事件处理过程,通过记录所有的错误信息和标识,识别出反复出现的系统错误,并尽快用最有效的方法来解决,这样,可以积累故障解决方法,形成知识库,从而更高效地解决故障和预知故障。

如何建立业务视图?

问:一般而言,业务视图需要多长时间建立起来?

BMC:真正做业务视图的时候不要追求一步到位,抓住几个核心的系统,以此为主线来建设。比如说有20个系统,不可能一下子把他们全部建设完全,一般情况下可以先找几个最重要的,以它为主线,从上往下建立模型,等收到效果之后再增加其他的系统。

问:那么建立业务视图应该如何下手呢?

BMC:建议纵向考虑问题,先找出核心,再围绕它来增加其他的信息系统,如果能够涵盖80%的信息量,就是个很不错的结果。目前如果能够把基础架构及其它们之间的相关关系弄出来,已经很有帮助了,能够根据数据来确定故障的所在处。

问:在建立业务视图的过程中,是否可以实现与第三方的整合呢?

答:整合有几个层面。首先是在基础技术监控和事件管理平台之间,这个地方可能需要整合。主要问题是把所有的工具整合到同一个系统中。另外,从事件管理平台到服务管理平台也是需要整合的。

此前举例的公司在其成立之初就开始考虑整合问题,到2002年IT发展实际上已经到了一个相当先进的程度。到现在为止,这个项目也一直在建设和完善之中。在运行已经这么多年的基础上,一步步发展起来。

你可能感兴趣的:(工作)