XX地方税务局(以下简称地税局)2009年采购并部署了IBM网络及服务器设备监控管理软件(以下简称一期工程),供应商基于IBM Tivoli产品进行了数据中心机房服务器及网络设备监控软件实施,利用ITM软件及ITM for DB模块对服务器设备可用性、操作系统、数据库性能若干指标进行了部署监控;利用NetCool各模块对网络交换设备、网络拓扑结构、网络管理基本功能进行实施部署。目前由于上级提出新的建设目标(以下简称二期工程),因此当前监控管理系统建设凸显出一些急需解决的问题,以满足现阶段的建设目标。
通过本人的现场调研及需求沟通、以及对供应商实施文档实现过程的考量。当前建设的管理系统距当前建设的需求还有一些不足,经过了解评估,主要问题如下:
1、目前的系统未能基于IBM软件设计的最佳实践进行全面的二次开发构建,存在许多功能未能实现,而这些功能是目前新功能建设的未竟前提。
2、系统界面集成的方法未能建立在IBM Tivoli软件事件管理内核的基础上,因此造成构建迭代的过程中,为完善需求导致程序修补的工作量巨大且收效甚微,不能形成项目闭环,需求分析方法和对应设计的低效在工程源头上产生了质量控制与成本银弹的风险(软件工程术语,常指代越投入越糟糕的项目的解决方法)。
3、系统后台数据未能有效进行设计和重构,使二次开发基于一个未被定制化的原始数据结构下进行,在针对某一个需求功能进行设计构建的过程中产生了冗余、错误、失效数据,为未来用户提出的报表分析展现功能难以实现埋下了风险。
4、总体来说,系统架构未能有效论证及PoC测试(PoC:需求分析前的测试试用),造成两套软件多个子模块存在集成失败的风险。导致需求不能有效导向,导致需求定义无法体现在架构设计中,自然也就无法准确的实现并交付了。
目前二期建设基于一期建设目标有了更加宽泛的管理对象和更加严格的实现目标,主要体现在以下方面:
1、网络核心层和服务器设备操作系统、数据库层面实现全指标项的监控管理,指标内容参照《需求规格说明书<监控指标项>》。
2、实现存储资源管理和容量规划的监控管理功能。
3、实现对地市接入网络设备以及其他硬件设备的分布式部署环境的集中统一监控。
4、实现对能耗监控,温度、湿度、机房环境的统一监控。
5、由于设备众多,且形成了省局、地市局等不同组织结构的核心层、汇聚层、接入层网络设备的监控,以及存在广泛的存储区域网路,金融前置机环路,小机环境网络,PC服务器网络,安防监控网络等。因此非常有必要实现监控对象的统一视图及分类,形成各个管理颗粒度。以及及监控对象层次化,并基于此层次化集成用户LDAP环境实现权限的访问控制集成。
6、由于各个软件均有自己的管理界面,各个设备均有自己的管理工具。那么如果集成这些元素以及统一设计权限及控制其各个模块的功能展现就势必需要实现基于统一管理门户的视图界面,将以上监控对象均集成在一个统一视图中,且具备集成Portlet技术、WebService技术和其他管理方式的集成性的特点。譬如:在管理界面中实现直接调用如北电网络设备的DM工具,思科交换机Cisco Works/View管理软件。达到对接口背板、端口属性可用性的可视化管理。
7、由于整个监控系统需要科学的具备事件定义和事件关联,以达到正确的传递事件处理和事件处理的动作结果,比如邮件通知管理员、故障级别自定义、故障处理授权委托、故障自动短信告知,问题解决自动形成知识库等。因此,事件管理为架构基础的管理作为IBM监控系统的最佳实践是指导本项目的关键。为此需要实现基于统一事件管理的多层次监控对象整合,实现事件管理整合,形成一个准确的、可扩展的事件管理引擎。供用户未来的新设备上线、利旧设备迁移、淘汰设备下线的可视化管理。
8、由于各个管理系统基于各自的数据源,因此设计一个高可用、可扩展、高性能的数据源非常重要,高可用性保证监控系统的稳定基础,可扩展性不但保证横向数据源的不断增长,还要解决未来第三方工具如ITIL系统、单位资产管理系统等应用对数据源的数据调用和数据集成问题。
基于以上8点需求,我的总体思路如下:
1、现有的一期工程购置的NetCool和ITM环境不再适合当前的系统环境和部署规模,需要改造。首先,需要对整体监控范围进行有效评估;测试现有网络环境和服务器设备的运行阈值;选择适合的网络带宽来构建管理网络的VLAN,升级软件补丁以适应现有环境,如Windows2008,Linux kernel 2.6,AIX 7.1等;根据分布式部署的汇聚层网络设备,以及各个地市区县未来所需的网络和监控终端如PC等情况;设计全局的监控服务布局及拓扑。
2、进行翔实的需求分析,形成监控指标,监控管理策略,事件对象的需求分析。重新设计和定义《需求分析规格说明书》,划分需求关联性以及和项目管理团队形成保证质量的实施进度风险的PM知识域,落实各个实施工作项、子项、关联优先级以及对应的工期及风险抵抗策略。
3、部署实施NetCool、ITM、Systems Director、Netview、Portal、TAM、TEC、ITCAM等组件。
4、定义事件管理和各个软件组件后台数据源设计,按照基于现有Oracle数据源或DB2新实例选择、构建具备DB2环境的HADR高可用性或Oracle RAC高可用性,形成基于InfoSphere CDC实现让报表门户集成团队实时采集数据源数据以进行二次开发,这点非常重要,会节省大量的数据源实施时间,二次开发和基础环境实施实现了并行配置管理,且基于CDC技术实现了集成人员和开发人员使用的是同样的资源库环境,减少由于数据问题导致的工期延误和质量风险。
5、优化数据源,定义事件管理TEC平台,集成LDAP权限策略。
6、迭代配置各软件的细颗粒度指标功能,不能直接实现的基于Tivoli Universal Agent Builder来构建SNMP MIB库来实现,避免采用API开发、数据源直接开发带来的低效不宜维护的代码质量风险。
7、构建基层各个组件的Portlet,实现统一管理门户。选择Porlet有助于形成独立可展现地、可查询地、可集成地门户数据。Portlet有效避免由于采用其他方式编程带来的平台版本对应的问题,形成WebService接口使整个管理系统的未来深化应用更加统一高效。
8、功能测试和集成测试须基于IBM TUP项目管理要求进行。夯实用户需求规格并落实每个模块实现的质量,形成可交付的系统。
纵观整个建设目标及当前的问题,我的建议是:
1、团队须以原厂认证服务质量保证,结合具备实力的开发商来组建团队进行,必须具备原厂认证的项目管理人员认证开发工程师为基础的核心团队以保证质量。
2、项目实施的部分软件属于一期未购置的软件,需要新购许可证。软件模块具体如下,其中软件许可价格请IBM销售人员提供。
l IBM Systems DirectorServer
l IBM Systems DirectorActive Energy Manager
l IBM Systems DirectorNetwork Control
l IBM Systems DirectorStorage Control
l IBM Systems DirectorService and Support Manager
l IBM Systems DirectorMigration Tool
l IBM Systems DirectorCommon or Platform Agents
l IBM Systems DirectorStandalone Common Agent Managers
l IBM Director UpwardIntegration Modules for Tivoli
l IBM InfoSphereChange Data Capture
接下来需要做的是:
1、组建项目团队,评估工作量及项目管理人天数。
2、销售人员核定软件许可证折扣及商务报价。
3、技术服务提供商评估核定服务内容及服务价格。
以上内容请于2011年10月10日前提交给用户。
在报告附件中,我整理了一些前期项目实施二次开发的典型功能实现文档。基于我本人的经验和团队的成功案例而来,请各位参考。