第十九章 故障及问题管理
670、故障是系统运行中出现的系统本身问题或任何非标准操作,已经引起或可能引起服务中断和服务质量下降的事件。
671、故障处理�贩⑾止收鲜蔽�尽快恢复系统IT服务而采取的技术上或管理上的办法。
672、故障的特征:即影响度(故障影响业务大小程度指标)、紧迫性(评价故障和问题危机程度指标)和优先级(描述处理故障和问题的顺序)。
673、故障管理目标是尽可能快地恢复服务级别协议规定的水准,减少故障对业务运营的不利影响,确保最好的服务质量和可用性。
674、故障管理范围:硬件及外围设备故障、应用系统故障、请示服务和操作故障。
675、硬件及外围设备故障如主机宕机、设备无故报警、电力中断、网络瘫痪、打印机无法打印等。
676、应用系统故障包括服务不可用、无法登录和系统出现bug。
677、请示服务和操作故障包括:忘记密码、未做来访传遍。
678、故障管理流程包括:故障监视、故障调研、故障支持和恢复处理、故障终止,另外还有故障分析定位及故障处理跟踪。
679、故障监视包含监视的考虑因素、故障接触人员、故障原因分类、监视项目及监视方法。
680、故障监视的考虑因素有:影响度、紧迫性和优先级
681、故障接触人员有:故障现场接触人员、初级支持人员、高级支持人员。
682、故障原因分类:对非计划宕机故障原因有三类即技术原因(如硬件,OS,环境因素及灾难性事故)、应用性故障(性能问题、应用缺陷Bug及系统应用变更)和操作故障(人为进行非法操作或错误操作)。
683、实际操作中对非计划宕机故障原因有七类:按计划的硬件、OS维护操作时引起的故障、应用性故障、人为操作故障、系统软件故障(OS死机、数据库故障)、硬件故障(硬盘网卡损坏)、相关设备故障(停电时USB失效)和自然灾害(火灾等)。
684、故障调研包括:故障信息搜集、故障查明和记录。
685、故障分析和定位包括故障调查分析和故障定位分析。
686、中央处理器故障定位:其原因是集成电路失效(更换电路卡)
687外围设备故障定位:对外围设备故障检测采用脱机检测和联机检测两种方式,其故障有两种集成电路失效(更换电路卡)和特殊故障(磁盘盘面损伤、读写磁头位置偏离、打印机打印部位损坏、打印约传递机构故障等)。
688、脱机测试指外设在逻辑上与CPU脱离下对外设运行特定测试程序,进行不含接口部分的功能测试。
689、联机测试是测试设备与CPU的接口部位协调关系,还可进行模拟环路测试。
690、故障的基本处理程序是:①计算机发生故障导致系统不能运行时应停机进行临时性维修②区分是软件故障还是硬件设备故障③如是软件故障,可能是系统软件不能正常运行引起的,或因争夺资源出现死锁造成④软件故障排除方法是采用重启系统或其他人工干预手段恢复排除。⑤如是设备性能变差引起的硬件故障,应切换到备用系统,先恢复系统服务⑥使用测试程序检测故障机各部件,特别是中央处理器和磁盘存储两部件,尽快进行故障定位,然后进行后续维修。
691、主机故障恢复措施:主机故障时通常需启用系统备份进行恢复,有热重启、暖重启和冷重启三种。热启动服务专门针对客户暂时的系统故障提高立即恢复可用性的服务。冷重启服务提供商专门解决长期的系统问题(系统完全瘫痪)。
692、热重启恢复时间最快,也最难实现,也需要预先备份部件(需保存当前信息),如2N系统。暖重启也需保存当前信息,当备份部件和现行部件不完全相同的系统中,更易实现暖重启。
693、冷重启最易实现,但需最长的时间,备份部件只能从初始状态开始。热重启模式时间为T,暖重启时间将会是2-3T、冷重启时间为10-100T。
694、系统发生故障,利用数据库后备副本和日志文件可将数据库恢复到故障前的一致性状态,数据库故障分为事故故障、系统故障和介质故障。
695、事务故障指事务在运行至正常终点前被终止,其恢复措施由系统自动完成,恢复步骤是:①反向扫描日志文件②对该事务更新损伤执行逆操作③继续反向扫描日志文件④如此处理下去直至此事务开始标记。
696、系统故障是造成系统停止运转的任何事件,使系统要重新启动,如特定类型硬件错误、操作系统故障、DBMS代码错误、突然停电等。其恢复由系统重新启动时完成,恢复子系统撤销所有未完成的事务并重做所有已提交事务。恢复步骤:①正向扫描日志文件②反向扫描文件③正向扫描文件。
697、介质故障也叫硬故障,指外存故障如磁盘损坏、磁头碰撞、磁场干扰等。恢复方法是重装数据库,然后重做已完成事务。步骤是:装入最新数据库后备副本、装入相应日志文件副本。介质故障的恢复需DBA(数据转储的介入)。
698、网络故障指线路故障或网络连接问题,需利用备用电话或改变通信路径等恢复方法,恢复措施有:双主干(辅助网络承担数据传输任务)、开关控制技术、路由器、通信中件。
699、问题是指导致一起和多起故障的潜在的、不易发现的原因。已知错误是一个故障和问题。
700、问题控制过程是把应急措施记录在问题记录中,并提供意见和建议。故障控制重在解决故障并提供响应的应急措施。故障管理是尽可能恢复服务,而问题管理是要防止再次发生故障。
701、错误控制是解决已知错误的一种管理活动。问题预防是在故障发生之前发现解决问题和已知错误。
702、问题管理和控制的目标:①是将由错误引起的故障和问题对业务的影响降到最低②找出故障和问题的原因,防止再次发生与之有关的故障③实施问题预防。
703、问题管理流程主要涉及问题控制、错误控制、问题预防、管理报告4种活动。
704、问题控制过程包括:①发现和记录问题②问题归类③调查分析④错误控制⑤跟踪和监督⑥问题管理数据库。
705、所有原因未知的故障被称为问题,将重复发生的和非常严重的故障归类为问题。
706、调查问题的过程是发现故障产生的潜在原因,更细致深入范围更广,需专家支持。调查故障的过程是尽快恢复服务。
707、问题分析方法有四种即Kepner&Tregoe法、鱼骨图法、头脑风暴法和流程图法。
708、Kepner&Tregoe法是一种分析问题的方法,分为五个阶段即定义问题、描述问题、找出产生问题的可能原因、测试最可能的原因、验证问题原因。
709、鱼骨图法是分析问题原因常用的方法,是将系统或服务的故障问题作为结果,以导致发生失效的因素作为原因绘出图形,故鱼骨图法又叫因果图法和石川图法。
710、头脑风暴法是激发个人创造性思维的方法,即明确问题、原因分类和获得解决问题的创新性方案,须遵守畅所欲言、强调数量、不做评论、相互结合四个原则。
711、错误控制是管理控制并成功纠正已知错误的过程,对所有已知错误的发现、解决的全过程进行控制。
712、错误控制流程为发现和记录错误、评价错误、记录错误解决方案、终止错误、跟踪监督问题和错误的解决过程五个部分。
713、问题预防的流程包括趋势分析和制定预防措施两项活动