业务连续性计划(Business Continuity Plan, BCP),用于在紧急情况下维持业务的连续运营。目标是通过策略、程序、流程将潜在的破坏性事件对业务的影响降至最低。
业务连续性计划和灾难恢复计划区别,
业务连续性计划:战略性,关注上层,以业务流程和运营为中心。
灾难恢复计划(Distribution requirement planning):更具战术性,描述恢复站点、备份和容错等技术活动。
区别:通常我们实施灾难恢复计划,基本都是在IT部门内部;而实施业务连续性计划,需要上到业务部门一起配合,甚至上升到CEO级别。
业务连续性计划的四个阶段,项目范围和计划、业务影响评估、连续性计划、计划批准和实施。
(1)项目范围和计划,
1.业务组织分析,这是首要职责。对业务组织进行分析,以识别与BCP 流程具有利害关系的所有部门和个人。
2.选择BCP团队:一般要包括IT、业务、安全、律师、人力、高层管理者。通常整个BCP团队成立后,对分析结果进行全面的审查,主要是确保之前的业务组织分析是否有遗漏。
* 慎重选择团队成员!目标应是创建一支尽可能多样化且能和谐共处的团队。
* BCP 团队负责人在制定业务连续性计划时,必须尽可能争取高级管理层的积极支持。
3.资源需求:一般需要三方面的资源:1.开发,2.测试、培训维护,3.实施 (最重要的资源之一是人力)
4.法律和法规要求及监管环境:政府要求,行业监管、对客户承担合同义务等。比如:银行的业务连续性计划要遵循银监会的要求、合同中包含对客户SLA的承诺。
(2)业务影响评估Business Impact Assessment(BIA),定性和定量
1.确定优先级
* MTD(Maximum Tolerable Downtime, 最大允许中断时间):MTD 是业务功能出现故障但不会对业务产生无法弥补的损害所允许的最长时间(有时也称为最大容忍中断时间(Maximum Tolerable Outage, MTO)
* RTO (RecoveryTime Objective, 故障恢复时间即恢复时间目标):RTO 是指当中断发生后实际恢复业务功能所需的时间。
* AV(Asset Value,资产价值):统计货币形式的资产价值
* BCP 过程的目标是确保RTO 小于MTD, 这使一个业务功能不可用的时间永远不会超过最大允许中断时间。
2.风险识别
* 风险的两种形式:自然风险、人为风险
自然风险:暴风雨/飓风/龙卷风/暴风雪、雷击、地震、泥石流/雪崩、火山喷发。
人为风险:恐怖活动/战争/内乱、盗窃/破坏、火灾/爆炸、长时间断电、建筑物倒塌、运输故障、互联网中断、服务提供商停运。
3.可能性评估
* ARO(Annualized Rate of Occurrence, 年度发生率):可能性的评估结果通常用年度发生率(ARO)表示,年度发生率反映企业每年预期遭受特定灾难的次数。
* BCP 团队应该一起为之前识别出的每种风险确定ARO 。些数字应基于公司历史、团队成员的专业经验以及专家(如气象学家、地震学家、防火专业人员和其他顾问)的建议。
4.影响评估
将分析在风险识别和可能性评估期间收集的数据,并尝试确定每个已识别风险对业务的影响。
* 暴露因子(Exposure Factor,EF),是风险对资产造成的损害程度,以资产价值的百分比表示。
* 单一损失期望(Single loss expectancy,SLE),是每次风险发生后预期造成的货币损失。
* 年度损失期望(Annualized loss expectancy,ALE),是一年内由于风险危害资产给公司预期带来的货币损失
* 年度发生率(ARO),(来自可能性分析)是风险每年预期发生的次数。
公式:SLE=AV×EF, ALE=SLE×ARO
* 从定性角度看,你必须考虑中断可能对业务产生的、不能以货币价值衡量的影响。(例如:在客户群中丧失的信誉、长时间停工后造成员工流失、公众的社会/道德责任、负面宣传)
5.资源优先级排序
* 资源永远是有限的,需要对资源进行排序,知道将所有风险处理完(通常不可能),或者耗尽所有资源。
* 从定量的角度看,这个过程相对简单。只需要创建一个在BIA 过程中分析过的所有风险的列表,并根据影响评估阶段计算的ALE 按降序对其进行排序,这提供了需要处理的风险的优先级列表。
* 定性分析可证实对风险优先级的提高或降低是否正确,这些风险在定量分析结果列表中存在并按ALE 排序。
(3)连续性计划:
1.策略开发(Stragegy development):确定BCP将处理哪些风险,因为有些风险可能完全不考虑,比如在一些大城市,就不考虑地震风险。
2.预备和处理(Provisions and Processes):
三类资产须通过BCP预备和处理进行保护,
(1) 人员:保证安全,提供所需的资源。比如发生问题时,要先考虑人的安全,以及加班的时候,需要提供吃喝等资源;
(2) 建筑物和设施:加固预备措施/替代站点,比如楼房的地基加固等;
(3) 基础设施:物理性加固系统/备用系统,比如UPS系统就是电力的备用系统,甚至很多大型数据中心都备有自己的柴油发电机,这比UPS的可能性更高;
可采用两种主要方法对基础设施进行保护,物理性加固、备用系统。
(4) 计划批准和实施,
计划批准:需要高层批准,级别越高越好。
计划实施:BCP 团队应该共同开发实施计划,该计划使用分配的资源,根据给定的修改范围和组织环境,尽快实现所描述的过程和预备目标。
完全部署所有资源后, BCP 团队应监督相应BCP 维护程序的执行情况,以确保计划能响应业务需求的不断变化。
培训与教育:
* 组织中的每个人都应该至少收到一份计划简报。
* 直接负责BCP 工作的人员应接受培训,并对特定BCP 任务进行评估以确保他们能在灾难发生时有效完成这些任务。
* 应为每个BCP 任务至少培训一名备用人员,确保在紧急情况下人员受伤或无法到达工作场所时有备用人员。
BCP文档化:
将计划记录下来,可在灾难发生时,给组织提供一个可遵守的书面程序。
* 书面业务连续性计划的重要组成部分
(1)连续性计划的目标,首先描述BCP 团队和高级管理层提出的连续性计划的目标。
(2)重要性声明,反映了BCP 对组织持续运行的重要性。
(3)优先级声明,业务影响评估的优先级确认阶段的直接产物(哪些系统有限,一般是BCP组做)。
(4)组织职责声明,反映了“业务连续性是每个人的职责”。告知员工、供应商和附属企业,要求他们尽力协助实施BCP 过程。
(5)紧急程度和时限声明
(6)风险评估
(7)风险接受/风险缓解
(8)重要记录计划,该文档说明了存储关键业务记录的位置以及建立和存储这些记录的备份副本的过程。
(9)应急响应指南,应急响应指南概述组织和个人立即响应紧急事件的职责。
(10)维护,BCP 文件和计划本身必须即时更新。对计划进行微小改动不需要从头开发完整的BCP, 只需要在BCP 团队的非正式会议上一致通过即可。
如果组织的任务或资源发生巨大改变,则可能需要从头开发BCP 。
(11)测试和演练,BCP 文档中还应包括一个正式的演练程序,以确保该计划仍然有效,并确保所有相关人员都经过充分培训,能在发生灾难时履行职责。
课后题答案:
BBCDA CCBDA CDCBC CDCAC
课后复习题:
1. B 。业务组织分析可帮助最初的计划者选择合适的BCP 团队成员,并指导整个BCP流程。
2. B 。BCP 团队的首要任务是对负责领导BCP 工作的人员最初执行的业务组织分析进行审核和验证。这确保由一小部分人员完成的初始工作反映了整个BCP 团队的看法。
3. C 。公司的高级管理人员和董事在执行活动时,在法律上有义务实施尽职审查。这个概念给他们带来了责任,以确保充分实施业务连续性计划。
4. D 。在规划阶段,利用的最重要资源是BCP 团队成员在规划过程工作中投入的时间。这代表了对业务资源的重要使用,也是高级管理层参与进来非常关键的另一个原因。
5. A 。优先级识别中,定量工作是给资产指定以货币为单位的资产价值。
6. C 。年度损失期望(ALE)表示给定风险下企业每年预期损失的金额。对业务连续性所需资源确定定量的优先级时,这个数字非常有用。
7. C 。最大允许中断时间(MTD)表示在对业务造成不可弥补的损害之前,业务功能不可使用的最长时间。当要确定分配给特定功能的业务连续性资源的级别时,这个数字非常有用。
8. B 。SLE 是AV 和EF 的乘积。从这个场景中,得知AV 是3 000 000 美元, EF 是90%,基于相同的土地可以用来重建设施的情况,这样计算出SLE 是2 700 000 美元。
9. D 。这个问题需要计算ALE, ALE 是SLE 和ARO 的乘积。从这个场景中,得知ARO是0.05 (或5%)。从问题8, 得知SLE 是270 万美元。这样计算出ALE 是13.5 万美元。
10.A 。这个题目需要计算ALE, ALE 是SLE 和ARO 的乘积。从这个场景中,可得知ARO值是0.10(或10%)。从上面的场景,得知SLE 是750 万美元。这样计算出ALE 是75 万美元。
11. C 。策略开发通过分析在BIA 中制定出来的优先风险列表,并确定BCP 将解决哪些风险,从而在业务影响评估和连续性计划之间架起一座桥梁。
12. D 。在业务连续性计划中,人身安全始终是重中之重。一定要确保你的计划反映了这一优先事项,尤其是在分发给组织员工的书面文件中!
13. C 。负面宣伈给公司带来的损失难以用货币数字来评估。因此,定性分析方法可更好地评价这种影响。
14. B 。单一损失期望(SLE)是指发生单个风险所造成的损失期望。在本题中,发生一次龙卷风造成的SLE 是1000 万美元。龙卷风每100 年只发生一次的事实在SLE 中不会被体现,而是体现在年度损失预期(ALE)上。
15. C 。年度损失期望(ALE)是通过单一损失期望(SLE)乘以年度发生率(ARO)计算出来的。这样计算ALE 结果是10 万美金。
16. C 。在预备和处理阶段, BCP 团队实际上设计了流程和机制来降低在策略开发阶段被认为不可接受的风险。
17. D 。这是一个备用系统的例子。冗余通信线路提供备用链路,当主电路不可用时可使用这些备用链路。
18. C 。灾难恢复计划从业务连续性计划停止的地方开始。在灾难发生并且业务中断后,灾难恢复计划会指导响应团队将业务运营快速恢复至正常水平。
19. A 。单一损失期望(SLE)是资产价值(AV)和暴露因子(EF) 的乘积。这里显示的其他公式不能准确地表达这个算式。
20. C 。你应该努力让最高级别的人员在BCP 的重要声明上签字。在所给的选择中,首席执行官的级别最高。