已经不记得在那里摘录的文章了,今天在整理文档的时候又翻出来了,看了又看感觉还是不错,推荐给“童鞋”们!
互联网数据中心(Internet Data Center,IDC)专注于为客户提供高速可靠的数据接入服务,为企业、应用服务提供商、内容服务提供商、系统集成商、ISP等提供大规模、高质量、安全可靠的服务器托管、租用以及虚拟主机等基本业务。数据中心是一个大规模、开放式的网络系统,应用环境比较复杂,其中包含各种应用系统,例如:游戏服务器、WEB服务器、FTP服务器等。数据中心通常拥有多个分布在不同的地理位置的机房,每个机房的网络环境、客户应用以及安全状况均不相同。各个机房都不同程度的存在一些安全隐患,并且曾经发生过一些安全事故,对数据中心的正常运行造成了严重的影响。
为了保障IDC网络系统安全稳定的运行,向相关方提供及时的服务,系统应遵循以下原则:
1) 实用性
应依据目前的用户规模、业务运营情况的服务需求,设计系统的规模、软件功能和业务功能。
2) 经济性
系统的建设应考虑投资的经济性,应充分利用现有网络安全设备。
3) 标准化与开放性
系统软件、应用软件的建设应遵循业界统一标准,具有开放性,应保证所选不同型号的硬件设备能相互兼容。
4) 安全可靠性
要保证系统安全、可靠的运行。
5) 可维护性
系统的软件都应提供方便、灵活的维护手段,方便应用人员的维护和管理。
6) 可扩展性
系统的设计和建设要充分考虑网络、硬件的扩展需要。系统采用开放的可扩充模块结构,保证以后可以方便地升级,实现增加新业务、增加容量、以及在同一平台上扩充其他业务功能。
7) 模块化
系统提供的应用模块,用户可以有选择地运用,每个软件之间相互独立,模块接口开放、明确,任何一个应用模块的损坏和更换不能影响其他软件模块的应用。
8) 成熟先进性
技术的选型和设计要在体现先进性的同时,保证成熟性。
三零盛安安全服务严格按照安全服务生命周期执行,使得安全服务能够系统、有效的执行下去。在生命周期的每一个阶段都有相对应的一系列安全服务的提供,根据客户的需求以及客户信息系统的当前状况,可以有选择性的定制和强化某一阶段的服务内容,使其更加贴切用户的实际需求,达到更好的服务效果。
图1 安全服务生命周期
以下将按照安全服务生命周期的各个部分需要实施的安全服务内容,结合数据中心的状况和实际的安全需求,给出相应的各个阶段的安全服务的服务计划和技术建议。
1.4.7 事件分级管理
针对数据中心的特点,我们定义了四级故障事件,将按照以下的标准对故障事件进行分级:
重大责任事故:超过一级故障限制时间的事件。
一级故障事件:现有的系统停机,或遭到严重攻击行为或安全事件,对数据中心的业务运作有重大影响,持续小于4小时的事件。持续时间超过4小时则升级到重大责任事故。
二级故障事件:现有系统的操作性能严重降低,或由于网络性能失常或安全事件严重影响数据中心业务运作,持续小于8小时的事件。持续时间超过8小时则升级到一级事件。
三级故障事件:系统的操作性能受损,安全事件例如病毒在小范围内发作,但大部分业务运作仍可正常工作,持续小于24小时的事件。持续时间超过24小时则升级到二级事件。
四级故障事件:在服务器、存储设备、安全设备等的功能、安装或配置方面需要信息咨询或技术支持。本级故障事件对数据中心的业务运作几乎无影响,或根本没有影响,持续小于48小时的事件。持续时间超过48小时则升级到三级事件。
我们定义,四级故障事件属于日常运维服务范畴,三级故障事件仍由日常运维服务处理,但需要向应急响应服务人员告知;二级故障事件和一级故障事件属于应急服务项目,故障事件从三级升级到二级时,由运维服务人员及时通知应急响应服务人员启动应急响应服务。
图2 故障事件分级
各级故障事件的最晚响应时间为:
响应时间 |
一级故障事件 |
二级故障事件 |
三级故障事件 |
四级故障事件 |
1小时 |
技术服务人员 技术支持专家 |
|||
2小时 |
技术支持专家 |
技术服务人员 |
||
4小时 |
事业部总经理 分管副总经理 |
技术支持专家 |
技术服务人员 |
|
12小时 |
总经理 |
事业部总经理 分管副总经理 |
技术支持专家 |
技术服务人员 |
故障响应时间
备注:以上响应时间按照7x24小时计时。
我们将根据以上标准对故障事件进行定级,并根据故障事件的等级来制定安全服务的指标。
1.4.8 优先级定义
对于数据中心这样一个大规模的网络系统而言,应用系统繁多,很难做到面面俱到,即便采取严格了安全保护措施,仍然可能存在安全漏洞,特别是存在受控性较弱的托管服务器。可能遭受网络攻击和病毒破坏,影响数据中心系统正常的运行,造成系统瘫痪。通过即时恢复服务的支持,可以有效的应对这些突发事件,借助专业的安全服务公司来解决问题,及时恢复系统的正常运行。
根据IDC的实际情况,按照安全事件程度划分等级如下:
优先级1(P1): IDC机房骨干网络严重故障,造成单个机房30%以上用户业务中断或掉包率持续超过10%,严重影响IDC基本业务正常开展。
优先级2(P2): IDC机房部分网段严重故障,造成单个机房5%以上用户业务中断或掉包率持续超过5%,影响IDC基本业务正常开展;核心网络区功能出现故障或性能大幅下滑;应用服务器区,网管服务器区增值服务器区业务或功能上出现故障。
优先级3(P3):IDC机房部分网段故障,造成单个机房2%以上用户业务中断或掉包率持续超过1%;应用服务器区、网管服务器区、增值服务器区性能上出现大幅下滑。
优先级4(P4): IDC网络设备、应用系统或者安全系统改进问题,以及其它存在的安全问题,但尚未产生重大影响的问题。办公网出现功能故障或性能下滑。
1.4.9 响应时间
优先级1(P1):1小时到达现场;
优先级2(P2):2小时到达现场;
优先级3(P3):4小时到达现场;
优先级4(P4):12小时到达现场;
1.4.10 排障时间
优先级1(P1):1 小时内提交解决方案,在数据中心同意的情况下控制状态,保证运营系统能提供基本服务。12小时内完全解决事故或明确故障原因;
优先级2(P2):2小时内提交解决方案,在数据中心同意的情况下控制状态,保证受影响系统能提供基本服务。24小时内完全解决事故或明确故障原因;
优先级3(P3):12小时内提交解决方案,在数据中心同意的情况下控制状态,保证受影响系统能提供基本服务。24小时内完全解决事故或明确故障原因;
优先级4(P4):对系统改进的问题以双方协商的时间为准;其它存在的安全问题不超过3个工作日;
1.4.11 应急响应体系
信息安全应急体系包括事件定位、影响分析、控制风险、限制损害事故的后果、并经过演练后加以执行、以确保在所要求的时间期限内恢复业务处理、减少事件的影响,降低系统的风险。
经过评审批准的关键业务体系是组织应急预案保护的对象和组织进行应急预案设计的依据。应急预案的设计应当包括IT应急措施、非IT应急措施、相关部门的协调、应急资源的保证、应急预案启动条件等。
1. IT应急措施的设计
对关键业务的应急保护,首先应该通过IT内部的应急措施加以实现。这些IT措施主要是数据备份、网路备份以及系统和网络的应急调用等。IT应急措施的设计应当具有可操作性。
2. 非IT应急措施的设计
对关键业务的应急保护,尤其是与计算机信息网络系统关联程度一般或者与计算机信息网络系统关联程度极高的核心关键业务的应急保护,应当考虑采用非IT应急措施加以实现。非IT应急措施是在关于计算机信息网络系统短期内无法恢复的假设基础上进行关键业务连续性设计的。如,切换到手工的方式进行业务的操作,或通过介质传输的方式进行半自动业务操作等。
3. 相关部门的协调
组织的应急预案设计是从组织保护整体利益,降低组织整体风险为基本出发点,因此,对关键业务的应急保护涉及组织的各个部门和各个方面的配合和支持。关于关键业务应急保护相关部门的关联方式是组织应急预案设计的关键。
4. 应急资源的保证
应急预案设计应当将应急活动程序化,并通过程序化确定执行应急预案所许的组织资源,包括人员、设备、资金和其他物资,尤其是人员的保证和其他资源的同意指挥调度等。应急资源的保证还包括供应商、开发商、系统集成商,以及其它外协和相关单位支持。
5. 应急预案的启动条件
组织应急预案的启动条件是组织应急预案设计的重要内容,也是实施应急预案的必要条件。组织应当严格规定应急措施的实施和应急资源调用的程序、决策者和责任人。同时,启动应急预案的决策信息必须来自组织规范的报告制度,并有记录及可追溯。
6. 应急预案的演练
组织的应急预案正式批准之前都必须进行演练。演练也可以在仿真条件下进行,但参加演练的人员必须与实际执行应急预案的人员的组成相近。应急预案演练是组织应急预案完善的重要工作,包括应急预案演练的计划安排、演练过程和效果的详细记录,演练活动的评估报告和应急预案改进建议等。
应急预案演练的计划安排
应急预案演练应当事先进行周密的组织和安排。组织的信息部门应当将初步形成的应急预案下发至各个相关部门,由相关部门根据本部门的实际情况细化应急预案,确定本部门的应急程序和资源配置和调用情况,以及需要其他相关部门协助的请求。组织的信息部门通过各个部门的应急演练具体方案的整合调整,制定组织应急预案的演练计划安排,确定时间,报组织信息领导小组批准实施。
演练过程和效果的详细记录
应急预案演练目的主要是检验应急预案的实施过程是否符合经济性、合理性和可操作性,是否有更实际的、高效率的替代方式和途径,以及如何建立表示或提示使实施更为简便和明确。因此,组织应当对演练过程进行跟踪,并对演练过程和效果进行真实详细的记录。
评估报告和改进建议
应急预案演练的效果应当进行评估,评估报告应当对应急预案是否可操作、应急程序是否科学合理、应急资源是否迅速到位的做出明确的结论,评估报告必须有明确的责任人。对应急预案演练中存在的问题,应当提出改进意见,如果是设计应急预案演练能否征程进行的重大问题,应当承认演练没有取得成功,建议改进后重新进行演练。组织应当重视应急预案演练的评估报告,对存在的问题进行改进和调整。
应急预案的批准与实施
经过演练和改进的应急预案应当报组织信息安全领导小组批准,并形成正文下发。组织的各个职能部门和责任区域的负责人应当将应急预案相关内容和要求纳入到各自日常的工作范围,明确责任人和职责。应急预案临时调用的各种资源和资金应当落实部门,必要时应建立组织的信息安全应急专款。
1.4.12 紧急事件列表
根据数据中心的网络结构特点和业务特色,我们确定了以下这些可能发生的安全事件,并初步确定其应急响应的建议优先级别:
事件 |
影响 |
可能性 |
优先级 |
网络故障 |
业务中断,影响部分业务的提供。 |
高 |
1 |
病毒爆发 |
业务性能下降,影响部分业务的提供。 |
中 |
1 |
网络入侵 |
重要服务器遭到入侵,影响服务提供,对网络其它部分形成威胁。 |
中 |
1 |
主机故障 |
部分主机或服务器出现故障,导致服务性能下降或者影响服务的提供。 |
中 |
2 |
软件故障 |
部分应用软件出现故障,导致服务性能下降或者影响服务的提供。 |
中 |
2 |
人为破坏 |
系统中的硬件/软件设备遭到人为破坏,导致服务性能下降或者影响服务的提供。 |
低 |
3 |
灾难 |
自然灾难破坏,造成系统大面积破坏,业务完全或部分中断。 |
低 |
4 |
紧急事件列表
1.4.13 事件处理流程
按照三零盛安安全服务体系,我们首先将为客户制订应急响应规划,在充分了解数据中心的现状和安全需求后,分析数据中心可能发生的紧急事件,并制订一套应急响应规划。
应急响应规划为用户提供了一套行为的指南,当紧急事件发生时,系统管理员可以及时的确定如何采取措施应对紧急事件,提高对紧急事件的处理效率。
图3 三零盛安应急响应服务体系
应急响应的操作流程如下图所示:
图4 应急响应操所流程
1.4.14 项目管理
建议的项目小组组织结构如下:
图5 项目小组组织结构
项目领导小组:由双方最高层领导组成,负责对整体项目的领导、协调工作。
专家小组:由技术专家担任,指导安全服务的实施并提供技术咨询。
项目经理:负责项目的具体实施协调、控制工作。
项目管理人员:负责项目的质量管理工作。
安全运维小组:负责安全运行/维护服务的提供。
应急响应小组:负责即时恢复服务的提供。
安全培训小组:负责安全培训服务的提供。
组员:由双方人员构成,负责安全服务的具体实施、文档管理、安全技术分析、统计分析等工作。
1.5 项目管理方法
项目管理,如今已不仅是项目经理的职责,只设法提高项目经理的能力就可以将项目管理在企业中成功应用的做法已不再成立。只有建立适合企业自身状况的项目管理流程、方法即项目管理的战略规划才能确保每个项目的成功实施。作为专业的网络安全公司,三零盛安较早的引入了国外先进的安全系统实施体系?D?DSSE-CMM (系统安全工程能力成熟度模型)。
SSE-CMM模型起源于1994年4月,美国国家安全局与美国国防部、加拿大通信安全局一起汇聚了超过60个国内外厂家,启动了称作“安全系统工程能力成熟模型(SSE-CMM)”的项目。这一项目力求在原有能力成熟模型(CMM)的基础上,通过对安全工作过程进行管理的途径将系统安全工程转变为一个完好定义的、成熟的、可测量的先进学科。
最新版本2.0已提交国际标准化组织申请作为ISO/IEC 21827国际标准。三零盛安技早在SSE-CMM V1阶段就对该标准进行了追踪研究,到了SSE-CMM V2.0 final颁布后,便在工程实施过程中开始使用这种最新的SSE-CMM来指导系统安全工程的实施。
SSE-CMM模型本身并不是安全技术模型,SSE-CMM与安全相关的部分一共有11个过程区(PA),另外还有11个来源于SE-CMM(系统工程)中的11个与项目组织和实施相关的过程区。由于SSE-CMM模型给出了系统安全工程所需考虑的关键过程域,可指导安全工程从单一的安全设备设置转向考虑系统地解决安全工程的管理、组织和设计、实施、验证等。
三零盛安在数据中心的安全服务的实施中将以SSE-CMM的安全工程过程规范作为指导,同时采用SSE-CMM的安全保证过程规范作为工程质量保证标准。
在SSE-CMM的安全工程部分:总体上我们首先根据安全评估识别出来的风险信息应用过程区PA10来识别最终安全需求,应用过程区PA09提供安全输入,得到最后的解决方案和实施计划和指导。在从PA09- PA01(管理安全控制)的实施过程中,将应用SSE-CMM中相关的过程区,也就是包含在SSE-CMM中的PA12-PA22这些过程区,这些过程区为传统的安全集成过程区。
图6 安全集成过程区
在采用SSE-CMM规范进行项目管理的基础上,三零盛安在项目实施中还将从进度控制、质量控制、变更控制和团队建设四个具体方面进行项目管理来保证项目的成功实施。
进度控制方法
三零盛安在项目开始阶段就制定详细的实施计划,并在项目实施过程中进行有效的监督和实时调整,确保项目有计划地如期进行。
质量控制方法
三零盛安在项目实施的各个阶段均有详细的文档记录,通过文档记录活动的过程,随时了解活动的状态或回溯查找问题原因,最终达到控制工程质量的目的。
变更控制方法
变更是影响项目进度的重要原因,也是项目管理中存在风险较大的环节,如控制不好会直接影响项目的成败。三零盛安将采用变更控制方法从“避免”和“控制”两方面来解决这个问题。当项目运行过程中发生了变化,首先由项目经理判断是否会影响整个项目的进展,或需要对项目的计划进行调整,如果需要调整则必须与客户进行沟通,在各项安排上达成一致,对原实施计划作出修改,双方的意见与修改后的计划以文档的形式进行记录,并由客户进行确认,双方共同保存记录
资源优化方法
一个项目的成败很大程度上取决与对整个项目资源的调配和人员战斗力的提高,因此资源的调配、团队的建设是非常重要的。三零盛安非常重视团队建设,无论在明确组织架构,明确责任分工方面,还是在保证人员技能方面,还是在资源调配方面,都有丰富的成功经验。