AD是指微软Active Directory活动目录系统,作为目前市面上主流的活动目录产品,AD在许多企业内部承担着基础架构核心系统的角色,维护这套系统的正常运行是企业内部基础运维的重要课题,需要IT人员拥有齐备的技术文档、丰富的社区案例知识以及企业长年的运维服务实践经验。
嘉为长期深耕于AD领域,对AD的规划、建设、升级、运维管理、灾难恢复、故障处理等均有实践经验,建立起了理念、技术、方案和人才的丰富储备,能够实现AD在企业内部的从无到有,从有到优。
然而并非所有企业都能成功建立起了合适的AD运维模式,其运维人员也不得不面对一个个“伤筋动骨”的AD故障。
本文将通过讲述某科技公司,以非良性AD运维模式为诱因,AD域内所有域控均发生故障,必须进行林恢复的真实案例,与大家共同分享嘉为在AD领域的实践经验。
2022年6月13日,该企业IT管理员突然发现,在企业内部的无线网络无法正常认证连接,部分服务器的DNS无法解析域名。
在经过简单排查后发现,出现异常的客户端,其DNS服务器均指向主域控(指PDC角色所有者,这台主域控同时也是提供内部证书服务的CA服务器),随后IT管理员临时将DNS服务、应用LDAP连接从主域控迁移到同站点同机房的另一台域控制器上,同时临时取消了无线网络的认证规则。
暂时恢复业务后,IT管理员按照日常方式,重新搭建了域控制器,以此来替代旧服务器,但将新服务器升级为域控时却出现了新的报错,报错中提到新服务器无法加入域,同时DNS注册异常。
在将常规手段全部尝试了一遍无果后,管理员开始寻求外部协助。
2022年6月15日晚,该企业管理员通过集团总部联系到嘉为服务团队,嘉为立即提供了远程支持,通过远程连接到AD域环境后,发现以下问题:
经过上述检查后,嘉为技术人员以业务恢复为第一原则,做出以下判断:
在拥有良好的AD运维管理环境以及将可用AD备份的情况下,以上方案有利于故障的快速恢复,但随着嘉为团队对企业实际环境深入了解后,发现问题远比想象中的复杂。
2022年6月16日凌晨,在提交初步解决方案后,嘉为技术团队与开始域IT管理员沟通实施细节,却发现远程实施该方案存在着以下不可预估的风险:
由于当前主要业务功能未受到很大影响,于是约定当日下午到企业现场进行故障处理。经过现场沟通,我们对其AD域故障事件的复杂性有了全面的认知:
① 恢复方案不能中断业务:主域控无法停机,任何涉及重启的修复操作不在考虑范围之内。
② 恢复方案受复杂环境影响大:AD域环境混乱,恢复方案需要排除的影响点过多,其中包括:
③ 恢复方案的时间压力大:618期间,业务流量大,连续性要求高,当前仅一台域控制器提供认证,随时可能发生业务中断,必须尽快恢复。
既不能停机,又没有AD健康备份的保障,再加上参差不齐的服务器配置、复杂难捋的网络环境以及业务高峰的现实压力,此时这套AD系统,正处在一个尴尬而危险的平衡点,随时有可能绷断。
在对故障信息有了以上清晰的认知后,嘉为团队提出了一个新的解决方案,用过隔离辅助域控,进行林恢复。
2022年6月17日上午,嘉为团队再一次对企业AD域环境进行了深度调研,获取各个域控的基本信息、应用角色以及受损情况。
针对域控上的服务角色,如DHCP、DPS、CA等,分别制定了迁移方案,以此形成了服务器信息调研表、拓扑图,故障恢复流程、checklist、恢复备案等合一的AD环境故障恢复方案。
同时与企业AD管理员、网络管理员、应用管理员等几乎所有相关的IT管理员沟通,并组织了多次的方案讨论,最终确定了恢复方案。
服务器信息调研表
拓扑图
在最终确定的恢复方案中,高版本的辅助域控将作为恢复基点,在隔离环境中执行以下操作:
确保林恢复完成后,再进行一系列的域控搭建、服务角色迁移、脱域计算机处理等操作:
2022年6月18日晚。所有人到岗待命,开始执行恢复方案。
然而在准备隔离环境域控制器第一步时,就发生了令气压骤增的情况,原定计划需要使用生产环境的辅助域控进行裸机备份,再将裸机备份还原到隔离环境中,进行修复。
然而,企业整体环境中的虚拟化平台资源极少,大部分服务器均为物理机,在进行裸机备份还原的过程中,客户提供的虚拟机始终无法成功还原备份。
在经过2小时的尝试后,嘉为团队决定采用备份还原验证域生产服务器恢复并行的策略,即将备份提供给嘉为,让其使用其他可用环境还原验证,同时将一台生产环境的辅助域控制器进行隔离,进行恢复操作。
这样的决定,虽然稍微提高了对生产环境服务器的风险,但范围可以接受(限定在1台辅助域控制器)。终于在次日凌晨3点,成功在隔离环境中执行了林恢复,应用接入认证正常,常规域服务功能验证正常。
凌晨6点时,其他站点的辅助域控制器进行了替换,服务角色特逐步开始迁移,终于在员工上班前,所有角色完成了迁移并通过了功能验证。完成上述工作后,企业AD域的基本业务均已恢复,AD域的可用性得到保障,所有人都松了一口气。
针对上述AD域故障恢复案例,我们可以提供一些具体的建议或建设范畴:
正如开头所说,AD是一套在许多企业内部落地的的基础架构系统,许多事件的参考信息可以很便捷地在网络上查阅,有关特定事件的处理、特定的功能实现也有齐备的文档参考,但这仅仅只能提高运维人员处理特定问题的能力,却无法在AD运维的整体逻辑上提供保障。
实际上,我们仍然会一遍又一遍的建议和帮助客户建立起适用于企业的AD运维管理规范,它们是围绕AD的操作文档、规章制度、流程管理、运维工具和一系列运维实践,是这些要素共同服务于企业IT管理理念的产物。对于AD而言,健壮的“体魄”,而非“药石”,能更好地避免“伤筋动骨”。
针对企业AD运维,嘉为团队提供全面一站式的技术服务,包括:AD及基础架构实施、AD域升级与架构优化、AD安全加固、AD HW服务等,助企业打造坚如磐石的IT系统,为企业信息系统保驾护航。
除此之外,嘉为还提供规划咨询服务、系统建设服务、二线专家服务、系统优化服务、IT运维整体外包服务、人员派驻等服务,企业可以根据需求自由组合选择使用的服务内容和范围。
针对该科技公司AD域故障事件,嘉为团队后续推荐了WeOps一体化运维平台,持续赋能,帮助企业运维逐步迈向智能化。
嘉为蓝鲸WeOps,是一款专注于保障企业业务连续性、支持国产化的一站式运维平台,以故障定位和全生命周期管理为核心,融合联动资源中心、健康扫描、监控告警、知识库、数字大屏及自动化运维工具等多项功能。
有关企业AD运维,WeOps平台可从预防和监控故障处理两方面保驾护航:
WeOps平台可针对日常排查时发现的一系列隐患做到及时预防。案例中由于企业AD不规范导致系统存在没有备份、没有补丁安装、网络环境负载等隐患,而WeOPs平台可通过作业平台定时自动备份、通过补丁安装进行定期安装、通过平台进行网络设备的自动发现,生成拓扑完美解决上述问题。
WeOps平台中的监控告警系统,可做到持续监控,智能告警,提前发现问题,降低业务影响,一旦发生故障,可通过拓扑图分析关联影响,同时结合资产管理分析资产影响情况,最后采用自动化工具快速解决故障,持续保障企业业务连续性。
嘉为蓝鲸WeOps平台满足国产化兼容,支持在国产环境下的一站式运维,自主可控,帮助用户解决工具功能单一、众多IT运维对象管理难、自动化程度低、信创生态产品兼容等问题,助力客户安全落地一站式运维场景。