【hcie-cloud】【15】华为云Stack应急预案

文章目录

  • 前言
  • 应急预案介绍
    • 应急预案诉求
    • 用户挑战
      • 业务上云阻碍大
      • 应急保障缺乏规范
      • 应急时效性难以保障
      • 运维体系存在盲点
    • 应急预案的必要性
    • 应急预案故障场景总览
      • 基础云服务
      • 应用平台
      • 数据库
      • 大数据平台
      • AI服务
    • 应急预案故障场景介绍
    • 故障场景案例 (1)
    • 故障场景案例 (2)
  • IaaS层应急预案
    • 计算节点故障应急预案
    • 批量虚拟机无法访问应急方案
    • 计算域平台故障场景应急预案
    • 存储故障场景介绍
    • 分布式存储(链路)异常应急预案案例
    • 网络应急预案场景
    • EIP故障应急预案
    • 云平台基础网络服务可靠性应急案例
      • (1)场景说明
      • (2)结果说明
    • 基础计算服务可靠性应急案例
      • (1)场景说明
      • (2)结果说明
    • 基础存储服务可靠性应急案例
      • (1)场景说明
      • (2)结果说明
  • 缩略语

前言

  • 应急预案是运维中非常重要的一环,当局点发生重大故障时,可以指导维护工程师对现网环境进行紧急恢复,以快速恢复业务为最终目标。本章将对应急预案及华为云Stack IaaS层应急预案做简单的介绍。
  • 学完本课程后,您将能够:
    • 了解华为云Stack应急预案相关应用场景
    • 掌握华为云Stack IaaS层应急处理流程

应急预案介绍

应急预案诉求

  • 不可知因素引发的业务连续性中断,给客户带来巨大损失
    【hcie-cloud】【15】华为云Stack应急预案_第1张图片

  • 传统数据中心到云环境,业务停机都会给公司带来巨大的经济损失和声誉影响。无论何时,客户都有业务连续性和紧急重大事故修复的诉求

用户挑战

业务上云阻碍大

  • 面临问题
    • 业务上云前、中、后缺乏相应的支撑,上云失败/上线后不可用
    • 无流程及相关指标约束导致资源发放不及时,业务无法按时上线
  • 结果:
    • 影响业务连续性,最终用户投诉频繁,运维工程师乏于处理用户投诉,影响故障的及时修复

应急保障缺乏规范

  • 面临问题
    • 用云不规范导致业务不稳定,对不同业务支持级别未分级,业务部门投诉不断
    • 云服务使用、资源申请、资源发放无标准规范,造成资源滥用或资源不足频发
  • 结果:
    • 日常缺乏演练,应对突发紧急重大事件,处理方式无差异,造成人力、资源投入浪费

应急时效性难以保障

  • 面临问题
    • 缺少对外的专网专线,重大紧急事件发生,难以获取技术支持
    • 传统重大故障恢复为被动响应方式
  • 结果:
    • 缺少外部技术支持直接介入处理,可能延误故障处理的最佳时机,造成更大的损失

运维体系存在盲点

  • 面临问题
    • 人员关键技能缺失,岗位工作界面不清晰;
    • 运维体系不健全,应急保障服务缺失
  • 结果:
    • 运维人员只关注日常运维事务,对突发重大紧急事件感知不强,意识薄弱,突发事件发生难以应对

应急预案的必要性

  • 保障业务连续性
    恢复业务运作

    • 快速对故障进行修复并恢复业务
    • 现有运维组织进行重大紧急故障修复过程中能快速获取技术支持
  • 满足期业演练需求
    企业转向活动

    • 越来越多的企业将应急演练列入每年例行的专项活动(如:金融)
    • 通过演练持续提升内部运维能力
  • 应对紧急重大事件
    规范运作机制

    • 提供应对紧急重大事件的处置办法和运作机制
    • 有效管理运维组织,有条不紊
  • 激活运维组织能力
    提升人员意识

    • 改善由于重复性的日常运维工作降低了运维组织的能动性的问题
    • 从被动响应向本能触发演进
  • 急迫的诉求:建立应急保障机制,并定期执行应急演练,可有效提高运维人员意识及应对突发重大紧急事件的能力,以满足业务连续的关键指标。同时满足企业应急演练要求。

  • 结合日常运维场景,针对性的设计应急预案,考虑业务连续性的同时,将应急演练服务转换成能力资产。

应急预案故障场景总览

基础云服务

  • CCE:
    • CCE访问非常缓慢,不可用
    • console无法打开场景定位排查
    • 出现数据库连接告警
    • NTP同步失败
    • 租户集群的ETCD单节点故障
  • VPC:
    • 网元单点故障、单侧网元AZ存储故障
    • 单主机掉电、单机柜整体掉电

应用平台

  • ROMA-Connect:
    • console无法登录
    • 管理面双AZ部署时单AZ节点故障倒换失败
    • MQS断联
  • DCS:
    • 客户业务使用过程连接超时或连不上
  • ServiceStage:
    • 微服务引擎创建失败
    • 微服务引擎状态不可用
    • 微服务引擎升级失败
    • 构建时拉取镜像失败

数据库

  • RDS:
    • 创建账号和创建库失败
    • 用户实例复制状态异常
    • 用户实例磁盘满
  • OpenGuass:
    • 管理节点虚拟机故障
    • 管理节点服务故障
    • GaussDB元数据库故障
    • 服务节点掉电恢复
    • WDR报告导出

大数据平台

  • MRS:

    • console无法登录
    • 硬盘故障处理换盘(ECS-直通盘) 多个组件的恢复
    • ECS节点如Master节点故障后恢复
    • BMS节点故障后恢复
  • DWS:

    • 创建ECS集群失败
    • 裸金属服务更换磁盘
  • DGC

    • 管理虚拟机节点故障

AI服务

  • CDK:
    • CDK节点异常故障
    • CDK集群节点异常导致巡检不合格
  • 推理
    • Infers-Stats服务故障应急预案
    • ImagePacker服务故障应急预案
    • ServiceManager服务故障导致在线服务异常恢复
    • ModelArts在线服务部署失败
    • workload-manager服务异常恢复

应急预案故障场景介绍

应急名称 部件 故障现象/应用场景
批量虚拟机无法访问应急恢复 全局 批量虚拟机出现故障,并且暂未定位到具体故障的部件
单个虚拟机无法访问应急恢复 全局 业务虚拟机无法访问
管理平台掉电应急处理 全局 系统出现计划外下电,需要应急恢复
单点登陆异常各个服务无法鉴权应急处理 全局 当ManageOne的鉴权服务出现异常,导致运维面无法登录时,如何取消单点登录,进入相关的运维页面进行紧急恢复操作
容灾切换 全局 发生站点级故障后的故障恢复
高阶服服务console框架 全局 全网高阶云服务页面(例如DWS、MRS、CCE、ROMA、RDS等)无法正常访问
ManageOne console框架 全局 全网租户页面使用无法正常使用,租户页面首页上不能显示(某个云服务在租户页面消失)或跳转某个云服务错误;
ManageOne IAM统一鉴权 全局 全网租户页面使用无法正常使用,影响部分访问鉴权接口的云服务
LVS + Nignx二级负载均衡 全局 作为云平台所有管理面访问入口。LVS基于IP做四层负荷分担,Nginx基于各个云服务的配置做七层负载均衡
管理DNS 全局 云平台中的云服务间访问多数采用域名方式,云平台管理DNS服务按Region(网省)部署独立为本Region提供DNS解析服务,根据错误的域名配置不同,可能影响部分服务页面访问,或全局性无法访问。全网租户页面无法打开;某个网省服务页面访问异常或某个服务全部网省访问异常

故障场景案例 (1)

问题现象 故障点 相关部件 级别 触发场景 根因分析及处理情况
租户页面反应卡顿,租户页面卡顿,影响客户使用 IAM统一鉴权 MRS ManageOne 严重 客户使用 打开MRS页面时mrsapigw容器频繁调用IAM查询project用户组信息接口单个Region最大60次/秒引起IAM&Manage出现性能问题,影响正常使用;通过对IAM配置限流规避,并实施MRS补丁解决频繁调用问题
14个Region仅一个Region显示云安全服务(SCC),其他13个Region无法正常显示 云服务Console配置 FusionGaurd 中等 扩容云服务 扩容云服务后Console节点/opt/onframework/static/scc/sccConfig.json配置文件中缺少其他13个网省配置引起,通过补齐sccConfig.json节点信息恢复

故障场景案例 (2)

问题现象 故障点 相关部件 级别 触发场景 根因分析及处理情况
新扩容Region后,其他Region租户console后点击DWS页面后均提示需要跳转到新扩容Region(gs-region-2),无法正常使用DWS管理页面 线上Console Silvan全局信息 DWS 一般 升级后扩容场景 新建Region过程DWS安装工步中“注册Service Config” 子步骤中调用线上Silvan接口注册此Region信息,由于原630版本部署工步中未配置Service Config中Region信息(SuportRegions字段为空),新版本工具按首Region流程配置了新扩容Region的SuportRegions字段信息,引起其他租户console点击DWS页面后提示跳转到新建的Region,原来各Region的DWS页面无法正常使用,通过修改Silvan配置修复
DWS(630)升级后使用FCD重新部署Console注册Nignx阶段出现Console页面无法登录,全局性故障 公共组件Nignx全局配置 DWS 一般 升级场景重新部署console 使用FCD部署工具部署630版本DWS过程重新向Nginx注册/dws配置与原有/dws配置冲突,引起Nignx进程无法启动。通过修改nginx配置文件恢复业务,由于10分钟内恢复,未引起报障

IaaS层应急预案

计算节点故障应急预案

【hcie-cloud】【15】华为云Stack应急预案_第2张图片

  • 典型故障现象:
    • 主机无法正常进入系统,停留在挂载分区的文件系统自动检查修复阶段
    • 系统运行正常,已经挂载的磁盘分区只读,在管理界面上产生文件系统只读告警
    • 系统运行正常,无法挂载磁盘分区或者挂载异常
    • 系统运行正常,文件损坏,数据异常

批量虚拟机无法访问应急方案

【hcie-cloud】【15】华为云Stack应急预案_第3张图片

  • 典型故障现象:
    • 批量虚机IP地址不能被ping通
    • 批量虚机可以ping通但使用putty工具无法ssh/telnet登陆(视虚拟机使用的登陆工具类型确定)
    • 在FusionSphere OpenStack OM页面检查批量虚机状态为非运行状态,并且虚拟机业务出现异常
    • 虚拟机内部无法进行文件操作

计算域平台故障场景应急预案

应急名称 部件 故障现象/应用场景
批量虚拟机故障应急恢复 OpenStack /Nova 虚拟机vnc无法登录或者状态错误,并且业务受影响
虚拟机误删除恢复能力 OpenStack /Nova 虚拟机被用户误删除或者其他原因导致误删除

【hcie-cloud】【15】华为云Stack应急预案_第4张图片

  • 典型故障现象:
    • 虚拟机无法通过vnc登陆
    • 虚拟机的状态变为故障或者未知,vnc登陆按钮为灰色,同时虚拟机业务已经出现异常或者虚拟机卡死

存储故障场景介绍

应急名称 部件 故障现象/应用场景
OceanStor Pacific存储(链路)异常应急恢复 OpenStack /OceanStor Pacific 1、环境中多台虚拟机卡顿、卡死、无法正常加载操纵系统,2、OceanStor Pacific界面上报“MDC与VBS通信异常”告警,3、OceanStor Pacific界面上报“存储池故障”或“存储池容量不足”告警,4、运营面、运维面无法登录(管理存储异常可能出现此现象),5、发放虚拟机失败
IPSAN存储(链路)异常应急恢复 OpenStack 1、环境中多台虚拟机卡顿、卡死、只读、无法正常加载操纵系统,2、运维面上报“主机存储链路中断”告警,3、SAN存储界面上报“存储池剩余容量不足”告警,4、运营面、运维面无法登录(管理存储异常可能出现此现象),5、发放、变更虚拟机失败
FC SAN存储链路中断应急恢复 OpenStack 告警界面上在当前告警或历史告警页面中出现“主机光纤通道中断”的告警。说明:有可能主机上的光纤链路已经恢复了告警已经自动回复,但是虚拟机由于受之前链路故障的影响还没有自动恢复,所以这里需要检查历史告警
OBS 服务异常应急恢复 云服务 ManageOne SC运营面上OBS服务Console无法正常访问出现“502”错误,或OBS服务异常
SFS 服务异常应急恢复 云服务 ManageOne SC运营面上SFS服务Console无法正常访问出现“502”错误,或SFS出现服

分布式存储(链路)异常应急预案案例

【hcie-cloud】【15】华为云Stack应急预案_第5张图片

  • 典型故障现象:
    • 环境中出现大规模虚拟机卡顿、卡死、无法正常加载操纵系统
    • OceanStor Pacific界面上报“MDC与VBS通信异常”告警
    • OceanStor Pacific界面上报“存储池故障”或“存储池容量不足”告警
    • 运营面、运维面无法登录(管理存储异常可能出现此现象)
    • 发放虚拟机失败,存储侧或者磁盘创建失败

网络应急预案场景

应急名称 部件 故障现象/应用场景
虚拟机无法获取IP应急处理(集中式DHCP) OpenStack /Neutron 集中式DHCP场景下没有IP的场景
虚拟机公网不通应急处理(Type I) OpenStack /Neutron Type I场景下虚拟机EIP不同的场景
VPC-Peering业务大面积中断应急处理(Type I) VPC 已创建的VPC对等连接业务无法正常工作,对等连接两端VPC子网无法互通
ELB业务大面积中断应急处理(Type I) ELB 使用elb部署的服务无法访问
ELB业务大量访问失败问题应急处理(Type I) ELB 租户使用ELB业务对外提供网站、APP等服务,外部客户端访问时出现大量访问失败的情况
VPN业务大面积中断应急处理(Type I) VPN 云外无法通过访问云内虚拟机
基础型云专线业务大面积中断应急处理(Type I) 云专线 多个专线网络业务无法访问远端网络
SNAT/DNAT业务大面积中断应急处理(Type I) SNAT 通过SNAT访问的业务出现异常,无法访问
裸金属节点网络异常应急处理(Type I) BMS BMS裸金属服务器云内网络或访问公网不通
L3GW业务大面积中断应急处理(Type I) 增强型云专线 通过L3GW访问的业务出现异常,无法访问
L2BR业务大面积中断应急处理(Type I) 二层桥接 通过L2BR访问的业务出现异常,无法访问
CC云连接业务中断应急处理(Type I) 云连接(CC) 已创建的VPC云连接业务无法正常工作,云连接两端VPC子网无法互通

EIP故障应急预案

【hcie-cloud】【15】华为云Stack应急预案_第6张图片

  • 典型故障原因:
    • 虚拟机内部IP地址异常
    • 虚拟机的网口所属安全组限制
    • 虚拟机子网关联的虚拟防火墙限制
    • BR网元或者vRouter网元故障
    • 物理交换机或者物理网口故障

云平台基础网络服务可靠性应急案例

(1)场景说明

  • 演练场景:验证网络服务单点或者多点故障场景不影响网络服务
  • 故障场景构造:
    • 单网元虚拟机关机(如vrouter网元)
    • 网元虚拟机所在单台主机下电
    • 关闭网络服务AZ1对应的存储池
    • 构造AZ1内部网络服务全部故障

【hcie-cloud】【15】华为云Stack应急预案_第7张图片

-预期结果:
- 运维工程师按照既定的基础网络服务应急演练预案处理
- 故障表现和恢复时长满足预期要求
- 按照客户业务部署架构,客户生产业务不受影响

(2)结果说明

  • 演练结果:
    【hcie-cloud】【15】华为云Stack应急预案_第8张图片
  • 场景1故障构造
    • 通知客户网络运维工程师关闭单台网元虚拟机
    • 观察客户虚拟机网络无丢包,业务不受影响
  • 场景2故障构造
    • 通知客户网络运维工程师关闭单台网络服务AZ1的主机节点
    • 观察客户虚拟机网络无丢包,业务不受影响
  • 场景3故障构造
    • 通知客户存储运维工程师关闭网络服务AZ1对应存储池
    • 观察客户虚拟机网络无丢包,业务不受影响
  • 恢复验证
    • 通知客户运维工程师启动网络服务AZ1对应存储池
    • 通知客户运维工程师启动已关闭的主机节点和网元虚拟机
    • 观察网元虚拟机正常恢复
    • 观察客户虚拟机网络无丢包,业务不受影响

基础计算服务可靠性应急案例

(1)场景说明

  • 演练场景:验证弹性云服务器在物理服务器掉电的场景下的高可用性
  • 故障场景构造:
    • 单台KVM计算主机节点安全下电
    • 单个机柜的KVM计算主机节点安全下电

【hcie-cloud】【15】华为云Stack应急预案_第9张图片

  • 预期结果:
    • 虚拟机能够正常触发HA,运维工程师按照既定应急演练预案确认相关场景
    • 故障表现和恢复时长满足预期要求
    • 按照客户业务部署架构,客户生产业务不受影响

(2)结果说明

  • 演练结果:
    【hcie-cloud】【15】华为云Stack应急预案_第10张图片
  • 场景1故障构造
    • 通知客户运维工程师关闭单台KVM计算节点
    • 观察客户虚拟机正常触发HA,业务能够正常拉起,分布式业务不受影响
  • 场景2故障构造
    • 通知客户运维工程师关闭整个机柜内部的KVM计算节点
    • 观察客户虚拟机正常触发HA,业务能够正常拉起,分布式业务不受影响
  • 恢复验证
    • 通知客户运维工程师启动KVM计算节点
    • 迁移虚拟机到源主机,确认虚拟机的反亲和性规则正常
    • 客户验证虚拟机业务已经正常拉起,整体业务不受影响

基础存储服务可靠性应急案例

(1)场景说明

  • 演练场景:验证存储池故障时弹性云服务器或云硬盘服务故障和恢复
  • 故障场景构造:
    • 构造主机存储口连接的交换机上行口断连,主机连接存储池中断

【hcie-cloud】【15】华为云Stack应急预案_第11张图片

  • 预期结果:
    • 与存储断连的主机上的虚拟机业务异常,虚拟机无法ping通,触发IO悬挂
    • 磁盘IO无法正常下发

(2)结果说明

  • 演练结果:
    【hcie-cloud】【15】华为云Stack应急预案_第12张图片
  • 场景故障构造
    • 通知客户网络运维工程师关闭主机上联交换机的存储口
    • 观察客户虚拟机内部状态,虚拟机呈现卡住状态,IO无法正常下发
  • 恢复验证
    • 通知客户网络运维工程师启动主机上联交换机的存储口
    • 观察主机到存储IO正常恢复
    • 观察主机上的业务虚拟机正常恢复,若虚拟机发生只读后需要重启恢复

缩略语

缩略语 英文全称 解释
DWS Data Warehouse Service 数据仓库服务是一种基于公有云基础架构和平台的在线数据处理数据库,为用户提供海量数据挖掘和分析服务。
MRS MapReduce Service MapReduce服务打造了高可靠、高安全、易使用的运行维护平台,对外提供大容量的数据存储和分析能力,可解决各大企业的数据存储和处理需求。用户可以独立申请和使用托管Hadoop、Spark、Hbase和Hive服务,用于快速在主机上创建集群,提供海量数据的实时性要求不高的批量数据存储和计算能力。
CCE cloud container engine 云容器引擎(Cloud Container Engine)是为开发者、合作伙伴提供开发、部署、托管的容器应用平台,帮助用户快速、低成本地实现业务创新,缩短应用上市周期。
RDS relational database service 即关系型数据库服务,将关系型数据库以服务的形式提供给用户使用,它与关系型数据库的基本功能特性一致,主要是产品形态不同。
DNS domain name server 网域名称服务器,域名解析需要通过专门的域名解析服务器来完成,DNS就是进行域名解析的服务器。
IP SAN Internet Protocol storage area network 基于IP的存储区域网络
BMC Baseboard Management Controller 利用传感器来监视计算机、网络服务器或者是其他硬件驱动设备的状态,并且和通过独立的连接线路和系统管理员进行通信
MDC MetaData Controller 元数据控制设备,实现对分布式集群的状态视图控制,以及控制数据分布式规则、数据重建规则等
DMZ Demilitarized Zone 半信任区, 插在网络之间作为“中立区”的安全主机或小型网络(又称“掩蔽子网”), 以此形成一个安全缓冲区。
HA High Availability 高可用性,是用来保障业务不间断运行的一个组件,HA允许在一个集群资源许可情况下,将出现故障的主机上面的虚拟机在其他主机上启动起来,同时在虚拟机故障的情况下,会尝试恢复故障虚拟机。
VBS Virtual Block System 虚拟块系统,负责卷元数据的管理,提供分布式集群接入点服务,使计算资源能够通过VBS访问分布式存储资源。

你可能感兴趣的:(HCIA(P,E)-cloud笔记,华为云,华为云stack应急预案)