2020.10.17故障分析与思考

故障回顾

1)故障描述

17日晚上,较多用户反馈无法进入直播课(17日直播同时在线人数5W)

2)故障过程回顾

时间 过程
10.17 18:59 观看直播,重新登录进不了APP,ios,Android,web三端都有登录超时的现象
10.17 19:05 集群扩容,问题没有解决
10.17 19:35 升级SLB规格
10.17 19:40 问题得到批量解决,还是存储少量请求问题

故障思考

系统

现在说说这个问题引起的原因:
我们之前做了一个多个云机房的方案,目的有几个:
1、新的机房成本相对比较低,这是一个商务的方案
2、实现异地多机房的灾备
3、用户分流


多云机房方案

在9月底,我们切了5%的流量到新的集群SLB-1里面


切换5%流量

跑了两周之后,发现没有什么问题,我们准备放量到20%到集群中。
在10.13的时候,我们将规则调整到20%。
在10.17的时候,就发生了大量用户不可用的情况。
原因就是在放量到20%到新集群里面,我们同时在线有5W人,20%的用户就是1W人将近1W多个连接。
当时在建设SLB的时候,选用的规格比较小


SLB规格

只能支持5000个连接数,所以导致大量的用户连接不上SLB导致用户不可用。从监控上面看,很明显连接数不够用。


连接数不足

经过排查之后,升级了SLB规格,问题就这样解决了吗?然而并没有。
有思路之后,排查起来就方便很多。流量经过SLB之后,到了ingress-controll,被ingress直接拒绝掉了。最简单的方式是,增加ingress-controll的数量。
到这里问题就都解决了。

人员与管理

从人员上,思考下这个问题,这是一个天灾还是人祸,很明显是认为导致的。
1、没有专人去不断分析与跟进这个项目,依赖过往经验。
2、所有的讨论都是小范围的拍板
3、没有规范的流程与风险意识

你可能感兴趣的:(2020.10.17故障分析与思考)