云网系统故障分析和排查

故障种类及原因:
1、组件异常:组件本身漏洞导致组件不可用或有使用隐患,比如消息组件在某种强有序模式下可能导致磁盘IO增加,引起组件性能降低,从而读写超时失败等;
2、底层虚机/宿主机异常:主机夯死,或其他异常导致组件异常(高可用或主备策略失效等),曾出现过节点假活(存活探测均正常,但无法正常处理业务)
3、资源抢占/耗尽:服务内存溢出导致业务异常,句柄数、连接数等占满未释放导致无法建立新连接等 

此外还有
4、网络故障:
5、应用服务异常:

易发生故障的组件:
1、容器:容器异常重启时拉取镜像失败、连接配置失败、或服务注册/调用失败等,
2、数据库:主从切换异常(监控手段探测均体现正常,但实际已经无法正常提供数据库服务)、数据库磁盘告罄 
3、负载均衡:主备切换异常、等等
4、消息
5、缓存

你可能感兴趣的:(web安全,物联网,推荐算法,深度优先,哈希算法)