分布式学习 12.26 弹力设计2

系统可用性测量

MTTF:平均故障前的时间;MTTR:平均修复时间

宕机:无计划、有计划。

无计划包括一一

系统级故障,包括主机、操作系统、中间件、数据库、网络、电源以及外围设备。

数据和中介的故障,包括人员误操作、硬盘故障、数据乱了。

还有自然灾害、人为破坏,以及供电问题等。

有计划的包括一一

日常任务:备份,容量规划,用户和安全管理,后台批处理应用。

运维相关:数据库维护、应用维护、中间件维护、操作系统维护、网络维护。

升级相关:数据库、应用、中间件、操作系统、网络,包括硬件升级。

故障分类:

网络问题。网络链接出现问题,网络带宽出现拥塞……

性能问题。数据库慢 SQL、Java Full GC、硬盘 IO 过大、CPU 飙高、内存不足……

安全问题。被网络攻击,如 DDoS 等。

运维问题。系统总是在被更新和修改,架构也在不断地被调整,监控问题……

管理问题。没有梳理出关键服务以及服务的依赖关系,运行信息没有和控制系统同步……

硬件问题。硬盘损坏、网卡出问题、交换机出问题、机房掉电、挖掘机问题……

#弹力设计之隔离设计#

按服务种类分离:

·跨板块取数据性能低、数据合并计算复杂、业务流程跨板块时一个服务down就全跪了、跨板块交互复杂、跨板块事务需要二阶段提交。(通常引入大量异步处理模型)。

按角色分离:(多租户模式)

完全独立、服务共享 数据隔离、服务共享 数据共享。

隔离设计的重点:

1. 业务大小粒度

2. 复杂度、成本、性能、资源

3. 高可用、重试、异步、消息中间件、流控、熔断等设计模式

4. 自动化运维

5. 监控系统

你可能感兴趣的:(分布式学习 12.26 弹力设计2)