高可用性系统稳定性是如何炼成的?

随着互联网行业的发展,用户体量增加,软件系统越来越复杂,各个软件平台的稳定性备受关注,特别是跟用户相关、交易相关的平台对稳定性更加敏感和看重,平台不稳定会直接导致用户流失、收入下滑。

我司作为方案商兼运营商,同样也是非常看重平台稳定性。没有完美的平台,所有的平台都可能会遇到问题,都有可能会宕机,因此数据监控和平台架构是保证平台稳定性的前提。为了保证不影响用户体验、平台运行,经过多年的实践,泰比特参考行业解决方案结合自身的实际情况搭建了一套完整的监控系统,同时针对服务器安全也按照国家信息系统安全等级保护相关要求实施了相关措施。

高可用性系统稳定性是如何炼成的?_第1张图片

为了能监控到各个平台的关键数据,我司选用了企业级开源监控解决方案,实现了线上所有服务器的数据一键监控。针对使用云服务器的平台,公司还结合各个云服务器的监控,设置关键指标预警,实现关键指标达到阈值及时推送和通知,以便技术人员、运维人员及时处理。

为了做到更精细化的监控,我司从各个维度进行了数据监控和检测,包括硬件、系统、组件指标、服务有效性检测、业务依赖监测、日志监测等。

高可用性系统稳定性是如何炼成的?_第2张图片

硬件、系统相关的指标主要有服务器的cpu使用率,内存使用率,硬盘剩余空间,连接数、网络带宽、磁盘IO等,通过这些指标,判断服务器的瓶颈在哪,以便知道下一步的优化方向。

组件指标主要是针对平台所有依赖的组件的关键指标进行细致化的监控,比如对数据库的运行状态、内存占用、线程数、QPS等等指标进行监控,对MQ的运行状态、消息堆积情况等指标进行监控。

服务有效性监测主要针对各个不同的服务进行服务级别的监控,模拟用户实时监测业务是否正常。

业务依赖监测方面公司将平台所依赖的外部因素进行了监控,比如SSL证书、域名到期时间、短信余量等等进行监控,做到临期提醒,及时处理,避免业务故障。

日志监控公司使用成熟的日志集成分析系统,集中处理所有的日志,搜集一切跟平台运行相关的日志,并配置相应的告警触发,做到有问题及时通知和报警。

高可用性系统稳定性是如何炼成的?_第3张图片

作为网络的核心产品,服务器技术相对复杂,尤其是在病毒肆虐的网络时代,安全问题显得更加突出。从安全性考虑,那必然是防止服务器被入侵,以下都可能造成服务器账号被口令爆破、通过web漏洞上传webshell 等途径被拿到主机权限:

  1. 主机运行的网络服务没有安全评估、加固;
  2.  开源软件、框架存在的通用漏洞;
  3.  开发人员没有足够的安全编码意识;

针对这些问题,我司做了以下诸多工作:

1按照国家信息系统安全等级保护相关要求使用堡垒机服务;

2对服务器的安全组和防火墙进行加固,禁用不必要的端口;

3web访问使用https;

4及时修补应用程序的漏洞;

5预防sql注入攻击;

除了刚刚介绍的各个工具方案外,公司针对平台运维也制定了很多规范和流程,确保工作标准不走样,有据可依。比如公司指定了巡检报告,并进行定期的巡检工作,开定期的巡检会议,做到发现、优化、上线全周期管控。

各个运维工具和方案都是为了高效、快速的发现问题并解决问题,公司将会时刻保持着虚心的心态,不断的优化自身的工作流程、迭代各种工具,目的只有一个,那就是做到平台服务永不宕机,尽最大力量保障公司平台稳定运行,保障客户业务流畅执行。

高可用性系统稳定性是如何炼成的?_第4张图片

你可能感兴趣的:(共享电动车,智能电动车,服务器,数据库,运维)