2018年2月19北美意外停服报告

1、问题描述

壕鑫位于北美的服务器于12点左右意外停止服务,14点开始恢复工作,15点20重新恢复服务。

2、问题原因

北美机房所用腾讯云服务出现异常,导致磁盘不可写,致使服务宕机。等待腾讯云修复磁盘之后,重启服务既修复。


2018年2月19北美意外停服报告_第1张图片
图片发自App


2018年2月19北美意外停服报告_第2张图片
图片发自App



3、此次事件暴露出的问题

壕鑫服务端运行状态监控不彻底,没有及时发现止损。

腾讯云服务异常不稳定,单月内第三次相同事故。受影响为整个北美SDK和CP业务。

4、针对问题的解决方案

添加更细致的服务器服务状态监控,包括服务的运行状况,数据的异常监控。并且已经开始添加。

尽快与腾讯云进行问题沟通

你可能感兴趣的:(2018年2月19北美意外停服报告)