【服务器】记录一次IO hang

    2019.3.11 全天服务器一切正常

    2019.3.12 10:08 收到反馈服务崩溃

    1.连接服务器发现Xshell-SSH无法连通

    2.查看服务器状态CPU 0%,内存16%(平时稳定50%+)

    3.工具连数据库无法打开具体库,mysql报错error 5

    4.立即停止对服务器的一切操作,给供应商提交工单(意识到很大概率是供应商那边出的问题)

    5.工单回馈是否可以重启,回复:服务器随意操作,等待问题反馈

    6.看到对方重启了我的服务器2次 未恢复,然后停止了服务器后再次启动,发现cpu 0% 内存6%

    7.意识到服务器正常启动开始连接,Xshell正常、数据库正常(数据未丢失)、服务器自启动(mysql/nginx/git仓库等等)正常

    8.工单反馈正常,并保证在反馈问题前不会对服务器有任何操作(得给老子一个说法~)

    9.对方反馈:您好,目前已经可以了,3月12日凌晨,华北资源池部分云主机实例出现IO HANG,导致云主机异常,目前已经都修复正常了,您观察使用下,如果有异常您及时反馈下,谢谢!

    10.启动tomcat,服务恢复正常

    11.联系供应商协商赔偿

 

        文章最后提醒各位手上有服务器且出现相同问题的兄弟们出现问题不要急着重启解决,要找到供应商提交工单,让对方说出具体错误原因(甩锅甩的有理有据,还有赔偿),如果盲目重启后恢复正常有两个弊端 1.留下隐患,可能以后出现相同错误,供应商收不到相关错误反馈不利于日后服务器的维护  2.没有赔偿,没法甩锅

你可能感兴趣的:(运维笔记)