MySQL切换导致的运营事故

一、事故时间线

  • 腾讯云的MySQL服务,最高5.6,无法满足需求。急需一台MySQL5.7,加上原有5.6实例即将到期,决定在内网自己安装;
  • 找冗余服务器,安装MySQL5.6,导入数据,切换应用,天下太平;
  • 到期后,发现腾讯云的MySQL实例既不能关机,也无法销毁……咨询客服,让耐心等待7+7(等待续费期+回收站)。只好等待;
  • 服务器一外采系统打修复补丁;忘记通知他们数据库变更的事情;乙方直接把应用目录覆盖更新,导致数据库指向了“续费期”的5.6实例;
  • 几天后,MySQL实例进回收站;发现应用不可用,确认是升级导致的问题,把数据库切回,系统恢复;
  • “回收期”,运营发现有几天的数据消失……确认日期范围,发现是打修复补丁期间导致的……一万头草泥马呼啸而过;
  • 被迫补上数百大洋,把“回收期”数据库赎回,导出数据;

二、复盘

  • 沟通不畅——一切问题都是人的问题!
  • 运维制度不严——让外人直接动服务器是非常危险的事情;
  • 禁止覆盖更新!——外包/外采项目都是各种覆盖;
  • 停用的服务需立即关闭,避免在不知情的时候出现勿用;吐槽下腾讯云,不让关闭数据库!

你可能感兴趣的:(MySQL切换导致的运营事故)