无把握不动作!那些年,我们经历的IT运维事故

​​

关注嘉为科技,获取运维新知

 

系统建设完以后,以为从此就高枕无忧啦?

年轻人,不要太天真!

系统搭建完毕,快(Ku)乐(Bi)之旅才刚刚开始,IT运维世界欢迎你的加入。

 

IT运维的核心是确保信息系统安全、高效、平稳的运行,IT运维是IT管理非常核心和重点的部分,也是内容最多、最繁杂的部分。没有经历过系统宕机、数据异常、数据丢失、删库跑路等事故的运维,不配谈人生。

 

经过我多年的观察和总结,诸如技术细节理解不够、风险意识及控制不足,还有像“误操作”这种看似非常低级的错误所导致的IT事故时有发生,很常见却又很难避免,每每说起,运维小伙伴都会掬一把辛酸泪。故此我整理了近年来身边曾经发生的一些运维事故,并从中挑选出有代表性的三种类型的案例与大家分享。

 

 

一、技术错误

事件1

在VMware虚拟化平台vSphere Web Client界面针对Linux系统发送Ctrl+Alt+Del 。

 

事件回顾:

工程师原计划在vSphere Web Client使用Ctrl+Alt+Del组合显示出服务器的登陆界面,在发送vSphere Web Client使用Ctrl+Alt+Del没有进行系统版本的确认,误以为Linux下使用Ctrl+Alt+Del命令与Windows一样,结果导致系统重启。

 

事件反思:

  1. 所有的操作要按照标准流程来做,针对不确定的技术问题不要想当然,需要抱有敬畏之心;

  2. 对生产系统进行操作前,必须清晰的知道每个操作带来的预期结果,无把握不操作,宁可不做也不能不确定的去做,IT运维不可心存侥幸。

 

事件2

删除RODC,选择了与实际操作目的无关的多余选项。

 

事件回顾:

工程师删除分支机构RODC,勾选了重置RODC上缓存的用户账户的所有密码,导致几百个AD用户的账号密码被修改为未知。

 

事件反思:

  1. 本案例中操作人员未充分评估并未意识到对DC等角色服务器进行变更的风险,对技术细节理解不够;

  2. 对于不熟悉的技术领域需辅助于工具及技术进行操作确认、测试;

  3. 谨小慎微、三思而后行。

     

 

二、风险意识及控制不足

事件1

一个“:”的缺失导致大批量用户邮件被误删除。

 

事件回顾:

按照用户要求,在Exchange management shell中删除用户已经完成发送的特定主题的邮件。删除命令中-subject缺少“:”,且删除命令未限定搜索范围,导致删除了全公司不确定用户对象、不确定邮件主题、不确定邮件内容的邮件。

 

事件反思:

  1. 充分评估执行删除命令时模糊搜索等不可控风险;

  2. 面临不可控风险时,进行删除前的备份,确保操作可回退;

  3. 进行高危操作时,提前识别风险、并做到事前预防、事中控制。

 

事件2

Exchange DAG服务器重启时未关注副本的状态,重启后数据库异常,导致邮箱服务中断。

 

事件回顾:

管理员按计划进行服务器重启,服务器为双副本的数据库,重启之前其中一个副本已经损坏无法正常切换,但未能得到管理员的重视且强制执行了重启,强制重启后原本正常的副本也无法挂载,整个数据库上的数百用户无法使用邮件,时长达到2天,最终通过数据库修复的方式将数据库恢复。

 

事件反思:

  1. 发现副本故障时及时修复,重启主节点时此问题也未引起管理员的重视,管理员风险意识及控制严重不足;

  2. 严格按照流程进行服务器重启,本次事件中,重启服务器节点时应先对数据库进行切换再重启,数据库无法切换时不应强制重启服务器。

 

 

三、无防备的不确定性低级错误

事件1

测试数据库与生产数据库两个命令执行窗口同时连接,误将测试库删除操作执行到了生产库。

 

事件回顾:

管理员原计划删除测试库的数据,在操作过程中打开了两个命令执行窗口(一个正式窗口、一个测试窗口),在本地拷贝好删除命令准备切换到测试窗口执行,鼠标在经过正式窗口时,误点击鼠标右键,导致命令直接在正式窗口执行,导致误删除生产库的部分用户数据。

 

事件反思:

  1. 凡是涉及到增、删、改的动作,都要再三确认后执行,而且要准备好回滚措施;

  2. 当同时连接多台服务器时,变更操作是需要反复确认,更需谨小慎微。

 

事件2

远程连接操作卡顿,拖影,工程师意图为点击“备份”按钮,却点击到了“还原”按钮。

 

事件回顾:

技术人员通过远程工具连接客户方电脑进行远程支持,排查备份系统备份任务失败问题,因网络连接状态不佳,鼠标操作经常卡顿、漂移、出现拖影,画面反馈延迟,但未能引起技术人员的重视,依然连续多次不断点击鼠标,在管理控制台“备份”和“还原”按钮相邻,试图点击“备份”按钮,却点击到了“还原”按钮,导致执行了数据恢复操作。

 

事件反思:

  1. 无把握不动作;

  2. 远程操作时,尽量放慢速度,网络状况不佳,当鼠标出现拖影,操作时更当谨慎。

     

 

从每一起事故的发生我们可以看出,事故之所以发生,它与技术细节理解不够、风险意识及控制不足、操作人员安全意识不高、麻痹大意心存侥幸心理、IT运维管理有漏洞都有直接关系。

 

IT运维担负的责任和使命是极其重要的,各类事故发生后,我们需要不断反思,思索下次如何才能避免这种事故的发生。回顾这些IT事故,希望这些曾经出现过的事件或者事故带给我们更多启迪,让这些已然发生无法挽回的IT事故发生的更有价值,以防更多悲剧的发生。

 

虽然上述案例中的IT事故,客观上永远无可避免,但只要有足够的敬畏之心,将安全风险意识、运维操作谨小慎微的文化理念渗透到每个IT运维人员的心中,提高防范意识,警钟长鸣,必将可以有效减少IT事故的发生。

 

你的运维工作中,发生过哪些事故?留言分享一下吧~

 


 

 

金秋十月,是适合学习的好日子。

2018蓝鲸智云分享会正在免费报名中,如何打造坚实的自动化运维基础,如何稳步向数据化运维迈进,如何全方位推动研发运营一体化,我们共同探讨。

报名请戳如下链接:

10月23日上海站:https://www.bagevent.com/event/1904525

10月25日北京站:https://www.bagevent.com/event/1908569

10月30日广州站:https://www.bagevent.com/event/1908633

10月31日深圳站:https://www.bagevent.com/event/1908650

 

本文由嘉为科技首发,转载请注明出处。

你可能感兴趣的:(无把握不动作!那些年,我们经历的IT运维事故)