处理数据中心发生的故障,应该遵循哪些原则?

数据中心要全天候运行,难免会出现这样那样的故障。出现故障后,如何迅速找到故障原因并消除故障是一个数据中心运维效率的最直接体现。数据中心一旦发生故障,影响了数据业务,将给数据中心带来巨大的经济损失,有时甚至是毁灭性的打击,所以数据中心都不希望出现任何的故障。当然,愿望是美好的,现实是残酷的,数据中心包含有太多的电子设备和大量的软件,虽然部署了很多的备份技术和设备,但依然很难做到永远都不出故障。那么问题来了,一旦数据中心出现了故障,该如何高效处理?本文将针对如何处理数据中心故障列出八条基本原则,建议遇到数据中心故障时,能遵守这些“基本原则”,尽量减少故障给数据中心带来的损失,同时避免相同的故障出现第二次。

第一条:摸清故障现象

数据中心的故障表现复杂多样,先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,如果从这些方面开始分析,很容易走错方向。比如:应用部分反馈访问网页慢、支付系统完成不了支付、游戏业务玩不了了等等,这些应用业务的故障表现往往是片面的,不同技术水平的人和不同的业务部门的人反馈的故障现象都有差别,很容易让人不知道该从何查起。这时要对反馈的故障现象进行收集和整理,找出其中的共性。所谓摸清故障现象,就是找出此时数据中心里统一的故障现象。

第二条:测试并确认故障范围

根据故障现象,我们要查看这些故障是否来自于同一台服务器、同一条链路或者是同一台网络设备等。所有的应用业务都是在这些物理硬件设备上运行的,其中的任何一个环节的设备出现故障,都会导致问题。此时,各种网络探测诊断工具就派上用场了。通过使用PING、Tracert、镜像、流量统计、抓包等一系列手段,确定故障位置。经过这样一系列的诊断,可以将故障范围缩小到

你可能感兴趣的:(大数据,数据中心)