我是一只老老鸟_第1张图片田逸    某网站系统管理员
 
田逸是一名系统管理员,他的工作是给服务器安装操作系统和其他软件,进行配置并负责服务器的连通。如果服务器发生故障,会先让田逸出马,判断是系统故障还是硬件故障。如果是系统故障,由田逸处理;如果是硬件故障,则转给专门的硬件维护人员。
面对着眼前几十台崭新的服务器,田逸确定了一件事,那就是:今天必然又是繁忙的一天。
 
不待扬鞭自奋蹄
田逸是一名非常资深的IT技术人员,他的技术文章总是在论坛上受到普遍的关注,甚至被某个知名网站“剽窃”。经常有一些“菜鸟”留言,感谢田逸无私地分享技术经验。与这些“菜鸟”相比,田逸被称之为“老鸟”当之无愧,甚至可以说是“骨灰级”的。
田逸是一名系统管理员,他的工作是给服务器安装操作系统和其他软件,进行配置并负责服务器的连通。如果服务器发生故障,会先让田逸出马,判断是系统故障还是硬件故障。如果是系统故障,由田逸处理;如果是硬件故障,则转给专门的硬件维护人员。
通常情况下,田逸会在8点多来到办公室,比规定的915上班时间早一些,因为他要保证其他员工上班时能正常使用服务器。
田逸上班要做的第一件事就是远程查看分布在皂君庙、菜市口、望京等处机房的服务器流量是否正常。通常服务器的流量会有一个平均值,如果超过平均值,就意味着可能存在问题。另外,田逸还要做另一个分析,比如100M的带宽长期只用了30M,那么是否要减少租用的带宽;如果经常达到90M,则是否需要租用更多的带宽。远程查看服务器流量的工作一般要花费十分钟的时间。
接下来,田逸会用NetSaint查看服务器上各种服务的状态是否正常。
收取邮件也是必不可少的程序,因为可能会有服务器报警邮件。每台服务器的硬盘上都有监控系统,超过了所设置的阈值就会发邮件报警。如果收到报警邮件,田逸就会按照记录表,找到服务器所对应的软件开发人员,然后将报警邮件进行转发,告诉开发人员删除一些文件腾出磁盘空间。发过邮件后,田逸还要打电话再次确认一下。
剩下的时间里,经常会发生一些临时事件。比如,有人给打电话询问系统支持的问题;有人反映服务器的时钟慢了一个小时,需要纠正。这里要解释一下,开发人员对服务器进行操作的权限很低,高级的权限都由田逸掌握,所以连时钟校正这些事都要负责。
当然,抓紧时间给自己充电也是非常重要的。搞技术就必须不断学习,否则“老鸟”的称号就名不符实了。在空闲时,田逸会看书、上论坛、去“Linux加油站”、“网管联盟”等QQ群进行交流。
还有一项必不可少的工作是:加班!就像今天这样,给这几十台服务器安装完系统,还要拿到数据中心上线。数据中心的机架比较高,至少需要两个人才能把服务器放到高处的机架上,所以必须几个人去。折腾完这批机器,需要花费几个人几天的时间,加班是少不了的。
田逸一周会去数据中心三次进行例行检查。当然,深更半夜去数据中心解决问题的情况也常出现。有的老服务器“服役”时间太长,性能下降,无缘无故的就死机。如果发生在半夜,田逸会告诉机房值班人员重启服务器,如果依然存在问题,那就只能自己过去了。平均计算下来,他一周会有一次深夜前往数据中心解决问题。
 
老马险失蹄 
尽管田逸经验丰富,技术过硬,做事仔细,可是IT维护的事项实在烦杂,虽然每次都小心翼翼,田逸还是犯过“严重错误”。
事情是这样的……
那一天,田逸去IDC机房把两台服务器分给分公司的人。分公司的小王来了之后,田逸按照服务器前面板贴的标签(上面是该服务器的IP地址)对小王说:“就是这两台服务器。” 看着没有什么问题了,田逸就打道回府了。
正当田逸在饭馆吃晚餐的时候,电话响了,一听是小王打来的,说系统装完了,但是有一个服务器不能联网,问田逸是怎么回事。田逸问了他一些情况,然后告诉他怎么做。一会儿小王又来电话说,那个服务器还是不能联网,但是他让其他人 ping田逸给他的服务器IP居然是通的……田逸顿时出了一身冷汗,糟糕!我分给他的服务器里面有一台搞错了,也就是标签上标示的IP和服务器的真实IP不一致。出发前同事告诉田逸,要给分公司的两台机器已经装有系统并且分配了IP地址。机房里的100多台服务器都是生产系统,现在小王把一台服务器的系统格式化重装系统,但一定不是要分配给他的那个,完蛋了!
田逸顾不上吃饭马上打车去望京机房,然后接上显示器登录其中的一台服务器,然后转登分出去、但是实际还存在的那个IP的服务器,运行命令 eject弹光驱,很快就查出那台机器的位置,看到这个服务器前面板标签写的IP地址与机器实际的IP不一致,就是这台与分出去的那台搞反了。赶快查该IP所对应服务器的应用表,太幸运了!是一台刚上线的空系统,还没来得及分配给用户呢。一场虚惊!
“这件事情都是我马虎,轻信了标签上的标识。”田逸说,“这件事教育了我,以后确认系统的IP,一定要登录系统核实无误后再动手。如果这次不是万幸的话,我可能得提交辞职报告了。”  
 
田逸的一个工作日
8:40 提前来到办公室,远程查看服务器流量是否正常;查看服务器上各种服务的状态是否正常
9:15 正式上班时间
9:35 有人打电话寻求技术支持
10:20 有人需要田逸调整服务器的时钟
10:50 看技术书籍、上技术论坛、去技术QQ群进行交流
12:00 吃午饭
13:30 去数据中心进行例行检查
16:00 返回单位
16:40 解决笔记本蓝屏的问题
18:00 下班回家
24:00 从家里前往数据中心解决问题