我的2011年年度工作总结(如何展示我们都做了什么)

这是我去年年底做的一个工作年报,通过这个年报,我将我们部门究竟做了什么,然后明年该做什么有理有据清晰的写了出来。
请各位IT经理想想,什么样的工作总结是你的上司、你的同事想看到且能看懂的?
我们写的工作报告,既要是对方所关心的内容,又要有数据做依据,更要通俗易懂,。 
各位领导、同事:
#到这个我的报告就写完了,其中提到的附件“《问题列表》”我会在随后两天里提交到博客上。
附件是C5运维半年多来的运维报告和详细的事件列表,欢迎给位同事发表意见。
从xxx月到现在共记录了63个事件,其中21个会导致业务中断,后几个月的故障记录多也不全是说故障真多了,而是运维人员的沟通意识跟上来了。
 
从记录来看,故障原因主要集中在“网络故障”“软件BUG” “操作失误”和“代码故障”。
因为IDC故障、广域网波动、sip封杀等导致的“网络故障”是事故的大头,我们明年降低故障的主要精力应该放在这里,可能做加速站点会缓解这些问题。
接下来说说软件BUG,这指的是软件的不稳定性,比如说RAID卡/ext3文件系统丢失数据,或者讯时网关突然恢复出厂设置,吃了这么多亏我们会尽量少买这种有潜在问题的设备。
再说“操作失误”和“代码故障”,这就需要运维和开发再接再厉了,开发想办法减少asterisk实例假死,运维想办法在假死时别重启错实例了。
 
 
让我们再看看故障服务器都集中在哪里,主要是哪些功能点受灾了。
如下图,和网络故障对应的,经常会有多台服务器出现故障,降低对网络的依赖是一个迫切的需求。
再就是PBX服务器是出故障的大户,我们已经解决了很多问题,希望明年能重点解决一下实例不稳定的问题。
现在数据库服务器的故障几率要大于应用服务器,Oracle技术我要好好学习一下了。
 
 
 
接下来我在回忆一下这半年来对公司影响比较大的几个业务事件。
先说6月份交换机故障导致整个北京机房频繁断网,加上当时我对业务不熟悉、硬件故障和攻击混合出现。这个故障导致我们流失了好几个大客户,我记得XX团购就是这个时间离开平台的。当时我40多天每天晚上都手动重启服务,最后靠时间证明故障出在交换机上。从此事我们得到的经验教训是,思科也不可靠,网络设备不懂就不要调配VLAN。
再说说硬件的不可靠性,大家可以看看11号和18号问题,当时我很震惊,系统跑着跑着自己就粉碎性骨折了,所有数据都会丢失。最终锁定问题出现在RAID卡的时候,故障已经出现了三四次了。为了解决这个问题,运维工程师给北京的PBX重装了三次系统(第一次正常升级,第二次更换RAID卡,第三次查漏补缺),因为丢失客户录音,公司也进行了一些赔偿。这件事也是一个契机,逼着我们备份用户数据。但这事对运维的负面影响非常大,长久以来我们认为RAID卡、文件系统都是非常可靠的,现在突然发现这些东西不可靠,我们的技术世界观都被颠覆了。最近我有个想法,给操作系统安装好RAID卡驱动,可能能解决这个问题。
第三个大故障就是上海的网络故障和深圳的SIP封杀,这两个故障给上海和广东的同事耽搁了多少单子我都不好意思估计了。但从运维的层面怎么解决这个问题,我们确实很难办,IDC并不像其他的供货商的态度那么亲热。现在公司在考虑使用sip加速器的机制,绕开找机房就必须找“BGP+中继线”这种稀有的组合,同时强令所有的sip通信都走加密协议。希望这种调整能给平台带来一个好的契机。
最后一个大故障就是公司网站(宣传网站、非业务)被注入恶意脚本,并且用耗尽带宽的方式去攻击别人。这是我从业多年来第一次有服务器当“肉鸡”,我觉得没有专人负责的东西最后都会出点大漏子,XXX建站工具不安全我们都知道但都没足够的重视,希望公司早点购买技术支持,或者在PHP安全加固上做点文章。
 
最后我来说一下在运维的眼里,我们这半年都做了什么工作。可能这些工作同事们看不到,但我认为这是运维自己最“本分”最应该做好的事情。
1,运维事件的可控化,我认为这个比技术更重要,所以把这个放在技术之前。现在运维能做到,90%的预定操作看文档完成,80%的意外处理也是用预案来执行。现在SVN上我们有好多篇安装预案、维护预案性质的文档,我们的目标就是“少出错”,上表中记录我们四个人半年出错7次,我们会争取将出错几率降得更低。
2,运维工作能力的提升。曹A彪、尚b伟、彭c慧都是没有任何工作经验就来工作的,在工作了半年之后,这些人都能胜任运维的工作。从态度上,我并未发现他们有过消极工作,从技术上,现在的运维工作基本都是他们做的。我能和他们很融洽的合作共事,我非常感谢在我苛责他们的时候他们对我的宽容。
3,运维工作的文档化。运维的文档化一方面是让工作更有可控性,不容易出错,另一方面是经验技术的传承工作。要做好这个工作,首先要没私心,很多浅薄的人认为把自己知道的东西说给别人、写给别人就是让自己失业。但我们通过文档分享的方式,他们的技术我能现学现用,我的计划他们也能顺畅执行。我可以很自信的说,只要你肯看我们的运维文档,三个月之后几个运维都可以放心的休假,我们能搞定的事情别人也能搞定。
 
 
  

你可能感兴趣的:(工作总结,年终报告,部门总结)