注:本文是先前写的,因为某次事故以为找不到了,既然找到了就贴出来吧。

公司来了一个年轻的系统运维工程师。从2013年2月24日来到公司到现在(2014年1月23日),大约11个月的时间。短短的11个月却经历了许许多多的人事变动和公司组织架构调整。自己所在的部门也变更了多次,最初在服务中心我是一名系统运维工程师,在IaaS这个大团队下和Jessewang组成一个2人小团队,主要负责公司Linux服务器及相关软件的设计、实施和运维等工作,主要目的是保证服务器提供不间断的服务和维持公司软件的稳定运行。这此期间在Jessewang的领导下完成了智能DNS服务器系统的设计、搭建和最终应用,这个系统当时在中国是最先进的但很少有公众涉足的一个系统,无论是知识库还是应用都非常少,我们用了近四星期才实现了多线路智能解析功能,后来我们用LAMP开发了一套智能DNS管理平台,经过了长久的压力测试,效果还是不错的。再经过两个月我的身份也转为正式。此期间,我们逐渐地将公司原有的基于Windows的开发式环境换成了基于Linux的生产环境,并对服务器进行了充分的优化,节约了大量服务器资源、规范了大量软件实施方法和关键性操作。客户端的服务器也经过了大量优化和处理,性能得到提升。

学习是一种习惯,贵在思想、重在坚持。在此期间,在Jessewang的领导下我也在服务中心这个技术团队中学到了N多知识,单是知识库文章就积累了3100多篇学习笔记,汇聚了涉及服务器软硬件(Linux、Windows,Cisco等)、虚拟化(VMware,VCE架构)、存储、网络、数据库(MySQL)、软件开发(PHP)、监控(Zabbix、Nagios、Ganglia)和安全等在内的多个领域的许多关键性指导资料。在进入职场以前我给自己定好的方向是专注于企业级Linux应用与实施和信息安全,而现在只要是用得到都要学习。在各种知识的熏陶中,我习得了6种核心思想:重思想、重方法、重实践、重目标、重习惯和重总结;培养了一种能力,故障分析和排除能力;学习方法上养成了设定目标、寻找方法、勤奋努力和坚持不懈的学习方法,在学习思想、学习习惯和自学能力等多个方面都得到了十足的锻炼。坚信无论是做什么事情只要用心,坚信办法总是有的思路,积极寻求最佳实践方法,为解决各种公司各种服务器故障、软件设计和平台实施积累了大量的经验,特别是在系统运维方面尤为突出,这些都得益于公司的技术环境和各位团队成员的热心协助,这也让我体会到有一个好Mentor和好环境的重要性(以前都是自学自模拟,苦难颇多)。

从系统运维工程师到负责售后实施的系统运维工程师。后来我们组为配合软件部的产品实施从服务中心旗下分离到研发中心,在原有的工作基础上专门从事公司开发软件的部署实施工作。此工作为熟知LNAMP架构和相关的应用(如Memcached,Varnished、HHVM、LVS、KeepAlived、HAProxy、Cluster等)打下了坚实的基础,特别还要提到在各种集群搭建和性能提升以及测试方法等方面进步也很快。从服务器虚拟化环境的运维管理到软件平台和各种软件和服务的搭建,再到自动化部署脚本的使用都已经非常熟练。这些为软件的快速部署和出现问题时的快速定位都很有帮助。尽管这段日子部署很繁琐很单调很消磨时间,但同样也能磨练人!我们就要搞出一套新的应对策略,用最少的时间投入实现最大的产出,同时还要想办法避免重复劳动,让问题减少,特别是因为人为的问题减少。在此期间,我更多的开始关注如何提高服务器的整体性能、更多的容错、高可用和备份策略、自动化部署和监控等运维技术和手段,充分保证服务器为运行在上面的软件提供最佳的运行环境和系统资源。随后为了更好地配合研发中心进行实施,对php进行了专题学习并对智能DNS系统进行了再次开发,并且针对SQL注入以及数据库端的安全进行了学习和研究。同时这个阶段我也体会到部门间与人合作以及大环境下的各种困难,但我一直恪守这样的准则,做好自己的就行了!只要自己没有错,就不怕背黑锅!

苦练内功,一个好习惯坚持一辈子。做笔记对于个人而言说一个好习惯,但针对每一个专题做成文档更有必要,这是我个人认为今年工作上的最大缺憾或疏漏。笔记对于个人来说是个人(私有)知识库,但对于公司来讲经过精心编写和专业管理的文档是知识库的重要组成部分,知识库不仅能促进公司内部知识共享,同时也能促进知识交流、规范化操作,为其他人特别是新加入的团队成员提供必要的知识储备。而Linux和社区的精神恰恰体现了开放(Open)和共享(Share)的重要性!但由于各种原因,公司内部很多团队成员,特别是软件部研发中心的绝大部分成员对Linux服务器、对公司服务器架构非常不了解,经常造成被反复的询问问题。单是简短的几次培训无法达到如此的效果,而知识库的创建能在很大程度上改善这种局面,知识库的知识是固定的可重复查看的,团队成员既能随时翻阅,又能做补充,既能让团队成员了解公司的架构,又能充分地学习到需要掌握的知识。但知识库最关键的不是知识,而是其中饱含的思想以及所蕴含规范化、标准化的操作步骤和操作手册。随着时代大车轮的碾进知识也会随着时间变得陈旧而废弃,而思想却是可以从知识中得到升华并延续下去。

美好的生活是自己创造的。作为一名系统运维工程师,随时可能面临各种突发事件,如机房停电、网络中断、服务无法启动、数据丢失等。下一阶段需要继续完善监控系统功能,当遇到突发事件时能第一时间解决,而不是等到客户跟领导反映出现问题时才发现问题。这样既能减少用户端投诉又能及时的解决问题避免公司发生损失。一个团队无法靠一人的力量生存也不能靠一个人的力量得到成长,运维人员应该将各种策略制定好,把这种问题的解决方案准备好,避免由于开发人员的问题导致服务出现停止状态。一个好的系统运维工程师就要在问题出现之前提前把事情做好做得漂亮,打前仗,守护好自己的阵地!瞪起眼,勤做事,少挖坑,生活才能更美好!如果是按照项目来实施,那就要掌握项目管理的知识,毕竟搞项目而不是去救火,甚至还要了解HR、了解绩效管理。

试(学)着跟人打交道。跟机器打交道久了,就不知道如何该跟人打交道。也许某一天公司架构会再次调整,运维人员也要去跟客户打交道,要去兼职售后,那就要提前做好准备了。平时讲话做事都得注意,学习老鸟们怎么说怎么做,必要时更要虚心请教。如果是他做他会选择怎么做,站在别人的位置以更高的角度思考解决问题。团队里面还有那么多高手,自己千万不要骄傲(亦不能浮躁,饭要一口口吃,水要一点点喝),多向其他人学习,一但他走了,不仅对公司对自己也是绝大的损失。

没有规矩不成方圆。IT运维是一个不断发展和不断完善的过程,运维的标准化也会不断的发展和变化。但如果没有标准化就很难控制运维的量度。运维作业一定要规划化,所有的大型运维作业都应该有规范的记录。良心很难讲,那就讲证据,有了根据有了记录才能将责任落实到位,系统才能可靠和安全。具体出台什么样的标准虽然难定但也得定。

未来的事情谁也不能做主。过去的事情无法改变,未来的事情谁也说了不算。也许2014这一年组织架构会变得更加的合理,人力和资源都能充分的利用,年轻的小程序员和工程师们能在老鸟的指导下快点成长,流程会更加健全,沟通更有效,重复的沟通也会逐渐减少。

Ready 2014,Go!成功的人并不是最聪明的人,决定成功的因素大都是非智力因素,明确的目标、积极的心态、勤奋努力和坚持不懈的作风、承受挫折和压力的能力和成熟的待人接物都是关键。谋事在人成事在天,物竞天择适者生存!不再罗嗦了,2014加油!