linux运维工作的七项内容

一,【基础运维检查】

或叫 例行检查 或叫 例行巡检  

mail cacti

1.理解例行检查列表的内容、检查项的含义以及可能引发的问题。

2.按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决。

3.定期检查线上服务模块,排除可疑进程, 发现问题及时通报。

4.理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决。

5.制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点。


工作清单参考

1.在预期的时间内,根据执行手册,保质保量完成产品线既定的例行检查工作。

2.通过技术方式提高例行检查的效率。

3.有能力发现潜在问题,制定或者补充合理的检查清单和检查方式,保证基础运维有效进行。

4.进行问题和追查,并解决可能的隐患。


具体检查项举例

机器性能:idle>60%,memfree>60%,io<30MB/s,nic<90MB/s,disk_used<80%

模块日志:请求次数<800次/s ,耗时<300ms/次,日志fatal|error|warnning条数

系统日志:查检内核日志是否有异常输出 '(I/O error|EXT2-fs error|ERROR on|Medium Error|error recovery|disk error|Illegal block|Out of Memory|dead device|readonly)'

数据报表:前一天用户访问量报表,前一天用户提交量报表,各地域访问服务流量情况和耗时情况,非正常用户(网页抓取)访问量情况

备份检查:检查夜间的数据备份是否正常。


如在排查过程中遇到问题,需要及时跟进:

凭估问题影响,及时通报,跟进问题,定位问题,提出解决方案,经确认后执行解决方案,最后通报问题已解决 并 给出如何让此类问题不再次发生。


二,【整理预案】

工作清单参考

1.根据服务稳定性和部署现状,整理服务执行预案。

2.将服务分级别,分层次,整理不同重要性的应急预案。

3.定期进行预案演练,每季度进行一次大规模预案演练,但如有重要级别的服务,可以加快预案练习频率(每月演练一次)

4.记录预案执行时间,人员,操作耗时,影响服务时间,服务恢复时间,最后整理整个预案演习的时间和真正影响服务时间。

5.根据预案演练发现的问题,记录问题原因,并更新预案,如果有遗漏的监控应在预案演练后及时添加监控。

6.优化预案执行过程,预案执行自动化,降低影响服务的时间。


三,【故障处理】

1.熟悉服务日常故障处理方法和预案执行要点。

2.对已知线上故障能按流程进行通报并按预案执行。

3.及时处理并回复相关的服务报警信息。

4.能透彻分析报警原因,并推动报警问题解决。

5.能发现服务隐患,总结处理方法和提出预案改进建议。



四,【数据备份】

1.根据服务类型,将需要备份的数据划分重要级别,理解什么数据需要全量备份,什么时候需要增量备份,并且需要确认数据需要保留天数。

2.编写数据恢复预案,定期演练,包含但不限于每季度的数据恢复测试;

3.根据服务调整、机器迁移等服务变更须及时更新备份方案;



五,【机器管理】

1.熟悉服务器资源状况,机房分布情况,并能做到批量管理,自动化管理。

2.合理使用服务器资源,根据不同服务的需求,安排不同配置的服务器。

3.保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题。

4.熟悉服务器上下架、上下线、搬迁相关流程。



六,【服务管理】

服务与服务间的关联关系。

线上服务操作注意事项。

及时发现服务上的问题,并及时跟进、推动解决。

整理运维文档,记录每个服务的问题或潜在问题和这个服务的特殊点。



七,【技术审核】

1.编制或审核上线步骤、回滚方案。

2.按流程高质量地完成上线、操作,包括上线后的检查复核以及紧急情况下的回滚操作。

3.用脚本和自动化的方法实现上线和操作,改进上线/操作过程。


具体审核点:

1.评估变更对运维影响(如资源、接口、平台),产出评估影响,以及应对策略。

2.评估变更对业务的影响(如流量、收入、网页数等)

3.变更执行

3.1变更时间、地点、参与;

3.2变更方案(含 执行方案、预案);

3.3变更执行;

3.4变更check;(业务和运维);

3.5变更回顾;

4.对所做的变更进行回顾和总结

4.1变更问题总结和改进;

4.2改进措施与实施;

4.3改进对业务推动;

4.4改进对运维推动;



原文链接

http://5983944.blog.51cto.com/5973944/1376242


你可能感兴趣的:(linux运维)