运维日常问题排查心得

    作为一名运维工程师,已经在运维领域摸爬滚打有三个年头,在这三年的时间里遇到的问题不计其数,虽然问题最终都得以解决,但是在对待问题和处理问题的方式上随着时间的推移不断的发生着变化。这次我不讲故事,先讲方法论,把我这三年在处理问题方面习得的知识分享给大家。希望对你以后处理日常的问题有一定的帮助,如果有时间我再和大家分享一下,之前处理过的有意思的问题。

第一点、先思考再动手。

当出现问题的时候一定不要慌张,在去查问题之前一定要想好了再动手。问题是什么,查问题需要哪些信息,我要如何收集这些信息。比如我去查日志的时候,我应该知道关键字是什么。反正总之,再我动手查问题之前,我脑子里一定要有思路了。

第二点、收集所有相关信息。

收集问题出现时间点前后所有的告警、变更等相关的信息。有时候凭借足够的信息可以快速的定位问题。

第三点、不要相信任何人的话。

不要轻易相信开发说的话,除非有实际的证据(代码,日志等)

第四点、事后总结不能少。

问题解决之后一定要输出一份详细的事件报告,复盘问题发生的整个过程。

你可能感兴趣的:(运维日常问题排查心得)