【稳定性】日志如何分级和日志的规范建议

一、日志分类

日志一般会被分为:info、warn、error 等大类。
但是这些还不足以判断系统的运行情况和到底发生了什么情况,影响如何。大部分情况通过看error日志,只能知道报错了,但错误是否严重,影响面是什么是不清楚的。
所以还需要对日志进行分级。

二、日志分级

通过在error日志里加上级别,可根据级别了解错误的影响面。 并且可以通过日志级别做监控,以实时了解系统的运行状况。

P0级别:

【问题很严重】核心主流程报错,如果出现的次数超过了阀值,需要停下手头工作马上解决。
如不能下单了,不能支付,不能发券,优惠台券查不到了;

P1级别:

【问题严重】对于用户来说很重要,虽然不会阻断核心主流程,但是会对核心主流程有影响,或者影响到主营业务,如果出现的次数超过值,需要尽快解决。
如券列表不展示;

P2级别:

问题一般严重,对于用户来说一般重要,不影响核心流程,不会对主营业务产生影响,如果出现的次数超过了阈值,不用太着急解决,但是也要解决。
如过期券不能展示;

P3级别:

问题不严重,不影响用户体验,不影响核心流程,不对主营业务产生影响,如果出现的次数超过了阀值,排期做优化。

三、日志规范

  1. 日志必备元素:什么场景报错,问题严重性/影响面,报错原因,怎么解决,输入参数,返回参数( 如果有)。
  2. 出现错误的地方一定要打日志;
  3. 日志大分类注意不要打错了,比如error打成了info,info打成了error;
  4. 同时还需注意告警精准性,关注系统依赖的组件(mysql、redis)出现故障时的告警;

你可能感兴趣的:(#,稳定性,功能测试,服务器)