目录
1.自定义SkyWalking链路追踪配置
1.1 什么是TraceId
1.2 使用的背景
1.3 编码
2.SkyWalking-RocketBot性能剖析
3.SkyWalking链路追踪-日志和RPC上报实战
4.源码部署 Apache SkyWalking
5.SkyWalking链路追踪-告警模块和WebHook通知《上》
6.SkyWalking链路追踪-告警模块和WebHook通知《下》
7.Jar包和微服务方式打包运行整合Skywalking
本篇主要介绍SkyWalking性能剖析,慢业务代码定位以及通知告警
SkyWalking和Springboot的整合以及基础页面介绍见下面2篇博客
分布式链路追踪SkyWalking快速入门之环境安装界面指标介绍(一)_这是王姑娘的微博的博客-CSDN博客本篇简单介绍SkyWalking是什么,特点和整体架构组成,使用docker安装部署,页面指标项的介绍https://blog.csdn.net/wnn654321/article/details/128594125Springboot整合分布式链路追踪SkyWalking之探针使用和链路采集实战(二)_这是王姑娘的微博的博客-CSDN博客本篇主要展示SkyWalking和Springboot项目的整合以及探针链路采集展示https://blog.csdn.net/wnn654321/article/details/128594365
用来标识一条请求链路,一条请求链路中包含一个Trace ID,多个Span ID
对业务代码进行链路追踪,方便排查问题
比如,某个接口请求耗时慢,想对业务接口方法进行追踪
controller->service 方法,记录业务方法加入到链路中,记录入参、返回值等
添加依赖
org.apache.skywalking
apm-toolkit-trace
8.5.0
业务方法添加注解 @Trace
注意!!POJO记得重写toString方法
@Tags(
{@Tag(key = "方法名-input", value = "arg[0]"),
@Tag(key = "方法名-output", value = "returnedObj")
}
)
Demo:
缺点:代码有侵入性
性能剖析
新建任务:新建需要分析的端点
左侧列表:对任务进行采样
右侧:每个端点的链路信息
性能分析:可以查看对应方法的调用栈,找出问题点 可直接定位到代码方法和代码行
注意:一个服务在监控持续时间内只能设置一个端点监控任务
新建任务后开始请求接口,然后等待几秒刷新性能剖析列表,就会出来接口对应的分析结果
点击分析按钮,出来对应的堆栈信息 ,可查看自己熟悉的包名类名调用
使用背景:
用户请求接口,怎么在我们日志中找到traceId来跟踪系统调用链路 / 需要在系统日志打印出traceId
添加依赖:pom.xml
org.apache.skywalking
apm-toolkit-logback-1.x
8.5.0
配置logback打印日志(SpringBoot默认使用Logback),配置文件名 logback.xml
%d{yyyy-MM-dd HH:mm:ss.SSS} [%tid] [%thread] %-5level %logger{36} -%msg%n
代码打印日志:
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
Logger logger = LoggerFactory.getLogger(ProductController.class);
//代码中 logger.info 打印日志
重启服务后打印日志: 可以看到TID
将日志上传到skywalking oap中,查看更方便
%d{yyyy-MM-dd HH:mm:ss.SSS} [%tid] [%thread] %-5level %logger{36} -%msg%n
%d{yyyy-MM-dd HH:mm:ss.SSS} [%tid] [%thread] %-5level %logger{36} -%msg%n
注意:
skywaling agent 默认是上传到本地的oap,如果oap server地址不是本地,则需要单独配置oap server地址
agent文件夹里面config配置 增加以下几个
#日志数据的grpc服务器的主机
plugin.toolkit.log.grpc.reporter.server_host=${SW_GRPC_LOG_SERVER_HOST:112.xxx.xx.xxx}
#日志数据的grpc服务器的端口
plugin.toolkit.log.grpc.reporter.server_port=${SW_GRPC_LOG_SERVER_PORT:11800}
#日志数据的最大大小
plugin.toolkit.log.grpc.reporter.max_message_size=${SW_GRPC_LOG_MAX_MESSAGE_SIZE:10485760}
#发送数据时将超时多长时间。单位是秒
plugin.toolkit.log.grpc.reporter.upstream_timeout=${SW_GRPC_LOG_GRPC_UPSTREAM_TIMEOUT:30}
重启后访问连接,在日志模块可以看到控制台输出的信息
根据TID搜索控制台日志
同步搜索UI 日志模块
查看日详情
解压:
配置更改:config配置文件 application.yml 存储
H2(默认)/ ElasticSearch 6, 7/MySQL /TiDB /InfluxDB
启动:路径 /skywalking/apache-skywalking-apm-bin/bin
方式一:bin/startup.sh startup.sh里面是启动了 oap和ui的
方式二:分开启动
#端口 11800
bin/oapService.sh
#端口8080
bin/webappService.sh
完成启动~
查看日志 #oap日志 skywalking-oap-server.log
#ui界面日志 webapp.log
需求:
监控业务相关接口性能,超过阈值则触发告警功能
通过调用webhook接口进行触发,具体的webhook接口地址可以自行定义路径
注意:要OAP Server的网络可以触发的webhook接口 一个是阿里云 一个是本机电脑,直接是通不了的 可以增加小米球 / Ngrok内网穿透
开发人员可以在webhook接口中编写告警方式,比如邮件、短信等,就是一个http接口
Apache Skywalking默认的告警规则配置
安装目录下的config文件夹下 alarm-settings.yml文件
默认内置多个规则
最近3分钟内服务的平均响应时间超过1秒
最近2分钟服务成功率低于80%
最近3分钟90%服务响应时间超过1秒
最近2分钟内服务实例的平均响应时间超过1秒
配置含义:
metrics-name 脚本中的度量名称
threshold 阈值
op 比较操作符,可以设定>,<,=
period 多久检查一次当前的指标数据是否符合告警规则,单位分钟
count 达到多少次后,触发告警消息
silence-period 在多久时间之内,忽略相同的告警消息,在时间T触发了某告警,那么在(T+10)这个时间段,不会再次触发相同告警
message 告警消息内容
webhooks 配置告警产生时的触发的调用地址
编码:
public class AlarmMessage {
private int scopeId;
private String scope;
private String name;
private String id0;
private String id1;
private String ruleName;
private String alarmMessage;
private long startTime;
private transient int period;
private transient boolean onlyAsCondition;
//.........set get toString...........
}
@RestController
public class CallbackController {
Logger logger = LoggerFactory.getLogger(CallbackController.class);
private List messageList = new ArrayList<>();
@PostMapping("webhook")
public void webhook(@RequestBody List alarmMessageList){
logger.info("收到消息 该消息接收到后,可以推送邮箱或者短信:"+alarmMessageList);
messageList.addAll(alarmMessageList);
}
@GetMapping("list_alarm_msg")
public List list(){
return messageList;
}
}
配置webhook接口,POST方式推送
注意:要重启oap server!!!!!!!!
webhooks:
- http://127.0.0.1:8081/webhook/
更改config目录下的alarm-settings.yml
重启oap server 先停止8080和11800 然后再启动
业务代码更改:
修改睡眠时间为2秒,模拟接口响应慢
启动业务代码,访问连接,结果:
2-10分钟之内, 服务下的接口请求超过1秒响应 则进行告警推送,在skywalking的告警页面可见。
代码中接收到的错误信息,实际应用中可以获取到信息 然后推送钉钉 或者短信邮件等渠道
Springboot整合短信发送见下面这篇博文:
Springboot整合邮箱发送见下面这篇博文:
项目打包:
springboot项目和springcloud项目都一样,jar方式运行
通过java -jar 加入参数
项目打包:mvn install
启动:
nohup java -jar -javaagent:/root/apache-skywalking-apm-bin/agent/skywalking-agent.jar -Dskywalking.agent.service_name=WnnShop -Dskywalking.collector.backend_service=112.xxx.xxx.240:11800 wnn-sky-0.0.1-SNAPSHOT.jar &