APM(Application Performance Management)理论模型
Dapper,大规模分布式系统的跟踪系统
zipkin
简介
Zipkin是一种分布式跟踪系统。它有助于收集解决微服务架构中的延迟问题所需的时序数据。它管理这些数据的收集和查找。Zipkin的设计基于Google Dapper论文。
使用和配置
zipkin-collector项目和zipkin-ui项目
Spring Cloud Sleuth是spring推出的分布式链路追踪工具,借鉴了 Dapper, Zipkin和HTrace.可以和spring-cloud项目完美契合。下面是zipkin-collector的pom依赖
4.0.0
zipkin-collector
zipkin-collector
io.choerodon
choerodon-framework-parent
0.8.0.RELEASE
0.6.3.RELEASE
org.springframework.boot
spring-boot-starter-actuator
org.springframework.cloud
spring-cloud-starter-eureka
org.springframework.cloud
spring-cloud-sleuth-zipkin
org.springframework.cloud
spring-cloud-sleuth-zipkin-stream
org.springframework.cloud
spring-cloud-starter-stream-kafka
org.springframework.cloud
spring-cloud-stream-binder-kafka
org.springframework.boot
spring-boot-starter-aop
org.springframework.retry
spring-retry
io.zipkin.java
zipkin
1.31.3
io.zipkin.java
zipkin-autoconfigure-storage-elasticsearch-http
1.31.3
org.springframework.boot
spring-boot-starter-test
test
io.choerodon
choerodon-starter-hitoa
${choerodon.starters.version}
app
zipkin的通信方式支持http和message queue(kafka,rabbitMQ),但是http通信方式影响到主程序,所以这里采用kafka异步消息的方式通信。
使用elasticsearch存储客户端发送来的数据
接下来是配置zipkin-ui服务,pom依赖和配置如下
4.0.0
zipkin-ui
io.choerodon
choerodon-framework-parent
0.7.0.RELEASE
0.5.4.RELEASE
org.springframework.boot
spring-boot-starter-actuator
io.zipkin.java
zipkin-autoconfigure-ui
io.zipkin.java
zipkin
1.31.3
io.zipkin.java
zipkin-server
1.31.3
io.zipkin.java
zipkin-autoconfigure-storage-elasticsearch-http
1.31.3
org.springframework.boot
spring-boot-starter-test
test
io.choerodon
choerodon-starter-hitoa
${choerodon.starters.version}
app
客户端服务需要加入如下依赖
org.springframework.cloud
spring-cloud-sleuth-stream
然后客户端作如下配置,配置kafka以及采样率
启动服务后发请求,访问zipkin-ui(http:localhost:9030)的服务端口即可查看可视化调用链了
pinpoint
简介
Pinpoint是一个APM(应用程序性能管理)工具,适用于用Java / PHP编写的大型分布式系统。有如下特性:
- 一目了然地了解您的应用程序拓扑
- 实时监控您的应用程序
- 获得每个事务的代码级可见性
- 在不更改一行代码的情况下安装APM代理
- 对性能的影响最小(资源使用量增加约3%)
- 报警
pointpoint概述与技术细节以及中文翻译
中文翻译图片丢失,但在英文文档里面可以找到对应图片
本地搭建
本地使用docker部署pinpoint-docker,版本为1.8.0
执行如下命令一键搭建,镜像比较大
git clone https://github.com/naver/pinpoint-docker.git
cd pinpoint-docker
docker-compose pull && docker-compose up -d
docker-compose会启动如下服务
- Pinpoint-Web Server(ui界面)
- Pinpoint-Collector
- Pinpoint-Agent(ready to be used)
- Pinpoint-Flink
- Pinpoint-Zookeeper
- Pinpoint-Hbase
- Pinpoint-QuickStart(a sample application)
配置应用代理
下载release-1.8.0的pinpoint-agent包并解压
在JVM启动脚本增加下列三行代码
-javaagent:$AGENT_PATH/pinpoint-bootstrap-$VERSION.jar #绝对路径
-Dpinpoint.agentId=test #必须在pinpoinit安装的全部服务器集群中全局唯一. 最简单的让它保持唯一的方法是使用hostname($HOSTNAME),因为hostname一般不会重复. 如果需要在服务器集群中运行多个JVM,请在hostname前面增加一个前缀来避免重复
-Dpinpoint.applicationName=api-gateway#服务名称,在ui界面显示
代理会在应用程序启动前,用字节码增强技术注入Interceptor,然后代理使用UDP/TCP+Thrift发送数据到collector,collector负责持久化和处理数据,然后web ui从HBase中拿到数据进行展示
采样率
在pinpoint-agent-1.8.0/pinpoint.config配置采样率
#采样率为数字的倒数,1即1/1=100%,2表示1/2=50%
profiler.sampling.rate=1
使用
ui界面访问http://localhost:8079
pinpoint的功能还是很强大的,可以监控Jvm内存使用情况,Jvm永久带使用占用空间,Cpu使用情况,每秒处理的消息数(S标识操作系统,U标识此应用),Jvm线程情况,单请求平均响应时间等,颗粒度很细,缺点是环境搭建比较繁琐,高并发情况下,代理对吞吐量的影响比skywalking和zipkin都大,后续会介绍性能的对比
skywalking
简介
SkyWalking是一个开源的APM系统,包括监控,跟踪,诊断Cloud Native架构中分布式系统的功能。
核心功能如下。
- 服务,服务实例,端点指标分析
- 根本原因分析
- 服务拓扑图分析
- 服务,服务实例和端点依赖性分析
- 慢服务和端点检测
- 性能优化
- 分布式跟踪和上下文传播
- 报警
SkyWalking支持从多个来源和多种格式收集遥测(痕迹和指标)数据,包括
1.SkyWalking格式的Java,.NET Core和NodeJS自动仪器代理
2.Istio遥测格式
3.Zipkin v1 / v2格式
5.x版本文档
部署
- 5.0.0-GA版本只能和5.x版本的elasticsearch匹配,使用6.x版本会连不上elasticsearch
- run bin/startup.sh即可启动
- 需要配置好服务器的时区和时间
配置agent
1.拷贝agent目录到所需位置. 日志,插件和配置都包含在包中,请不要改变目录结构.
2.增加JVM启动参数, -javaagent:/path/to/skywalking-agent/skywalking-agent.jar. 参数值为skywalking-agent.jar的绝对路径。
3.支持插件,插件全部放置在 /plugins 目录中.新的插件,也只需要在启动阶段,放在目录中,就自动生效,删除则失效.
4.可以在/agent/config/agent.conf 配置每个应用的agent.application_code
,也可以通过vm参数来覆盖代理配置-javaagent:/path/to/skywalking-agent/skywalking-agent.jar -Dskywalking.agent.application_code=gateway-helper
配置成功后,ui界面访问:http://localhost:8080,使用admin/admin登陆
集群部署
https://github.com/apache/incubator-skywalking/blob/5.x/docs/cn/Deploy-backend-in-cluster-mode-CN.md
性能
探针性能
UI界面
采样率
在/agent/config/agent.config文件里配置,skywalking默认的采样率是100%
# 每3秒取样的次数,负数的含义是尽可能多的取样,即100%取样
agent.sample_n_per_3_secs=-1
zipkin,pinpoint和skywalking的比较
性能(摘自https://juejin.im/post/5a7a9e0af265da4e914b46f1)
选用了一个常见的基于Spring的应用程序,他包含Spring Boot, Spring MVC,redis客户端,mysql。 监控这个应用程序,每个trace,探针会抓取5个span(1 Tomcat, 1 SpringMVC, 2 Jedis, 1 Mysql)。这边基本和 skywalkingtest 的测试应用差不多。
模拟了三种并发用户:500,750,1000。使用jmeter测试,每个线程发送30个请求,设置思考时间为10ms。使用的采样率为1,即100%,这边与生产可能有差别。pinpoint默认的采样率为20,即50%,通过设置agent的配置文件改为100%。zipkin默认也是1。组合起来,一共有12种。下面看下汇总表:
从上表可以看出,在三种链路监控组件中,skywalking的探针对吞吐量的影响最小,zipkin的吞吐量居中。pinpoint的探针对吞吐量的影响较为明显,在500并发用户时,测试服务的吞吐量从1385降低到774,影响很大。然后再看下CPU和memory的影响,在内部服务器进行的压测,对CPU和memory的影响都差不多在10%之内。
collector的可扩展性、 全面的调用链路数据分析、对于开发透明,容易开关等
参阅这篇文章