SkyWalking UI使用说明

SkyWalking UI使用说明

目录

  • SkyWalking UI使用说明
  • 一、SkyWalking 模块介绍
  • 二、仪表盘
    • APM 监控
      • APM - Global
      • APM - Service
      • APM - Instance
      • APM - EndPoint
    • DataBase
  • 三、拓扑图
    • 实例信息面板
      • A.服务调用追踪
      • B.告警面板
      • C.追踪信息面板
      • D.服务实力性能状态面板
      • E.EndPoint (API)面板
  • 四、追踪
  • 五、性能剖析
  • 六、日志
  • 七、告警
  • 八、名词解释

一、SkyWalking 模块介绍

  • 仪表盘:
    • 监控全局、服务、实例、endpoint 几个维度的运行状态。
  • 拓扑图
    • 以拓扑图的方式展现服务直接的关系,并以此为入口查看告警、调用链、服务状态等信息
  • 追踪
    • 以接口列表的方式展现,追踪接口内部调用过程,可以通过 traceid 查询,进行分布式集群的日志查看及问题排查。
  • 性能剖析
    • 单独端点进行采样分析,并可查看堆栈信息。
  • 日志
    • 包括了browser 与 service日志集合。
  • 告警
    • 触发告警的告警列表,包括实例,请求超时等。

二、仪表盘

SkyWalking UI使用说明_第1张图片
从上向下介绍

  • 第一栏:监控、数据库、容器、vm
  • 第二栏:可以选择某个维度展示不同服务 / 实例 / 端点的数据
  • 第三栏:展示的不同维度,全局、服务、实例、端点的面板。

APM 监控

APM - Global

SkyWalking UI使用说明_第2张图片

  • Services load(CPM - calls per minute):服务平均每分钟请求数。

  • Slow Services(ms):慢响应服务,单位ms。

  • Un-Health services(Apdex):Apdex 性能指标,1为满分。

  • Slow Endpoints(ms):全局维度的慢响应端点(API)。例如一个接口,是全局Top N的数据,通过这个可以观测平台性能情况。

  • Global Response Latency(percentile in ms):全局响应延迟百分位数统计,单位 ms。

    表示采集样本中某些值的占比,Skywalking 有 “p50、p75、p90、p95、p99” 一些列值。
    图中的 “p99:61010” 表示 99% 请求的响应时间在61010ms以内。
    而99%一般用于抛掉一些极端值,表示绝大多数请求。

  • Global Heatmap:服务响应时间热力分布图,根据时间段内不同响应时间的数量显示颜色深度

    可译为热力图、热度图都可以,途中颜色越深,表示请求数越多,这和 GitHub Contributions 很像,commit 越多,颜色越深。
    横坐标是响应时间,鼠标放上去,可以看到具体的数量。
    通过热力图,一方面可以直观感受平台的整体流量,另一方面也可以感受整体性能。

  • 底部栏:展示数据的时间区间,点击可以调整。

    如果您的监控平台正常启动,监控项目也接入,但是就是没有数据,请看看是否是时区问题。

APM - Service

SkyWalking UI使用说明_第3张图片

  • Service Apdex(数字):当前服务的评分
  • Service Apdex(折线图):一段时间内Apdex评分
  • Service Avg Response Times(ms):平均响应延时,单位ms
  • Service Response Time Percentile:百分比响应延时,参考Global Response Latency(percentile in ms)
  • Successful Rate(数字):请求成功率
  • Successful Rate(折线图):一段时间的请求成功率
  • Servce Load(CPM / PPM)(数字):每分钟请求数,
  • Servce Load(CPM / PPM)(折线图):不同时间的每分钟请求数
  • Service Throughput (Bytes):该指标只适用于TCP 服务。当前服务的吞吐量。
  • Servce Instances Load(CPM / PPM):每个服务实例的每分钟请求数
  • Show Service Instance:每个 服务 实例 的最大延时
  • Service Instance Successful Rate:每个服务实例的请求成功率

APM - Instance

SkyWalking UI使用说明_第4张图片

  • Service Instance Load (CPM / PPM):当前实例的每分钟请求数
  • Service Instance Throughput (Bytes):该指标只适用于TCP 服务。当前服务实例的吞吐量。
  • Service Instance Successful Rate(%):当前实例的请求成功率
  • Service Instance Latency(ms):当前实例的响应延时
  • JVM CPU(Java Service):jvm占用CPU的百分比
  • JVM Memory (Java Service):JVM内存占用大小,单位m,包括堆内存,与堆外内存(直接内存)
  • JVM GC Time(ms):JVM垃圾回收时间,包含YGC和OGC
  • JVM GC Count:JVM垃圾回收次数,包含YGC和OGC
  • JVM Thread Count (Java Service)
  • 其他参数我们就不介绍了,.net的东西。

APM - EndPoint

SkyWalking UI使用说明_第5张图片

  • Endpoint Load in Current Service(CPM / PPM):每个端点(API)每分钟请求数
  • Slow Endpoints in Current Service(ms):每个端点(API)的最慢响应请求时间,单位ms
  • Successful Rate in Current Service(%):每个端点(API)的请求成功率

下边这这四个单独写的原因是因为,上边是整体端点情况,下边是某个端点的情况。

  • Endpoint Load:当前端点每个时间段的请求数据
  • Endpoint Avg Response Time:当前端点每个时间段的请求行响应时间
  • Endpoint Response Time Percentile(ms):当前端点每个时间段的响应时间占比
  • Endpoint Successful Rate(%):当前端点每个时间段的请求成功率

DataBase

SkyWalking UI使用说明_第6张图片

  • Database Avg Response Time(ms):当前数据库事件平均响应时间,单位ms
  • Database Access Successful Rate(%):当前数据库访问成功率
  • Database Traffic(CPM: Calls Per Minute):当前数据库每分钟请求数
  • Database Access Latency Percentile(ms):数据库不同比例的响应时间,单位ms
  • Slow Statements(ms):前N个慢查询,单位ms
  • All Database Loads(CPM: Calls Per Minute):所有数据库中请求量排序
  • Un-Health Databases:所有数据库不健康排名,请求成功率排名,失败最多的请求在最上。

三、拓扑图

SkyWalking UI使用说明_第7张图片

  1. All Groups :选择服务组
  2. All Services : 选择服务
  3. Create Group :创建新的服务组
  4. 服务引用拓扑图:展示服务之间的调用关系,以及服务器的健康状态。

实例信息面板

SkyWalking UI使用说明_第8张图片

A.服务调用追踪

SkyWalking UI使用说明_第9张图片

  • 当前服务:可选择具体服务
  • 当前端点:可选择具体端点
  • 当前深度:可以选择展示的调用深度。

Tips: 滑动指向连接线,点击后可以出现以下指标。

  • 平均响应时间
  • 平均吞吐量
  • 平均SLA
  • 相应百分比。

其实部分功能都是可以在其他地方看见的。只是这里多了一个 全局调用链深度展示。
下边这几个都去看 四、五、六、七吧。这里只是介绍每个按钮通向那个面板。

B.告警面板

C.追踪信息面板

D.服务实力性能状态面板

E.EndPoint (API)面板

四、追踪

我们可以使用 trace 功能进行链路追踪,可以看见一个请求都走了那些服务中间件。
并且能够看见各个服务器,某个端点某个步骤的耗时。

SkyWalking UI使用说明_第10张图片

  1. 这一部分就不在多说、选择服务、实例、状态(error、success)、端点。
  2. 这里可以根据 traceId 获取整个监控平台下相同 traceId 布式集群的日志查看。
  3. 时间范围选择日志时间范围。
  4. 红色点 大家应该都看见了,就是报错的位置。点击后可以弹出相对应的异常信息。如下图。
    SkyWalking UI使用说明_第11张图片

五、性能剖析

SkyWalking UI使用说明_第12张图片
性能剖析主要的工作就是对不同的端点进行采样,然后提供一个更加详细的分析结果。

  1. Task List :任务列表
  2. 新建任务:创建一个性能剖析的任务。
  3. Sampled Traces : 样品列表,保存了所有抽样。
    当点击了抽样后,右侧展板会展示出响应的分析信息。

六、日志

SkyWalking UI使用说明_第13张图片

  1. 不做过多介绍,大家都懂了。
  2. 这个功能比较重要了,查找包含关键词的信息日志。
  3. 这个功能同上,只不过是不包含。
  4. 然后 ~ 我们就可以根据 追踪ID 进行跨服务整体流程日志的追踪。

七、告警

SkyWalking UI使用说明_第14张图片

  • 过滤范围,可以按照一下几个维度进行过滤
    • 服务
    • 服务实例
    • 端点
    • 服务关系
    • 服务实例关系
    • 服务端点关系
  • 关键字
  • 标签

告警配置我们以后在详细说明。

八、名词解释

CPM / PPM: 对于HTTP1/2、gRPC、RPC服务,这意味着每分钟调用数(CPM: Calls Per Minute),对于TCP服务,这意味着每分钟包数(PPM:Packets Per Minute)
Endpoint: Endpoint 表示具体的服务,例如一个接口或一个定时任务。
标签: 我们可以通过 core/default/searchableTracesTages 中配置标记。

你可能感兴趣的:(APM,Java,SkyWalking,java,skywalking)