本文主要分享SkyWalking JVM 指标的收集与存储。大体流程如下:
目前 JVM 指标包括四个维度:
SkyWalking UI 界面如下:
[这里是图片001]
[这里是代码001],实现 BootService 、Runnable 接口,JVM 指标服务,负责将 JVM 指标收集并发送给 Collector 。代码如下:
queue
属性,收集指标队列。collectMetricFuture
属性,收集指标定时任务。sendMetricFuture
属性,发送指标定时任务。sender
属性,发送器。[这里是代码006]方法,初始化queue
,sender
属性,并将自己添加到 GRPCChannelManager ,从而监听与 Collector 的连接状态。
[这里是代码009]方法,创建两个定时任务:
JVMService#run()
方法。Sender#run()
方法。[这里是代码012]方法,代码如下:
CPUProvider#getCpuMetric()
方法,获得 GC 指标。MemoryProvider#getMemoryMetricList()
方法,获得 Memory 指标。MemoryPoolProvider#getMemoryPoolMetricList()
方法,获得 MemoryPool 指标。GCProvider#getGCList()
方法,获得 GC 指标。[这里是代码017],实现 Runnable 、GRPCChannelListener 接口,JVM 指标发送器。代码如下:
status
属性,连接状态。stub
属性,阻塞Stub 。#drainTo(Collection)
方法,从队列移除所有 JVMMetric 到buffer
数组。[这里是代码024],CPU 提供者,提供[这里是代码025]方法,采集 CPU 指标,如下图所示:[这里是图片002]
usagePercent
:JVM 进程占用 CPU 百分比。CPUMetricAccessor#getCPUMetric()
方法,获得 CPU 指标。在CPUProvider 构造方法中,初始化cpuMetricAccessor
数量,代码如下:
ClassLoader#loadClass(className)
方法呢?因为 SkyWalking Agent 是通过 JavaAgent 机制,实际未引入,所以通过该方式加载类。[这里是代码031],CPU 指标访问器抽象类。代码如下:
lastCPUTimeNs
属性,获得进程占用 CPU 时长,单位:纳秒。lastSampleTimeNs
属性,最后采样时间,单位:纳秒。cpuCoreNum
属性,CPU 数量。lastCPUTimeNs
、lastSampleTimeNs
。进程 CPU 占用总时间 / ( 进程启动总时间 * CPU 数量)
。CPUMetricAccessor 有两个子类,实际上文我们已经看到它的创建:
SunCpuAccessor 构造方法,代码如下:
第 32 行:设置 CPU 数量。
第 33 行:获得 OperatingSystemMXBean 对象。通过该对象,在[这里是代码041]实现方法,调用[这里是代码042]方法,获得 JVM 进程占用 CPU 总时长。
long getProcessCpuTime()
Returns the CPU time used by the process on which the Java virtual machine is running in nanoseconds. The returned value is of nanoseconds precision but not necessarily nanoseconds accuracy. This method returns -1 if the the platform does not support this operation.
Returns:
the CPU time used by the process in nanoseconds, or -1 if this operation is not supported.
第 34 行:调用#init()
方法,初始化lastCPUTimeNs
、lastSampleTimeNs
。
[这里是代码046]方法,获得 CPU 指标。代码如下:
now - lastSampleTimeNs
,获得 JVM 进程启动总时长。[这里是代码048],Memory 提供者,提供[这里是代码049]方法,采集 Memory 指标,如下图所示:[这里是图片003]
isHeap
:是否堆内内存。init
:初始化的内存数量。max
:最大的内存数量。used
:已使用的内存数量。committed
:可以使用的内存数量。[这里是代码055],MemoryPool 提供者,提供[这里是代码056]方法,采集 MemoryPool 指标数组,如下图:[这里是图片004]
type
:内存区域类型。MemoryPool 和 Memory 的差别在于拆分的维度不同,如下图:[这里是图片005]init
:初始化的内存数量。max
:最大的内存数量。used
:已使用的内存数量。committed
:可以使用的内存数量。MemoryPoolProvider 构造方法,代码如下:
[这里是代码063],MemoryPool 指标访问器接口。
MemoryPoolMetricAccessor 子类如下图:[这里是图片006]
[这里是代码066],实现 MemoryPoolMetricAccessor 接口,MemoryPool 指标访问器抽象类。不同 GC 算法之间,内存区域命名不同,通过如下六个方法抽象,分别对应不同内存区域,形成映射关系,屏蔽差异:
[这里是代码073]实现方法,代码如下:
整体实现类似「2.4 MemoryPool」。
[这里是代码075],GC 提供者,提供[这里是代码076]方法,采集 GC 指标数组,如下图:[这里是图片007]
phrase
:生代类型,包括新生代、老生代。count
:总回收次数。time
:总回收占用时间。GCProvider 构造方法,代码如下:
[这里是代码081],GC 指标访问器接口。
GCMetricAccessor 子类如下图:[这里是图片008]
[这里是代码084],实现 GCMetricAccessor 接口,GC 指标访问器抽象类。不同 GC 算法之间,生代命名不同,通过如下两个方法抽象,分别对应两个生代,形成映射关系,屏蔽差异:
[这里是代码087]实现方法,代码如下:
我们先来看看 API 的定义,[这里是代码088],如下图所示:
[这里是图片009]
[这里是代码089], 代码如下:
上述的#sendToXXX()
方法,内部每个对应调用一个如下图 Service 提供的方法:[这里是图片010]
[这里是代码096],CPU 指标。
cpu_metric
)。字段如下:
instance_id
:应用实例编号。usage_percent
:CPU 占用率。time_bucket
:时间。[这里是代码106],Memory 指标。
memory_metric
)。字段如下:
instance_id
:应用实例编号。isHeap
:是否堆内内存。init
:初始化的内存数量。max
:最大的内存数量。used
:已使用的内存数量。committed
:可以使用的内存数量。time_bucket
:时间。[这里是代码120],MemoryPool 指标。
memory_pool_metric
)。字段如下:
instance_id
:应用实例编号。pool_type
:内存区域类型。init
:初始化的内存数量。max
:最大的内存数量。used
:已使用的内存数量。committed
:可以使用的内存数量。time_bucket
:时间。[这里是代码134],GC 指标。
gc_metric
)。字段如下:
instance_id
:应用实例编号。phrase
:生代类型,包括新生代、老生代。count
:总次数。time
:总时间。time_bucket
:时间。Collector 在接收到 GC 指标上传后,调用[这里是代码146]方法,发送心跳,记录应用实例的最后心跳时间。因为目前 SkyWaling 主要用于 JVM 平台,通过每秒的 JVM 指标收集的同时,记录应用实例的最后心跳时间。