SkyWalking 中 Trace 的相关概念以及实现类与 OpenTracing 中的概念基本类似,像 Trace、Span、Tags、Logs 等核心概念,在 SkyWalking Agent 中都有对应实现,只是在细微实现上略有区别的,其中最重要的是: SkyWalking 的设计在 Trace 级别和 Span 级别之间加了一个 Segment 概念,用于表示一个服务实例内的 Span 集合。
在分布式链路追踪系统中,用户请求的处理过程会形成一条 Trace 。Trace ID 作为 Trace 数据的唯一标识,在面对海量请求的时候,需要保证其唯一性。与此同时,还要保证生成 Trace ID 不会带来过多开销,所以在业务场景中依赖数据库(自增键或是类似 Meituan-Dianping/Leaf 的 ID 生成方式)都不适合 Trace 的场景。
这种要求快速、高性能生成唯一 ID 的需求场景,一般会将 snowflake 算法与实际的场景集合进行改造。
snowflake 算法是 Twitter 开源的分布式 ID 生成算法 。snowflake 算法的核心思想是将一个 ID(long类型)的 64 个 bit 进行切分,其中使用 41 个 bit 作为毫秒数,10 个 bit 作为机器的 ID( 5 个 bit 记录数据中心的 ID,5 个 bit 记录机器的 ID ),12 bit 作为毫秒内的自增 ID,还有一个 bit 位永远是 0。snowflake 算法生成的 ID 结构如下图所示:
snowflake 算法的好处是 ID 可以直接靠算法在内存中产生,内存内的锁控制并发,不需依赖 MySQL 这样的外部依赖,无维护成本。缺点就是每个机器节点在每毫秒内只可以产生 4096 个 ID,超出这个范围就会溢出。另外,如果机器回拨了时间,就会生成重复的 ID。
ID 类是 SkyWalking 中对全局唯一标识的抽象,其生成策略与 snowflake 算法类似。SkyWalking ID 由三个 long 类型的字段(part1、part2、part3)构成,分别记录了 ServiceInstanceId、Thread ID 和 Context 生成序列。Context 生成序列的格式是:
${时间戳} * 10000 + 线程自增序列([0, 9999])
ID 对象序列化之后的格式是将 part1、part2、part3 三部分用“.”分割连接起来 :
${ServiceInstanceId}.${Thread ID}.(${时间戳} * 10000 + 线程自增序列([0, 9999]))
GlobalIdGenerator 是 Agent 中用来生成全局唯一 ID 的基础工具类,在 generate() 方法中的实现如下:
public static ID generate() {
// THREAD_ID_SEQUENCE是 ThreadLocal类型,即每个线程
// 维护一个 IDContext对象
IDContext context = THREAD_ID_SEQUENCE.get();
return new ID(SERVICE_INSTANCE_ID, // service_intance_id
Thread.currentThread().getId(), // 当前线程的ID
context.nextSeq() // 线程内生成的序列号
);
}
IDContext.nextSeq() 方法的实现如下,其中 timestamp() 方法在返回时间戳的时候,会处理时间回拨的场景(使用 Random 随机生成一个时间戳),nextThreadSeq() 方法的返回值在 [0 , 9999] 这个范围内循环:
private long nextSeq() {
return timestamp() * 10000 + nextThreadSeq();
}
GlobalIdGenerator 不仅用于生成 Trace ID ,其他需要唯一 ID 的地方也会通过其 nextSeq() 方法生成。
SkyWalking 中使用 DistributedTraceId 类来抽象 Trace ID,其中封装了一个 ID 类型的字段。DistributedTraceId 有两个实现类,如下图所示:
其中,NewDistirbutedTraceId 负责生成新 Trace ID,请求刚刚进入系统时,会创建 NewDistirbutedTraceId 对象,其构造方法内部会调用 GlobalIdGenerator.generate() 方法生成 ID 对象。
PropagatedTraceId 负责处理 Trace 传播过程中的 TraceId。PropagatedTraceId 的构造方法接收一个 String 类型参数(也就是在跨进程传播时序列化后的 Trace ID),解析之后得到 ID 对象。
在后面的介绍中还会涉及另一个与 Trace ID 相关的类 —— DistributedTraceIds,它表示多个 Trace ID 的集合,其底层封装了一个 LinkedList
在 SkyWalking 中,TraceSegment 是一个介于 Trace 与 Span 之间的概念,它是一条 Trace 的一段,可以包含多个 Span。在微服务架构中,一个请求基本都会涉及跨进程(以及跨线程)的操作,例如, RPC 调用、通过 MQ 异步执行、HTTP 请求远端资源等,处理一个请求就需要涉及到多个服务的多个线程。TraceSegment 记录了一个请求在一个线程中的执行流程(即 Trace 信息)。将该请求关联的 TraceSegment 串联起来,就能得到该请求对应的完整 Trace。
下面我们先来介绍 TraceSegment 的核心字段:
下图展示了一个 TraceSegment 的核心结构:
TraceSegment 是由多个 Span 构成的,AbstractSpan 抽象类是 SkyWalking 对 Span 概念的抽象,下图是 Span 的继承关系:
首先需要明确的是,我们最终直接使用的 Span 分为 3 类:
下面我们按照 Span 的继承结构,自顶层接口开始逐个向下介绍。首先,AsyncSpan 接口定义了一个异步 Span 的基本行为:
这两个方法在异步框架的插件中会见到。
AbstractSpan 也是一个接口,其中定义了 Span 的基本行为,其中的方法比较重要:
operationName 即前文介绍的 EndpointName,可以是任意字符串,例如,在 Tomcat 插件中 operationName 就是 URI 地址,Dubbo 插件中 operationName 为 URL + 接口方法签名。
AbstractTracingSpan 实现了 AbstractSpan 接口,定义了一些 Span 的公共字段,其中的部分字段在介绍 AbstractSpan 接口时已经提到了,下面简单介绍一下前面未涉及的字段含义:
protected int spanId; // span的ID
protected int parentSpanId; // 记录父Span的ID
protected List tags; // 记录Tags的集合
protected long startTime, endTime; // Span的起止时间
protected boolean errorOccurred = false; // 标识该Span中是否发生异常
protected List refs; // 指向所属TraceSegment
// context字段指向TraceContext,TraceContext与当前线程绑定,与TraceSegment
// 一一对应
protected volatile AbstractTracerContext context;
AbstractTracingSpan 中提供的方法也比较简单,基本都是上述字段的 getter/setter 方法,这些方法不再展开赘述。这里需要注意两个方法:
StackBasedTracingSpan 在继承 AbstractTracingSpan 存储 Span 核心数据能力的同时,还引入了栈的概念,这种 Span 可以多次调用 start() 方法和 end() 方法,但是两者调用次数必须要配对,类似出栈和入栈的操作。
下面以 EntrySpan 为例说明为什么需要“栈”这个概念,EntrySpan 表示的是一个服务的入口 Span,是 TraceSegment 的第一个 Span,出现在服务提供方的入口,例如,Dubbo Provider、Tomcat、Spring MVC,等等。 那么为什么 EntrySpan 继承 StackBasedTracingSpan 呢? 从前面对 SkyWalking Agent 的分析来看,Agent 插件只会拦截指定类的指定方法并对其进行增强,例如,Tomcat、Spring MVC 等插件的增强逻辑中就包含了创建 EntrySpan 的逻辑(后面在分析具体插件实现的时候,会看到具体的实现代码)。很多 Web 项目会同时使用到这两个插件,难道一个 TraceSegment 要有两个 EntrySpan 吗?显然不行。
SkyWalking 的处理方式是让 EntrySpan 继承了 StackBasedTracingSpan,多个插件同时使用时,整个架构如下所示:
其中,请求相应的 EntrySpan 处理流程如下:
在 start() 方法中会有下面几个操作:
此时插件栈(这是为了方便理解而虚拟出来一个栈结构,实际上只有 stackDepth、currentMaxDepth 两个字段,并不会用到栈结构,也不会记录请求经过的插件)的状态如下图所示:
这里需要注意两个点,一是在调用 start() 方法时,会将之前设置的 component、Tags、Log 等信息全部清理掉(startTime不会清理),上例中请求到 Spring MVC 插件之前(即 ② 处之前)设置的这些信息都会被清理掉。二是 stackDepth 与 currentMaxDepth 不相等时(上例中 ③ 处),无法记录上述字段的信息。通过这两点,我们知道 EntrySpan 实际上只会记录最贴近业务侧的 Span 信息。
StackBasedTracingSpan 除了将“栈”概念与 EntrySpan 结合之外,还添加了 peer(以及 peerId)字段来记录远端地址,在发送远程调用时创建的 ExitSpan 会将该记录用于对端地址。
ExitSpan 表示的是出口 Span,如果在一个调用栈里面出现多个插件嵌套的场景,也需要通过“栈”的方式进行处理,与上述逻辑类似,只会在第一个插件中创建 ExitSpan,后续调用的 ExitSpan.start() 方法并不会更新 startTime,只会增加栈的深度。当然,在设置 Tags、Log 等信息时也会进行判断,只有 stackDepth 为 1 的时候,才会能正常写入相应字段。也就是说,ExitSpan 中只会记录最贴近当前服务侧的 Span 信息。
一个 TraceSegment 可以有多个 ExitSpan,例如,Dubbo A 服务在处理一个请求时,会调用 Dubbo B 服务,在得到响应之后,会紧接着调用 Dubbo C 服务,这样,该 TraceSegment 就有了两个完全独立的 ExitSpan。
LocalSpan 则比较简单,它表示一个本地方法调用。LocalSpan 直接继承了 AbstractTracingSpan,由于它未继承 StackBasedTracingSpan,所以也不能 start 或 end 多次,在后面介绍 @Trace 注解的相关实现时,还会看到 LocalSpan 的身影。