Spring Cloud Sleuth和Zipkin的基本概念

    当服务服务化或者微服务进行管理后,服务模块之前的调用拓扑非常的复杂。并且当每一个模块又有多个分布式集群等复杂的情况时,一个请求可能会调用后端的N多台服务,那么在追查问题的时候是非常麻烦的。一般不同的小组会负责不同的服务模块,则跨团队的协作是非常麻烦的。比如电商平台中,当一个请求进入后,api网关会根据URI会分发到不同的服务模块,比如当前调用到了订单系统,订单系统可能会去查下商品系统。我们原来的商品系统会根据业务分为好几个子系统,有的子系统还有自己的服务模块,总共商品有上百台服务器。那么在问题追踪的时候可以想象。。。(那么服务链路追踪太重要了)

一、常见的业界开源解决方案

1、Dapper(谷歌)

2、Zikpin(腾讯),与Spring Cloud Sleuth结合的比较好

3、Eagleeye(阿里)

4、pinpoint

5、skywalking

二、服务追踪原理

1、Trace

    由一组Trace Id相同的Span串联形成一个树状结构。为了实现请求跟踪,当请求到达分布式系统的入口端点时,只需要服务跟踪框架为该请求创建一个唯一的标识(即TraceId),同时在分布式系统内部流转的时候,框架始终保持传递该唯一值,直到整个请求的返回。那么我们就可以使用该唯一标识将所有的请求串联起来,形成一条完整的请求链路。

2、Span

    代表了一组基本的工作单元。为了统计各处理单元的延迟,当请求到达各个服务组件的时候,也通过一个唯一标识(SpanId)来标记它的开始、具体过程和结束。通过SpanId的开始和结束时间戳,就能统计该span的调用时间,除此之外,我们还可以获取如事件的名称。请求信息等元数据。

3、Annotation

    用它记录一段时间内的事件,内部使用的重要注释:

cs(Client Send)客户端发出请求,开始一个请求的生命

sr(Server Received)服务端接受到请求开始进行处理, timestampSR - timestampCS = 网络延迟(服务调用的时间)

ss(Server Send)服务端处理完毕准备发送到客户端, timestampSS - timestampSR = 服务器上的请求处理时间

cr(Client Reveived)客户端接受到服务端的响应,请求结束。 timestampCR - timestampCS = 请求的总时间 

三、重要概念

1、spring-cloud-sleuth-zipkin + spring-cloud-starter-sleuth 就相当于直接引入 spring-cloud-starter-zipkin

2、配置

spring.zipkin.enabled=true                              # 启用

spring.zipkin.base-url=http://127.0.0.1:9411/  # sleuth默认为上报为false, 现设置上报zipkin的服务地址

spring.sleuth.sampler.probability = 1              # span的采样率,默认为 0.1

spring.sleuth.sampler.rate = 10000                # 为了使用速率限制采样器,请设置spring.sleuth.sampler.rate属性以选择每秒间隔                                                                         # 接受的trace量,最小数字为0,最大值为2,147,483,647(最大int) 

 

 

 

 

 

你可能感兴趣的:(Spring,Cloud)