美团点评Cat监控springCloudGateway的尝试

 

 

先说结论:CAT监控不了springCloudGateway的接口调用情况。

 

 

需求:

想使用大名鼎鼎的CAT对网关进行埋点监控。其中网关的下游系统可能是eureka注册中心的上的服务,也可能是一个简单的HTTP接口【http接口也可能是域名或者SLB】。监控每一个下游系统每一个接口的调用量、耗时、异常统计。

实践:

import com.dianping.cat.Cat;
import com.dianping.cat.message.Transaction;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.cloud.gateway.filter.GatewayFilterChain;
import org.springframework.cloud.gateway.filter.GlobalFilter;
import org.springframework.core.Ordered;
import org.springframework.http.HttpStatus;
import org.springframework.stereotype.Component;
import org.springframework.web.server.ServerWebExchange;
import reactor.core.publisher.Mono;

import java.net.URI;

import static org.springframework.cloud.gateway.support.ServerWebExchangeUtils.GATEWAY_REQUEST_URL_ATTR;

/**
 * @author xtj
 * @date 2018/12/13 2:58
 */
@Component
public class CatLogGlobalFliter implements GlobalFilter, Ordered {

    private static final Logger LOGGER = LoggerFactory.getLogger(CatLogGlobalFliter.class);

    public static final String CAT_T_AUTH_GATEWAY = "CAT_T_AUTH_GATEWAY";

    @Override
    public Mono filter(ServerWebExchange exchange, GatewayFilterChain chain) {

//        request.getURI() 原始URL
//        getURI().getRawPath()
//        获取URL.并且这个URL是代理后的真正服务器的URL.
        try {
            URI urlOrigin = exchange.getRequest().getURI();
            if (!(urlOrigin.toString().contains("favicon.ico"))) {
                URI url = exchange.getAttribute(GATEWAY_REQUEST_URL_ATTR);
                Transaction t;
                if (url != null) {
                    t = Cat.newTransaction("targetService", url.toString());
                } else {
                    t = Cat.newTransaction("targetService", urlOrigin.toString());
                }
                exchange.getAttributes().put(CAT_T_AUTH_GATEWAY, t);
            }
        } catch (Exception e) {
            LOGGER.error("CAT发生异常", e);
        }
        return chain.filter(exchange).then(Mono.fromRunnable(() -> {
            try {
                Transaction t = exchange.getAttribute(CAT_T_AUTH_GATEWAY);
                if (t != null) {
                    HttpStatus status = exchange.getResponse().getStatusCode();
                    t.setStatus("1");
                    if (status.equals(HttpStatus.OK)) {
                        t.setStatus("0");
                    }
                    t.complete();
                }
            } catch (Exception e) {
                LOGGER.error("CAT发生异常", e);
            }
        }));

    }

    /**
     * RouteToRequestUrlFilter将请求的URL放进exchange中的HashMap中,
     * KEY是org.springframework.cloud.gateway.support.ServerWebExchangeUtils.GATEWAY_REQUEST_URL_ATTR
     * 而在本全局过滤器重,会从exchange得到请求URL,作为我们埋点需要的一个数据。
     * 因此本过滤器的顺序要在RouteToRequestUrlFilter之后。
     * RouteToRequestUrlFilter的顺序ID是10000,所以设置本过滤器顺序id稍微大一点,变成10001。
     */
    @Override
    public int getOrder() {
        return 10001;
    }
}

 

测试结果:

CAT客户端上传数据到服务端还是比较迅速的,普通项目在测试的时候,基本上调用一次接口,CAT服务器上Transaction都会很快可以看到。

但是在测试网关这个CAT埋点的时候,发现调用了好几次,才有一次记录,并且logView后,发现Transaction之间有很多嵌套。而我们的代码也很简单,没有嵌套。

 

原因分析:

正常我们在cat-Transaction完成的时候,即调用complete方法的时候,跟进源码里面,正常的应该走下面的逻辑。

美团点评Cat监控springCloudGateway的尝试_第1张图片

 

注意第130行代码,是获取一个Context对象,也就是一个上下文容器,这个上下文容器是一个线程一个。因此存在ThreadLocal中的。而Context中保存着一个栈元素,Transaction开始的时候入栈,complete的时候出栈,这也就是CAT能用来发现方法调用中到底是那个方法最耗时的原理。

正常情况下是没有问题的,但是在springCloudGateway使用了异步netty,也就是说在发起真正的请求下游前和在得到response后的处理已经不是一个线程了。这样就会导致使用threadLocal产生不是我们想要的结果,即发生线程同步问题。

 

这个问题是比较严重的,CAT中的Transaction开始后,必须调用complete方法,不然会有内存泄露问题!包括Event的记录,也是依赖上面的threadLocal原理。即使简单记录event,而不使用Transaction,也是会有问题的,在logView中会看到很多嵌套的event,而这些并不是我们预期的产生的。

 

结论:

不要在springCloudGateway中使用CAT,会造成很大的问题和风险。这个结论也和cat负责人确认过。

 

美团点评Cat监控springCloudGateway的尝试_第2张图片美团点评Cat监控springCloudGateway的尝试_第3张图片

 

 

 

你可能感兴趣的:(spring,cloud,美团点评CAT监控)