Ribbon服务器状态:ServerStats及其断路器原理

目录

前言

正文

统计数据/属性

成员方法

状态/指标信息使用场景举例

默认值不合理

代码示例

总结


前言

我们知道Ribbon它是一个客户端负载均衡器,因此它内部维护着一个服务器列表ServerList,当实例出现问题时候,需要将这部分异常的服务Server从负载均衡列表中T除掉,那么Ribbon是以什么作为参考,决定T除/不T除Server的呢???这就是本文将要讲述的服务器状态的管理:ServerStats

负载均衡LB需要依赖这些统计信息做为判断的策略,负载均衡器的统计类主要是LoadBalancerStats,其内部持有ServerStats对每个Server运行情况做了相关统计如:平均响应时间、累计失败数、熔断(时间)控制等。


正文

Stat中文释义:统计,Statistic单词的简写形式。另外,希望读者在阅读本文之前,已经了解了netflix-statistics的知识,你可以参考这篇文章:[享学Netflix] 四十四、netflix-statistics详解,手把手教你写个超简版监控系统

服务状态。在LoadBalancer中捕获每个服务器(节点)的各种状态,每个Server就对应着一个ServerStats实例。ServerStats表示一台Server的状态,各种纬度的统计数据才能使得你最终挑选出一个最适合的Server供以使用,以及计算其当前访问压力(并发数)、成功数、失败数、是否熔断、熔断了多久等等。


统计数据/属性

到底统计了哪些数据呢?对Server进行多维度的数据统计,均体现在它的成员属性上:

public class ServerStats {

    private final CachedDynamicIntProperty connectionFailureThreshold;
    private final CachedDynamicIntProperty circuitTrippedTimeoutFactor;
    private final CachedDynamicIntProperty maxCircuitTrippedTimeout;
    private static final DynamicIntProperty activeRequestsCountTimeout = 
        DynamicPropertyFactory.getInstance().getIntProperty("niws.loadbalancer.serverStats.activeRequestsCount.effectiveWindowSeconds", 60 * 10);
        
    long failureCountSlidingWindowInterval = 1000; 
    private MeasuredRate serverFailureCounts = new MeasuredRate(failureCountSlidingWindowInterval);
    private MeasuredRate requestCountInWindow = new MeasuredRate(300000L);
    
    Server server;

    AtomicLong totalRequests = new AtomicLong();
    AtomicInteger successiveConnectionFailureCount = new AtomicInteger(0);
    AtomicInteger activeRequestsCount = new AtomicInteger(0);
    AtomicInteger openConnectionsCount = new AtomicInteger(0);
    
    private volatile long lastConnectionFailedTimestamp;
    private volatile long lastActiveRequestsCountChangeTimestamp;
    private AtomicLong totalCircuitBreakerBlackOutPeriod = new AtomicLong(0);
    private volatile long lastAccessedTimestamp;
    private volatile long firstConnectionTimestamp = 0;
}

对这些统计数据/属性分别做如下解释说明:

  • connectionFailureThreshold:连接失败阈值,默认值3(超过就熔断)
    • 默认值配置:niws.loadbalancer.default.connectionFailureCountThreshold此key指定
    • 个性化配置:"niws.loadbalancer." + name + ".connectionFailureCountThreshold"
  • circuitTrippedTimeoutFactor:断路器超时因子,默认值10s。
    • 默认值配置: niws.loadbalancer.default.circuitTripTimeoutFactorSeconds
    • 个性化配置:"niws.loadbalancer." + name + ".circuitTripTimeoutFactorSeconds"
  • maxCircuitTrippedTimeout:断路器最大超时秒数(默认使用超时因子计算出来),默认值是30s。
    • 默认值配置:niws.loadbalancer.default.circuitTripMaxTimeoutSeconds
    • 个性化配置:"niws.loadbalancer." + name + ".circuitTripMaxTimeoutSeconds"
  •  
  • totalRequests:总请求数量。每次请求结束/错误时就会+1。
  • successiveConnectionFailureCount连续(successive)请求异常数量(这个连续发生在Retry重试期间)。
    • 在重试期间,但凡有一次成功了,就会把此参数置为0(失败的话此参数就一直加)
    • 说明:只有在异常类型是callErrorHandler.isCircuitTrippingException(e)的时候,才会算作失败,才会+1
      • 默认情况下只有SocketException/SocketTimeoutException这两种异常才算失败哦~
  • activeRequestsCount:活跃请求数量(正在请求的数量,它能反应该Server的负载、压力)。
    • 但凡只要开始执行Sever了,就+1
    • 但凡只要请求完成了/出错了,就-1
    • 注意:它有时间窗口的概念,后面讲具体逻辑
  • openConnectionsCount:暂无任何使用处,可忽略。
  •  
  • lastConnectionFailedTimestamp:最后一次失败的时间戳。至于什么叫失败,参考successiveConnectionFailureCount对失败的判断逻辑
  • lastActiveRequestsCountChangeTimestamp:简单的说就是activeRequestsCount的值最后变化的时间戳
  • totalCircuitBreakerBlackOutPeriod:断路器断电总时长(连续失败>=3次,增加20~30秒。具体增加多少秒,后面有计算逻辑)。
  • lastAccessedTimestamp:最后访问时间戳。和lastActiveRequestsCountChangeTimestamp的区别是,它增/减都update一下,而lastAccessedTimestamp只有在增的时候才会update一下。
  • firstConnectionTimestamp:首次连接时间戳,只会记录首次请求进来时的时间。
  •  
  • failureCountSlidingWindowInterval:失败次数统计时间窗。默认值1000ms
  • serverFailureCounts:上一秒失败次数(上一秒是因为failureCountSlidingWindowInterval默认自是1000ms)
    • successiveConnectionFailureCount增它就增,只不过它有时间窗口(1s)
  • requestCountInWindow:一个窗口期内的请求总数,窗口期默认为5分钟(300秒)
    • activeRequestsCount增它就增,只不过它有时间窗口(300s)

当然,它还有几个基于netflix-statistics数据统计的指标属性:

ServerStats:

	// 默认60s(1分钟)publish一次数据
    private static final int DEFAULT_PUBLISH_INTERVAL =  60 * 1000; // = 1 minute
    // 缓冲区大小。这个默认大小可谓非常大呀,就算你QPS是1000,也能抗1分钟
    private static final int DEFAULT_BUFFER_SIZE = 60 * 1000; // = 1000 requests/sec for 1 minute
    int bufferSize = DEFAULT_BUFFER_SIZE;
    int publishInterval = DEFAULT_PUBLISH_INTERVAL;

	private static final double[] PERCENTS = makePercentValues();
    private DataDistribution dataDist = new DataDistribution(1, PERCENTS);
    private DataPublisher publisher = null;
    private final Distribution responseTimeDist = new Distribution();
  • PERCENTS:百分比,可参见枚举类Percent:[10,20…,90…,99.5]
  • dataDist:它是一个DataAccumulator,数据累加器。
  • publisher:定时publish发布数据,默认1分钟发布一次
  • responseTimeDist:它是个Distribution类型,因为它仅仅只需要持续累加数据,然后提供最大最小值、平均值的访问而已

dataDistresponseTimeDist统一通过noteResponseTime(double msecs)来记录每个请求的响应时间,dataDist按照时间窗口统计,responseTimeDist一直累加


成员方法

已经知道了每个字段的含义,再来看其提供的方法,就轻松很多了。

ServerStats:

	// 默认构造器:connectionFailureThreshold等参数均使用默认值 该构造器默认无人调用
	public ServerStats() { ... }
	// 参数值来自于lbStats,可以和ClientName挂上钩
	// 它在LoadBalancerStats#createServerStats()方法里被唯一调用
	public ServerStats(LoadBalancerStats lbStats) { ... }

	// 初始化对象,开始数据收集和报告。**请务必调用此方法** 它才是一个完整的实例
    public void initialize(Server server) {
        serverFailureCounts = new MeasuredRate(failureCountSlidingWindowInterval);
        requestCountInWindow = new MeasuredRate(300000L);
        if (publisher == null) {
            dataDist = new DataDistribution(getBufferSize(), PERCENTS);
            publisher = new DataPublisher(dataDist, getPublishIntervalMillis());
            // 启动任务:开始发布数据。1分钟发布一次
            publisher.start();
        }
        // 和Server关联
        this.server = server;
    }
    // 停止数据方法
    public void close() {
        if (publisher != null)
            publisher.stop();
    }


	// 收集每一次请求的响应时间
    public void noteResponseTime(double msecs){
        dataDist.noteValue(msecs);
        responseTimeDist.noteValue(msecs);
    }

	// 获得当前时间的活跃请求数(也就是Server的当前负载)
    public int  getActiveRequestsCount() {
        return getActiveRequestsCount(System.currentTimeMillis());
    }
    // 强调:如果当前时间currentTime距离上一次请求进来已经超过了时间窗口60s,那就返回0
    // 简单一句话:如果上次请求距今1分钟了,那就一个请求都不算(强制归零)
    public int getActiveRequestsCount(long currentTime) {
        int count = activeRequestsCount.get();
        if (count == 0) {
            return 0;
        } else if (currentTime - lastActiveRequestsCountChangeTimestamp > activeRequestsCountTimeout.get() * 1000 || count < 0) {
            activeRequestsCount.set(0);
            return 0;            
        } else {
            return count;
        }
    }

这些是ServerStats提供的基本方法,能访问到所有的成员属性。下面介绍分别介绍两个主题方法:


CircuitBreaker断路器的原理

本处的断路器解释:当有某个服务存在多个实例时,在请求的过程中,负载均衡器会统计每次请求的情况(请求响应时间,是否发生网络异常等),当出现了请求出现累计重试时,负载均衡器会标识当前服务实例,设置当前服务实例的断路的时间区间,在此区间内,当请求过来时,负载均衡器会将此服务实例从可用服务实例列表中暂时剔除(其实就是暂时忽略此Server),优先选择其他服务实例。

该断路器和Hystrix无任何关系,无任何关系,无任何关系。它是ServerStats内部维护的一套熔断机制,体现在如下方法上:

ServerStats:

	// 看看该断路器到哪个时间点戒指(关闭)的时刻时间戳
	// 比如断路器要从0点开30s,那么返回值就是00:00:30s这个时间戳呗
    private long getCircuitBreakerTimeout() {
        long blackOutPeriod = getCircuitBreakerBlackoutPeriod();
        if (blackOutPeriod <= 0) {
            return 0;
        }
        return lastConnectionFailedTimestamp + blackOutPeriod;
    }

	// 返回需要中断的持续时间(毫秒值)
    private long getCircuitBreakerBlackoutPeriod() {
        int failureCount = successiveConnectionFailureCount.get();
        int threshold = connectionFailureThreshold.get();
        if (failureCount < threshold) {
            return 0;
        }
        int diff = (failureCount - threshold) > 16 ? 16 : (failureCount - threshold);
        int blackOutSeconds = (1 << diff) * circuitTrippedTimeoutFactor.get();
        if (blackOutSeconds > maxCircuitTrippedTimeout.get()) {
            blackOutSeconds = maxCircuitTrippedTimeout.get();
        }
        return blackOutSeconds * 1000L;
    }

目前断路器统计失败是靠连续失败次数去判断断路逻辑的。此方法逻辑可总结如下:

  1. 连续失败次数还小于阈值(默认3次),那么就不用断路。否则打开断路,执行计算要断开多久的逻辑
  2. 计算失败基数,最大不能超过16(就算你连续失败100次,此基数也是16)
  3. 根据超时因子circuitTrippedTimeoutFactor(默认是10)计算出时间值blackOutSeconds,该值不能大于上限connectionFailureCircuitTimeout(默认30s)
    1. 也就是说保证了断路器最长不能打开超过30s

此方法不仅判断了断路器的打开与否,若打开顺便打开断路器应该打开多长时间(单位s)的方法,有了这个方法的理论做支撑,判断当前断路器是否开启就非常简单了:

ServerStats:

    public boolean isCircuitBreakerTripped() {
        return isCircuitBreakerTripped(System.currentTimeMillis());
    }
    public boolean isCircuitBreakerTripped(long currentTime) {
        long circuitBreakerTimeout = getCircuitBreakerTimeout();
        if (circuitBreakerTimeout <= 0) {
            return false;
        }
        return circuitBreakerTimeout > currentTime;
    }

当触发了熔断器(连续失败次数过多),断路器开启的时间范围是:

  • 最大值:1<<16 * 10 = 320s
  • 最小值:1<<1 * 10 =100s

当然这值是根据配置走的,并且还有最大时间30s的限制哦~

在Server被熔断期间,负载均衡器都将忽略此Server


断路器如何闭合?

倘若断路器打开了,它如何恢复呢?有如下3种情形它会恢复到正常状态:

  1. 不是连续失败了,也就是成功了一次,那么successiveConnectionFailureCount就会立马归0,所以熔断器就闭合了
  2. 即使请求失败了,但是并非是断路器类异常,即不是RetryHandler#isCircuitTrippingException这种类型的异常时(比如RuntimeException就不是这种类型的异常),那就也不算连续失败,所以也就闭合了
  3. 到时间了,断路器自然就自动闭合了

该断路器和Hystrix的断路器有何区别?

很明显,该断路器规则非常简单,开启与否完全由连续失败来决定,而是否算失败由RetryHandler#isCircuitTrippingException来决定,默认它只认为SocketException/SocketTimeoutException(或者其子类异常)属于该种类型的异常哦~

所以:你的程序在执行时的任何业务异常(如NPE)和此断路器没有半毛钱关系

当然它们最大最大的区别是断的对象不一样:

  • 本断路器断的是Server,也就是远程服务器
  • Hystrix断路器断的是Client,也就是客户端的调用

当然,关于Hystrix断路器的内容详解请参考:[享学Netflix] 二十七、Hystrix何为断路器的半开状态?HystrixCircuitBreaker详解


获取响应时间逻辑

一个Server服务器的响应是最重要的衡量指标,因此它提供了大量的获取响应时间的方法:

ServerStats:
	
	// 重要。获取累计的,累计的,平均响应时间
	// responseTimeDist里获得的均是所有请求累计的
    public double getResponseTimeAvg() {
        return responseTimeDist.getMean();
    }
    public double getResponseTimeMax() {
        return responseTimeDist.getMaximum();
    }
    ...
    // 样本大小(每次获取的值可能不一样的哦,因为dataDist是时间窗口嘛)
    public int getResponseTimePercentileNumValues() {
        return dataDist.getSampleSize();
    }
    // 这段时间窗口内(1分钟)的平均响应时间
    public double getResponseTimeAvgRecent() {
        return dataDist.getMean();
    }
	
	// ========下面是各个分位数的值======
    public double getResponseTime10thPercentile() {
        return getResponseTimePercentile(Percent.TEN);
    }
    ...
    public double getResponseTime99point5thPercentile() {
        return getResponseTimePercentile(Percent.NINETY_NINE_POINT_FIVE);
    }

状态/指标信息使用场景举例

统计信息都是非常有用的,这里先简单介绍,过个眼瘾即可。它的使用均在负载均衡策略上,举例:

  • WeightedResponseTimeRule:使用指标ServerStats.responseTimeDist,获取该Server的平均响应时间来决策
  • AvailabilityFilteringRule:它用到了两个指标信息
    • 通过ServerStats.isCircuitBreakerTripped()判断当前断路器是否打开作为该Server是否可用的判断
    • ServerStats.activeRequestsCount找个活跃请求数最小的Server
  • ZoneAvoidanceRule:使用到了ServerStats.upServerListZoneMapLoadBalancerStats.getZoneSnapshot

默认值不合理

private static final int DEFAULT_PUBLISH_INTERVAL =  60 * 1000;
private static final int DEFAULT_BUFFER_SIZE = 60 * 1000;

这两个默认值决定了样本量,以及样本时间窗口。按这么设置:每收集一次持续1分钟(问题不大),但是样本大小是60 * 1000这个太高了:单台机器QPS1000持续1分钟才能填满此窗口,我相信绝大部分情况下都是这么高的QPS的,所以此默认值并不合理

但是,但是,但是:ServerStats唯一创建地方是LoadBalancerStats里:

protected ServerStats createServerStats(Server server) {
    ServerStats ss = new ServerStats(this);
    //configure custom settings
    ss.setBufferSize(1000);
    ss.setPublishInterval(1000);                    
    ss.initialize(server);
    return ss;        
}

两个值均为1000,说明:每秒钟收集一次(这个频率太高了吧),然后样本1000表示这1s内要有1000的请求打进来能打满(QPS1000,也特高了)。所以实际上的默认值真的也很不合理,它们均只适合高并发场景。。。

坑爹的是,这两个值并没有提供钩子or外部化配置让我们可以随意更改,唯一的钩子是它是个protected方法,你只能通过继承 + 复写才行,而实际上我们很小概率回去复写它(它在BaseLoadBalancer里创建)。

说明:若你想更好的监控,使得负载均衡效果更好点,那么作为架构师的你可以考虑定制定制哦~


代码示例

@Test
public void fun4() throws InterruptedException {
    ServerStats serverStats = new ServerStats();
    // 缓冲区大小最大1000。 若QPS是200,5s能装满它  这个QPS已经很高了
    serverStats.setBufferSize(1000);
    // 5秒收集一次数据
    serverStats.setPublishInterval(5000);
    // 请务必调用此初始化方法
    serverStats.initialize(new Server("YourBatman", 80));

    // 多个线程持续不断的发送请求
    request(serverStats);
    // 监控ServerStats状态
    monitor(serverStats);

    // hold主线程
    TimeUnit.SECONDS.sleep(10000);
}

// 单独线程模拟刷页面,获取监控到的数据
private void monitor(ServerStats serverStats) {
    new Thread(() -> {
        ScheduledExecutorService executorService = Executors.newScheduledThreadPool(1);
        executorService.scheduleWithFixedDelay(() -> {
            System.out.println("=======时间:" + serverStats.getResponseTimePercentileTime() + ",统计值如下=======");
            System.out.println("请求总数(持续累计):" + serverStats.getTotalRequestsCount());
            System.out.println("平均响应时间:" + serverStats.getResponseTimeAvg());
            System.out.println("最小响应时间:" + serverStats.getResponseTimeMin());
            System.out.println("最大响应时间:" + serverStats.getResponseTimeMax());


            System.out.println("样本大小(取样本):" + serverStats.getResponseTimePercentileNumValues());
            System.out.println("样本下的平均响应时间:" + serverStats.getResponseTimeAvgRecent());
            System.out.println("样本下的响应时间中位数:" + serverStats.getResponseTime50thPercentile());
            System.out.println("样本下的响应时间90分位数:" + serverStats.getResponseTime90thPercentile());
        }, 5, 5, TimeUnit.SECONDS);
    }).start();
}


// 模拟请求(开启5个线程,每个线程都持续不断的请求)
private void request(ServerStats serverStats) {
    for (int i = 0; i < 5; i++) {
        new Thread(() -> {
            while (true) {
                // 请求之前 记录活跃请求数
                serverStats.incrementActiveRequestsCount();
                serverStats.incrementNumRequests();
                long rt = doSomething();
                // 请求结束, 记录响应耗时
                serverStats.noteResponseTime(rt);
                serverStats.decrementActiveRequestsCount();
            }
        }).start();
    }
}

// 模拟请求耗时,返回耗时时间
private long doSomething() {
    try {
        int rt = randomValue(10, 200);
        TimeUnit.MILLISECONDS.sleep(rt);
        return rt;
    } catch (InterruptedException e) {
        e.printStackTrace();
        return 0L;
    }
}

// 本地使用随机数模拟数据收集
private int randomValue(int min, int max) {
    return min + (int) (Math.random() * ((max - min) + 1));
}

运行程序,控制台打印:

=======时间:Tue Mar 17 21:27:49 CST 2020,统计值如下=======
请求总数(持续累计):240
平均响应时间:103.43404255319149
最小响应时间:10.0
最大响应时间:199.0
样本大小(取样本):225
样本下的平均响应时间:102.38666666666667
样本下的响应时间中位数:105.0
样本下的响应时间90分位数:178.5
=======时间:Tue Mar 17 21:27:54 CST 2020,统计值如下=======
请求总数(持续累计):465
平均响应时间:106.75869565217391
最小响应时间:10.0
最大响应时间:199.0
样本大小(取样本):225
样本下的平均响应时间:110.59555555555555
样本下的响应时间中位数:115.5
样本下的响应时间90分位数:185.0
=======时间:Tue Mar 17 21:27:59 CST 2020,统计值如下=======
请求总数(持续累计):701
平均响应时间:106.35488505747126
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):235
样本下的平均响应时间:105.39574468085107
样本下的响应时间中位数:105.0
样本下的响应时间90分位数:179.0
=======时间:Tue Mar 17 21:28:04 CST 2020,统计值如下=======
请求总数(持续累计):939
平均响应时间:105.98929336188436
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):240
样本下的平均响应时间:104.45
样本下的响应时间中位数:104.0
样本下的响应时间90分位数:181.0
=======时间:Tue Mar 17 21:28:09 CST 2020,统计值如下=======
请求总数(持续累计):1187
平均响应时间:104.72673434856176
最小响应时间:10.0
最大响应时间:200.0
样本大小(取样本):246
样本下的平均响应时间:101.32926829268293
样本下的响应时间中位数:103.0
样本下的响应时间90分位数:177.0

稍微核对一下数据:

  • 平均rt大概100ms,所以1s钟可以收到10次请求,5s的窗口就是收到50次请求
  • 公开启5个线程,所以每个窗口内收到的请求是50 * 5 = 250个左右
  • 观察每次样本大小数:250左右

可以看到数值都是吻合的,证明我们的示例木有啥问题。从控制台看到Server的历史持续状态、抽样的状态值一览无余,这就是监控,这就是负载均衡的“粮食”。


总结

关于Ribbon对服务器状态的管理ServerStats的介绍就到这了。本文花大篇幅介绍了很少人关注的Server状态统计这块的知识点,是因为这对理解Ribbon的核心非常之重要,对Ribbon是如何负载均衡选择Server的策略研究更是非常关键。

建议小伙伴可以不仅局限于当个“配置工程师”,而是花时间花精力深入其内了解起来,内部才是星辰大海,才有财富宝石。

你可能感兴趣的:(#,ribbon,serverstats)