Hystrix 使用指南(3):监控报警

一、前言

看过了上一篇文章之后,我们应该掌握了 Hystrix 基本的使用方法。我们应该可以通过应用 Hystrix,保护我们的应用免受延迟故障的危害。但我们只是大致配置了 HystrixCommand,设置了相对宽松的线程池和超时时间等参数。这样虽然可以快速应用 Hystrix,但系统的可用性还是可以通过配置调优进一步的提高。那对 Hystrix 配置的第一步就是获取 Hystrix 的运行数据,这就用到了 Hystrix 的监控功能。所以,本文将向大家介绍一下 Hystrix 自带的 Dashboard 功能的使用和扩展。

二、内置的监控:Hystrix Dashboard

如上所述,Hystrix 提供了一个 Dashboard 功能,用于提供对 Hystrix 相关运行数据的监控和展示。

▼ 正常的 HystrixCommand 的监控图

Hystrix 使用指南(3):监控报警_第1张图片

▼ 发生熔断时 HystrixCommand 的监控图

Hystrix 使用指南(3):监控报警_第2张图片

每个 Command 的监控图中都有 Host 和 Cluster 两个 TPS 数据。如果是单机的 Dashboard,那这两个数值是相同的,集群 Dashboard 则会有不同的显示。

集群的 Dashboard 可以自己实现,也可以利用 Netflix Turbine 快速搭建。原理是聚合收集 Hystrix Metrics Stream 的数据实现的。所以,实现监控的基础是开启 Hystrix Metrics Stream 功能。

监控信息详解

▼ 一个 HystrixCommand 完整的监控信息

Hystrix 使用指南(3):监控报警_第3张图片
image
  • 绿色计数: 表示成功的请求数
  • 蓝色计数: 表示断路器打开后,直接被短路的请求数
  • 黄色计数: 表示请求超时数
  • 紫色计数: 表示因为线程池满而被拒绝的请求数
  • 红色计数: 表示因为异常而导致失败的请求数
  • 灰色百分比: 表示的是10秒内的错误率统计
  • Hosts: 应用个数
  • Median: Command 的中位数时间
  • Mean: Command 的平均时间
  • 90th/99th/99.5th: P90、P99、P99.5 时间
  • Rolling 10 second counters: 说明一下计数都是在一个10秒的滚动窗口内统计的
  • with 1 second granularity: 这个滚动窗口是以1秒为粒度进行统计的

所有技术和百分比的统计窗口都是10秒(默认值)

配置 Hystrix Metrics Stream

上一节展示的各种监控数据均来自被监控服务上 Hystrix Metrics Stream 的输出,接下来介绍如何开启 Hystrix Metrics Stream。

原生方式

要开启 Hystrix Metrics Stream,我们需要做如下工作:

配置 Maven


    com.netflix.hystrix
    hystrix-metrics-event-stream
    ${hystrix.version}

配置 Servlet


    
    HystrixMetricsStreamServlet
    HystrixMetricsStreamServlet
    
        com.netflix.hystrix.contrib.metrics.eventstream.HystrixMetricsStreamServlet
    



    HystrixMetricsStreamServlet
    /hystrix.stream

在配置完成之后,通过浏览器打开 http://server:port/hystrix.stream 就能看到如下的数据:

ping: 

data: {"type":"HystrixCommand","name":"AuthenticationCommand","group":"AuthenticationCommandGroup","currentTime":1503645428876,"isCircuitBreakerOpen":false,"errorPercentage":0,"errorCount":0,"requestCount":25,"rollingCountBadRequests":0,"rollingCountCollapsedRequests":0,"rollingCountEmit":0,"rollingCountExceptionsThrown":0,"rollingCountFailure":0,"rollingCountFallbackEmit":0,"rollingCountFallbackFailure":0,"rollingCountFallbackMissing":0,"rollingCountFallbackRejection":0,"rollingCountFallbackSuccess":0,"rollingCountResponsesFromCache":0,"rollingCountSemaphoreRejected":0,"rollingCountShortCircuited":0,"rollingCountSuccess":27,"rollingCountThreadPoolRejected":0,"rollingCountTimeout":0,"currentConcurrentExecutionCount":0,"rollingMaxConcurrentExecutionCount":1,"latencyExecute_mean":6,"latencyExecute":{"0":4,"25":5,"50":6,"75":7,"90":8,"95":9,"99":26,"99.5":26,"100":26},"latencyTotal_mean":6,"latencyTotal":{"0":4,"25":5,"50":6,"75":7,"90":8,"95":9,"99":26,"99.5":26,"100":26},"propertyValue_circuitBreakerRequestVolumeThreshold":20,"propertyValue_circuitBreakerSleepWindowInMilliseconds":5000,"propertyValue_circuitBreakerErrorThresholdPercentage":20,"propertyValue_circuitBreakerForceOpen":false,"propertyValue_circuitBreakerForceClosed":false,"propertyValue_circuitBreakerEnabled":true,"propertyValue_executionIsolationStrategy":"THREAD","propertyValue_executionIsolationThreadTimeoutInMilliseconds":200,"propertyValue_executionTimeoutInMilliseconds":200,"propertyValue_executionIsolationThreadInterruptOnTimeout":true,"propertyValue_executionIsolationThreadPoolKeyOverride":null,"propertyValue_executionIsolationSemaphoreMaxConcurrentRequests":10,"propertyValue_fallbackIsolationSemaphoreMaxConcurrentRequests":10,"propertyValue_metricsRollingStatisticalWindowInMilliseconds":10000,"propertyValue_requestCacheEnabled":false,"propertyValue_requestLogEnabled":false,"reportingHosts":1,"threadPool":"PassportCommandThreadPool"}

这些就是 Hystrix 相关的监控数据流,包括了接口响应时间、TPS、熔断等相关的数据。

Spring Boot

如果使用了 Spring Boot,我们启用 Stream 的方法略有不同,但同样简单:

配置 Maven


    org.springframework.boot
    spring-boot-starter-actuator

配置 Spring Boot

@EnableHystrix
@SpringBootApplication
public class HystrixWorkshopApplication {
    public static void main(String[] args) {
      SpringApplication.run(HystrixWorkshopApplication.class, args);
    }
}

运行 Hystrix Dashboard 服务

但是,我们肯定不能直接通过这样的方式监控 Hystrix。所以,Hystrix 提供了一个 Dashboard 应用。Dashboard 是一个单独的应用,我们可以独立部署,另外 Spring Cloud 也提供了一个注解,开启 Dashboard 功能。Dashboard 的基本的安装配置功能不在这里描述了。

▼ Hystrix Dashboard 的界面如下图所示

Hystrix 使用指南(3):监控报警_第4张图片

在第一个文本框填入 Hystrix Stream 的地址即可看到本文开头的界面。

如果需要监控整个 Hystrix 集群,就需要使用 Turbine 应用。Turbine 也是 Netflix 开源的一个服务。

Hystrix Metrics 的优缺点

优点:

统计粒度小:时间粒度和监控单元粒度。可以帮助我们发现粗粒度监控时不容易发现的问题。

缺点:

数据没有持久化,无法查看历史数据

三、与自有监控和报警系统的集成

监控

对于多数公司来说,使用 Hystrix Stream 和 Turbine 存在一个明显的不足,那就是无法查看历史的监控数据。

这个功能还是很重要的,因为在使用 Hystrix,刚开始,超时时间、线程池等参数配置的都比较随意。后续我们需要进行配置调整,依据就来自 Hystrix Dashboard 上的数据。但如果无法看到历史的数据,那就很不方便了。

目前,Hystrix 并没有提供任何机制用于将运行数据上传至第三方监控系统的机制,但我们可以参考 HystrixMetricsStreamServlet 的实现方式。

HystrixMetricsStreamServlet 是通过轮询 HystrixCommandMetricsHystrixThreadPoolMetricsHystrixCollapserMetrics 中的数据实现监控的。因此,我们也可以采用类似的方式,轮询这三个类中的数据,然后将这些数据上传到第三方监控系统。上传之后,在通过相应监控系统的持久化功能,从而实现对监控数据的保存。

private HystrixDashboardStream(int delayInMs) {
    this.delayInMs = delayInMs;
    this.singleSource = Observable.interval(delayInMs, TimeUnit.MILLISECONDS)
            .map(new Func1() {
                @Override
                public DashboardData call(Long timestamp) {
                    return new DashboardData(
                            HystrixCommandMetrics.getInstances(),
                            HystrixThreadPoolMetrics.getInstances(),
                            HystrixCollapserMetrics.getInstances()
                    );
                }
            })
            .doOnSubscribe(new Action0() {
                @Override
                public void call() {
                    isSourceCurrentlySubscribed.set(true);
                }
            })
            .doOnUnsubscribe(new Action0() {
                @Override
                public void call() {
                    isSourceCurrentlySubscribed.set(false);
                }
            })
            .share()
            .onBackpressureDrop();
}

报警

注:这一段内容和 Hystrix 本身的使用没有直接关系,而是和 Hystrix 相关的微服务治理相关的内容。但建议负责技术、架构,以及负责基础组件和服务研发的同学阅读

在有了监控数据之后,报警功能也是水到渠成,所以这里不谈如何实现基于 Hystrix 监控数据的报警功能。这里我们讨论一下我们是否需要基于 Hystrix 监控数据的报警功能?如果需要,都需要针对哪些指标添加报警?

之所以讨论这个问题,是因为有很多全链路监控解决方案,例如 Spring Cloud Sleuth、Pinpoint 等,都支持对 Hystrix 的监控。所以,监控报警功能并不依赖于 Hystrix 自带的监控数据输出。所以,如果只需要基本的监控报警功能,完全是不需要 Hystrix Metrics 和 Dashboard 功能的。

但 Hystrix 相关的监控数据不同于其它技术,除了超时和错误的监控,还有其它很多细粒度的监控数据。例如,熔断次数、线程池拒绝次数等等。

对于这些细粒度的监控数据,我认为不应该将它们同超时和错误监控等同看待。前者更多的是用于配置调优,后者则主要是一种常规的监控方式。如果我们将 Hystrix Metrics 所提供的所有数据都纳入监控,不仅监控系统,而且,更重要的是,技术人员可能会不堪重sao负rao。过多的监控有时会起到相反的作用,即让技术人员忽视监控。

我认为 Hystrix 相关的报警的一个原则是,报警还应该局限于主要的指标(请求时间、异常)。对于 Hystrix 特有的、细粒度的运行数据,我们需要做到有据可查。以方便开发人员调优

你可能感兴趣的:(Hystrix 使用指南(3):监控报警)