今天大概学了下Sentinel
官方手册
官方Github
服务使用中的各种问题:
Sentinel 分为两个部分:
随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性。
Sentinel 具有以下特征:
- 丰富的应用场景:Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。
- 完备的实时监控:Sentinel 同时提供实时的监控功能。您可以在控制台中看到接入应用的单台机器秒级数据,甚至 500 台以下规模的集群的汇总运行情况。
- 广泛的开源生态:Sentinel 提供开箱即用的与其它开源框架/库的整合模块,例如与 Spring Cloud、Dubbo、gRPC 的整合。您只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。
- 完善的 SPI 扩展点:Sentinel 提供简单易用、完善的 SPI 扩展接口。您可以通过实现扩展接口来快速地定制逻辑。例如定制规则管理、适配动态数据源等。
Sentinel的主要特性:
Hystrix与Sentinel比较:
约定 > 配置 > 编码
java -jar sentinel-dashboard-1.7.0.jar
官方文档
<dependency>
<groupId>com.alibaba.cloudgroupId>
<artifactId>spring-cloud-starter-alibaba-sentinelartifactId>
dependency>
server:
port: 8401
spring:
application:
name: cloudalibaba-sentinel-service
cloud:
nacos:
discovery:
server-addr: localhost:8848 #Nacos服务注册中心地址
sentinel:
transport:
dashboard: localhost:8080 #配置Sentinel dashboard地址
#默认8719端口,假如被占用自动从8719开始依次+1扫描,直至找到未被占用的端口
port: 8719
management:
endpoints:
web:
exposure:
include: '*'
feign:
sentinel:
enabled: true # 激活Sentinel对Feign的支持
@RestController
public class FlowLimitController {
@GetMapping("/testA")
public String testA(){
return "------testA";
}
@GetMapping("/testB")
public String testB(){
log.info(Thread.currentThread().getName()+"\t"+"...testB");
return "------testB";
}
}
@EnableDiscoveryClient
@SpringBootApplication
public class MainApp8401 {
public static void main(String[] args) {
SpringApplication.run(MainApp8401.class, args);
}
}
QPS
QPS(每秒钟的请求数量)︰当调用该API的QPS达到阈值的时候,进行限流。
并发线程数
线程数:当调用该API的线程数达到阈值的时候,进行限流。
QPS与并发线程数的区别
QPS是对未进入程序的访问进行限流
并发线程数是对已经进入程序的访问进行限流
直接
API达到限流条件时,直接限流。
关联
当关联的资源达到阈值时,就限流自己。
链路
只记录指定链路上的流量(指定资源从入口资源进来的流量,如果达到阈值,就进行限流)【API级别的针对来源】。
快速失败
当要限流时,直接失败,抛异常。
Warm Up(预热)
根据Code Factor(冷加载因子,默认3)的值,从阈值/codeFactor,经过预热时长,才达到设置的QPS阈值。
假设设置的单机阈值为QPS=10,则预热阈值为10/3=3,设置预热时长为5秒
所以在该服务没有大量请求时,初始阈值为3
在突然有大量请求出现时,经过5秒后,阈值才从3变为10
排队等待
当要限流时,访问者进行匀速排队,在设置的超时时间内,让请求以匀速的速度通过,超出超时时间则抛异常
阈值类型必须设置为QPS,否则无效。
官方文档
熔断降级概述
除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。
一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方 API 等。例如,支付的时候,可能需要远程调用银联提供的 API;查询某个商品的价格,可能需要进行数据库查询。然而,这个被依赖服务的稳定性是不能保证的。
如果依赖的服务出现了不稳定的情况,请求的响应时间变长,那么调用服务的方法的响应时间也会变长,线程会产生堆积,最终可能耗尽业务自身的线程池,服务本身也变得不可用。
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。
以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。
因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。
熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
慢调用比例
慢调用比例 (SLOW_REQUEST_RATIO):选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。
当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态)
若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
异常比例
异常比例 (ERROR_RATIO):当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
异常数
异常数 (ERROR_COUNT):当单位统计时长内的异常数目超过阈值之后会自动进行熔断。
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态)
若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
官方文档
何为热点?热点即经常访问的数据。很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据,并对其访问进行限制。比如:
- 商品 ID 为参数,统计一段时间内最常购买的商品 ID 并进行限制
- 用户 ID 为参数,针对一段时间内频繁访问的用户 ID 进行限制
热点参数限流会统计传入参数中的热点参数,并根据配置的限流阈值与模式,对包含热点参数的资源调用进行限流。热点参数限流可以看做是一种特殊的流量控制,仅对包含热点参数的资源调用生效。
参数索引
传入的热点参数的索引(从0开始),以控制器方法的形参列表为准
下面两种请求的热点限流规则作用结果是一致的
参数例外项的开启(高级选项)似乎只能在热点规则->新增热点限流规则
中开启
对选择的热点参数的某个值,设置不同的限流阈值(单机阈值)
参数类型
只能为基本类型或String
int—double—java.lang.String—long—float—char—byte
参数值
指定热点参数的值,当请求的热点参数为该值时,对该值使用不同的限流阈值
限流阈值
为某个参数值设置独立的限流阈值
官方文档
系统规则
系统保护规则是从整体维度对应用级别的入口流量进行控制
从单台机器的 load、CPU 使用率、平均 RT、入口 QPS 和并发线程数等几个维度监控应用指标
让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。
系统保护规则是应用整体维度的,而不是资源维度的,并且仅对入口流量生效
入口流量指的是进入应用的流量(EntryType.IN),比如 Web 服务或 Dubbo 服务端接收的请求,都属于入口流量。
系统规则支持以下的模式:
- Load 自适应(仅对 Linux/Unix-like 机器生效):系统的 load1 作为启发指标,进行自适应系统保护。当系统 load1 超过设定的启发值,且系统当前的并发线程数超过估算的系统容量时才会触发系统保护(BBR 阶段)。系统容量由系统的 maxQps * minRt 估算得出。设定参考值一般是 CPU cores * 2.5。
- CPU usage(1.5.0+ 版本):当系统 CPU 使用率超过阈值即触发系统保护(取值范围 0.0-1.0),比较灵敏。
- 平均 RT:当单台机器上所有入口流量的平均 RT 达到阈值即触发系统保护,单位是毫秒。
- 并发线程数:当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
- 入口 QPS:当单台机器上所有入口流量的 QPS 达到阈值即触发系统保护。
对某个服务添加系统保护,该服务下的所有方法共用一个阈值
例如对某个服务添加系统规则,设置阈值类型:入口QPS,阈值:500
对服务方法A进行流控,设置阈值类型QPS,阈值:300
对服务方法B进行流控,设置阈值类型QPS,阈值:600
当A的QPS达到200,B的QPS达到300时
虽然没达到各自设置的阈值,但是总QPS达到了系统规则设置的阈值500
因此会对A、B以及该服务下的所有方法进行限流
@SentinelResource可以设置限流熔断后的处理方法(blockHandler)
Sentinel本身自带页面处理,可以为服务限流或熔断提供后续处理页面
Blocked by Sentinel (flow limiting)
@SentinelResource也可以设置服务超时/故障等程序方面的处理方法(fallback)
int a = 10/0
会在页面上出现错误信息:除零异常
@SentinelResource的value属性可以为方法设置独特的名字,一般和控制器value值相同
在Sentinel中可以获取到控制器方法的value值
也可以获取到@SentinelResource的value值
因此Sentinel可以按资源名称限流,也可以按URL地址限流
@SentinelResource中的blockHandler属性可以在该方法因为Sentinel而被限流熔断时处理后续事务,而不是抛出异常
blockHandler只适用于通过@SentinelResource里的value属性设置的限流熔断规则配置
如果使用的是按URL设置的限流熔断规则,则无效,因为只会使用默认的处理页面(或许有其他的处理方法)
blockHandler属性的值为某个处理方法名
处理方法的返回类型必须和被处理方法的返回类型一致
处理方法的形参类型必须和被处理方法的形参类型一致,数量上可以多,不能少
@GetMapping("/byResource")
@SentinelResource(value = "byResource",blockHandler = "handleException")
public CommonResult byResource() {
return new CommonResult(200,"按资源名称限流测试OK",new Payment(2020L,"serial001"));
}
public CommonResult handleException(BlockException exception) {
return new CommonResult(444,exception.getClass().getCanonicalName()+"\t 服务不可用");
}
@SentinelResource的blockHandlerClass属性可以设置自定义限流处理类
设置一个全局统一的处理方法,防止为每一个需要设置blockHandler的方法都设置一个处理方法,减少代码膨胀
blockHandlerClass属性和blockHandler属性一起使用
blockHandlerClass的使用
@GetMapping("/rateLimit/customerBlockHandler")
@SentinelResource(value = "customerBlockHandler",
blockHandlerClass = CustomerBlockHandler.class,//<-------- 自定义限流处理类
blockHandler = "handlerException1")//<-----------具体的限流处理方法
public CommonResult customerBlockHandler() {
return new CommonResult(200,"按客戶自定义",new Payment(2020L,"serial003"));
}
限流处理类
public class CustomerBlockHandler {
public static CommonResult handlerException1(BlockException exception) {
return new CommonResult(4444,"按客戶自定义,global handlerException----1");
}
public static CommonResult handlerException2(BlockException exception) {
return new CommonResult(4444,"按客戶自定义,global handlerException----2");
}
}
@SentinelResource的fallback属性可以设置因为程序运行出错后的处理方法
fallback的使用和blockHandler类似
@RequestMapping("/consumer/fallback/{id}")
@SentinelResource(value = "fallback",blockHandler = "blockHandler") //blockHandler只负责sentinel控制台配置违规
public CommonResult<Payment> fallback(@PathVariable Long id){
CommonResult<Payment> result = restTemplate.getForObject(URL + "/paymentSQL/"+id,CommonResult.class,id);
if (id == 4) {
throw new IllegalArgumentException ("IllegalArgumentException,非法参数异常....");
}else if (result.getData() == null) {
throw new NullPointerException ("NullPointerException,该ID没有对应记录,空指针异常");
}
return result;
}
//本例是fallback
public CommonResult<Payment> handlerFallback(@PathVariable Long id,Throwable e) {
Payment payment = new Payment(id,"null");
return new CommonResult<>(444,"兜底异常handlerFallback,exception内容 "+e.getMessage(),payment);
}
如果使用OpenFeign调用服务:客户端80调用服务端9001
假设9001掉线,客户端80会使用fallback方法进行处理
@SentinelResource的blockHandlerClass属性可以设置自定义fallback类
fallbackClass也要搭配fallback使用
fallbackClass的使用和blockHandlerClass类似
在使用fallback时,可以通过exceptionsToIgnore属性忽略某个异常。使得当出现该异常时,不会使用fallback属性设置的方法
@RequestMapping("/consumer/fallback/{id}")
@SentinelResource(value = "fallback",fallback = "handlerFallback",exceptionsToIgnore = {IllegalArgumentException.class})
public CommonResult<Payment> fallback(@PathVariable Long id){
CommonResult<Payment> result = restTemplate.getForObject(URL + "/paymentSQL/"+id,CommonResult.class,id);
if (id == 4) {
throw new IllegalArgumentException ("IllegalArgumentException,非法参数异常....");
}else if (result.getData() == null) {
throw new NullPointerException ("NullPointerException,该ID没有对应记录,空指针异常");
}
return result;
}
//本例是fallback
public CommonResult<Payment> handlerFallback(@PathVariable Long id,Throwable e) {
Payment payment = new Payment(id,"null");
return new CommonResult<>(444,"兜底异常handlerFallback,exception内容 "+e.getMessage(),payment);
}
如果服务重新启动,Sentinel里为该服务设置的所有配置规则都会消失,而生产环境需要将配置规则进行持久化
所以需要将Sentinel的配置规则保存在配置中心里(Nacos/Config/…)
这样服务如果重启后,会读取配置中心的配置规则
POM
<dependency>
<groupId>com.alibaba.cspgroupId>
<artifactId>sentinel-datasource-nacosartifactId>
dependency>
yml
spring:
cloud:
sentinel:
datasource: #<---------------------------关注点,添加Nacos数据源配置
#数据源名称,可以随意更改
ds1:
nacos:
server-addr: localhost:8848
dataId: cloudalibaba-sentinel-service
groupId: DEFAULT_GROUP
#data-type这个属性没有提示,和Nacos配置的类型保持一致
data-type: json
#authority(授权规则)、degrade(降级规则)、flow(流控规则)、param(热点规则)、system(系统规则)
#另外还增加网关的两个(api分组,限流)
#rule-type这个属性没有提示,为空时,会报空指针错误
rule-type: flow
[{
"resource": "/rateLimit/byUrl",
"IimitApp": "default",
"grade": 1,
"count": 1,
"strategy": 0,
"controlBehavior": 0,
"clusterMode": false
}]
流控规则配置
熔断降级配置
Field | 说明 | 默认值 |
---|---|---|
resource | 资源名,即规则的作用对象 | |
grade | 熔断策略,支持慢调用比例/异常比例/异常数策略 | 慢调用比例 |
count | 慢调用比例模式下为慢调用临界 RT(超出该值计为慢调用);异常比例/异常数模式下为对应的阈值 | |
timeWindow | 熔断时长,单位为 s | |
minRequestAmount | 熔断触发的最小请求数,请求数小于该值时即使异常比率超出阈值也不会熔断(1.7.0 引入) | 5 |
statIntervalMs | 统计时长(单位为 ms),如 60*1000 代表分钟级(1.8.0 引入) | 1000 ms |
slowRatioThreshold | 慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入) | 5 |
热点规则配置
属性 | 说明 | 默认值 |
---|---|---|
resource | 资源名,必填 | |
count | 限流阈值,必填 | |
grade | 限流模式 | QPS 模式 |
durationInSec | 统计窗口时间长度(单位为秒),1.6.0 版本开始支持 | 1s |
controlBehavior | 流控效果(支持快速失败和匀速排队模式),1.6.0 版本开始支持 | 快速失败 |
maxQueueingTimeMs | 最大排队等待时长(仅在匀速排队模式生效),1.6.0 版本开始支持 | 0ms |
paramIdx | 热点参数的索引,必填,对应 SphU.entry(xxx, args) 中的参数索引位置 | |
paramFlowItemList | 参数例外项,可以针对指定的参数值单独设置限流阈值,不受前面 count 阈值的限制。仅支持基本类型和字符串类型 | |
clusterMode | 是否是集群参数流控规则 | false |
clusterConfig | 集群流控相关配置 |