默认情况下,当eureka server在一定时间内没有收到实例的心跳,便会把该实例从注册表中删除(默认是90秒),但是,如果短时间内丢失大量的实例心跳,便会触发eureka server的自我保护机制,比如在开发测试时,需要频繁地重启微服务实例,但是我们很少会把eureka server一起重启(因为在开发过程中不会修改eureka注册中心),当一分钟内收到的心跳数大量减少时,会触发该保护机制。可以在eureka管理界面看到Renews threshold和Renews(last min),当后者(最后一分钟收到的心跳数)小于前者(心跳阈值)的时候,触发保护机制,会出现红色的警告:
EMERGENCY!EUREKA MAY BE INCORRECTLY CLAIMING INSTANCES ARE UP WHEN THEY'RE NOT.RENEWALS ARE LESSER THAN THRESHOLD AND HENCE THE INSTANCES ARE NOT BEGING EXPIRED JUST TO BE SAFE.
从警告中可以看到,eureka认为虽然收不到实例的心跳,但它认为实例还是健康的,eureka会保护这些实例,不会把它们从注册表中删掉。
该保护机制的目的是避免网络连接故障,在发生网络故障时,微服务和注册中心之间无法正常通信,但服务本身是健康的,不应该注销该服务,如果eureka因网络故障而把微服务误删了,那即使网络恢复了,该微服务也不会重新注册到eureka server了,因为只有在微服务启动的时候才会发起注册请求,后面只会发送心跳和服务列表请求,这样的话,该实例虽然是运行着,但永远不会被其它服务所感知。所以,eureka server在短时间内丢失过多的客户端心跳时,会进入自我保护模式,该模式下,eureka会保护注册表中的信息,不在注销任何微服务,当网络故障恢复后,eureka会自动退出保护模式。自我保护模式可以让集群更加健壮。
但是我们在开发测试阶段,需要频繁地重启发布,如果触发了保护机制,则旧的服务实例没有被删除,这时请求有可能跑到旧的实例中,而该实例已经关闭了,这就导致请求错误,影响开发测试。所以,在开发测试阶段,我们可以把自我保护模式关闭,只需在eureka server配置文件中加上如下配置即可:
eureka.server.enable-self-preservation=false
在此基础上还可以进一步配置Eureka Server清理无效节点的时间间隔
eureka.server.eviction-interval-timer-in-ms=10000 # 清理间隔(单位毫秒,默认是60*1000)
还可以在Eureka Client端配置开启健康检查,并按需配置续约更新时间和到期时间
eureka.client.healthcheck.enabled=true # 开启健康检查(需要spring-boot-starter-actuator依赖) eureka.instance.lease-renewal-interval-in-seconds=30 # 续约更新时间间隔(默认30秒) eureka.instance.lease-expiration-duration-in-seconds=60 # 续约到期时间(默认90秒)
但在生产环境,不会频繁重启,所以,一定要把自我保护机制打开,否则网络一旦终端,就无法恢复。
一旦进入保护模式,Eureka Server将会尝试保护其服务注册表中的信息,不再删除服务注册表中的数据(也就是不会注销任何微服务)。
进入保护模式的条件:
如果Eureka Server最近1分钟收到renew的次数小于阈值(即预期的最小值,默认为0.85),则会触发自我保护模式,此时Eureka Server此时会认为这是网络问题,它不会注销任何过期的实例,即使该实例确实是人为停掉的。
退出保护模式的条件:
直到最近收到renew的次数大于阈值后,则Eureka Server退出自我保护模式。
自我保护模式阈值计算:
以上的参数都可配置的:
有没有可能无法退出保护模式呢?比如,原来有两个实例,后来因为需要,把一个实例停掉,而且后面也不会再加入其它实例,此时,就无法退出保护模式,被删掉的实例依然一直存在实例列表中,此时,我们可以手动把该实例从实例列表中删除,方法如下:
curl -XDELETE http://eureka server地址/eureka/apps/要删除的服务名/要删除的实例id(在Eureka Server管理界面可以看到实例的id)
可以用ssh等工具,向Eureka Server发送该请求,Eureka Server收到请求后,会把该实例从列表中删掉