业务提供者引入nacos客户端sdk,通过这个sdk向nacos服务器注册服务,这个服务让消费者调用。
Nacos客户端心跳续约
为了保证业务方服务的新增机器和机器下线等信息及时同步给消费者,提供者需定期向nacos服务器上报心跳包,告诉服务器自己还活着,如果nacos服务器15秒没有收到心跳包,就会把这个提供者标示为不健康,并通报给nacos客户端,如果服务器30秒没有收到心跳包,就会在nacos服务器上删除这个提供者,并把最新的提供者列表通过upd协议发送给nacos客户端。
我们调用Nacos客户端sdk时,一般如下:
我们看下Nacos客户端实现架构:
业务服务调用nacos客户端sdk的NacosNamingService注册接口,这个类会判断注册进来的实例是临时的还是永久的(默认是临时的),如果是临时实例,说明这个实例很容易变化,比如上线下线,这样就需要用到心跳组件BeatReactor类,这个心跳组件会启动一个线程(ScheduledExecutorService)运行BeatTask任务,BeatTask默认每5秒运行一次,它向Nacos服务器发送Http Put请求,来报告自己仍然存活,这个上报也叫续约。
如果nacos服务器15秒没有收到心跳包,就会把这个实例标示为不健康,并通报给nacos客户端,如果服务器30秒没有收到心跳包,就会在nacos服务器上删除这个实例,并把删除过的最新的实例列表通过upd协议发送给nacos客户端,这块是nacos服务端心跳检测逻辑,在后面会介绍到。
我们来看下上图中这几个核心组件类的具体实现。
先看下NacosNamingService类注册实例方法:
NacosNamingService 就是上面例子中NamingService接口的实现类,也就是说这个方法直接被业务服务调用。看下主要逻辑:
首先,判断注册进来的实例是否是临时实例:instance.isEphemeral(),如果是临时实例,就构建心跳包BeatInfo,然后启动BeatReactor组件类,最后一行是启动NamingProxy组件类注册服务实例。
接下来,看下心跳组件BeatReactor的addBeatInfo干了啥?
这个方法最主要的是使用线程池ScheduledExecutorService执行BeatTask心跳任务,默认是每5秒执行一次。还有一个dom2Beat,这个Map是防止一个实例执行2个心跳续约任务,这样会浪费资源,处理逻辑是:先把老的心跳任务停掉并删除,再添加新的心跳任务。
最下面的MetricsMonitor是监控相关的,和主要逻辑没有关系,我们就不看了,包括后续监控相关的我们都先不看了。
和大家说下,源码里面一般逻辑都非常多,有大量的代码是数据组装、数据结构转换、各种异常情况和程序健壮性校验,还有一些是辅助对象信息的填充,这些代码都和主逻辑无法,我们都可以先不看,抓住重点流程和骨干逻辑,这样我们才能在纷杂的逻辑中保持清晰的思路,才能了解复杂系统的架构。
下图是客户端心跳续约流程概览:
BeatTask概览
BeatTask线程先调用sendBeat方法给服务器上报心跳,调用了封装远程调用的方法reqApi,callServer方法会随机选择可用的nacos服务器发送Http请求。BeatTask读取服务器返回的结果,判断如果上报心跳的实例在nacos服务器不存在,则调用registerService创建该服务实例,这个请求也会调用到reqApi封装的方法,BeatTask线程在结束时会使用ScheduledExecutorService启动下一次心跳续约任务,所以这个BeatTask任务是持续重复运行的。
下面我们详细看下代码的实现,我们看下5秒一次的心跳任务BeatTask是怎么运作的?
BeatTask任务是个线程类,代码有点长,我们分2段来看:
首先,就是使用serverProxy 也就是NamingProxy类来发送心跳,从nacos服务器返回的result,有2个重要字段,一个是心跳间隔interval,说明nacos服务器可以设置客户端发送心跳的频率,另一个是Light_Beat_Enabled,标识心跳发送是否是轻量级的,是否带着BeanInfo这个对象,默认是false,每次带着这个心跳对象,nacos服务器也可以指定每次发送是否带着这个对象。
接着,我们看下serverProxy(NamingProxy类)sendBeat方法发送心跳:
这段代码最重要的一句是红框内调用reqApi这个方法,向nacos服务器发送心跳,上面的大段代码都是为reqApi这个方法准备params和bodyMap这2个参数,所以看源码要抓住重点,代码很多,但重点只有那么一二个,其他代码逻辑都是为这一二个重点做准备。
可以看到reqApi这个方法是Http PUT方法,心跳包BeatInfo放到bodyMap参数中,第一个参数是服务器的URI:/nacos/v1/ns/instance/beat。
我们继续看下reqApi这个方法,是怎么请求nacos服务器的?
这段代码分2块,先看nacosDomain这个变量,当只有一台nacos服务器时,nacosDomain就是服务器地址,如果有多台nacos服务器,nacosDomain就为空。至于有几台nacos服务器,看下面:是我们最开始通过Properties属性传进来的。
上面一块代码是只有一台nacos服务器情况,如果调用一次出错,会重试maxRetry次;下面一块代码是当有多台nacos服务器时,我们随机选择一台调用,如果出错就调用下一台。
我们费了很大劲看reqApi这个方法,就是为了看这个逻辑,客户端发心跳到底发到哪台nacos服务器?这下就清楚了,如果只有一台,就只能发给这台;如果有多台,是随机找一台发的。
红框内的calServer方法我们就不看了,就是使用封装好的NacosRestTemplate组件发送Http协议给nacos服务器了。