本文通过zk和eureka来探究分布式系统 CAP的原则、探究分布式系统中的服务发现不同方案的选择,两者有着不同的设计思路,探究不同,对比差异,方便学习,本文要求对zk和eureka有基础的了解,zk的特性和功能在之前的博客里已有描述,在此文不在赘述;
CAP原则指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。CAP原则是NOSQL数据库的基石。
分布式系统的CAP理论:理论首先把分布式系统中的三个特性进行了如下归纳:
CAP三个特性只能满足其中两个,那么取舍的策略就共有三种:
**CA without P:**如果不要求P(不允许分区),则C(强一致性)和A(可用性)是可以保证的。但放弃P的同时也就意味着放弃了系统的扩展性,也就是分布式节点受限,没办法部署子节点,这是违背分布式系统设计的初衷的。传统的关系型数据库RDBMS:Oracle、MySQL就是CA。
**CP without A:**如果不要求A(可用),相当于每个请求都需要在服务器之间保持强一致,而P(分区)会导致同步时间无限延长(也就是等待数据同步完才能正常访问服务),一旦发生网络故障或者消息丢失等情况,就要牺牲用户的体验,等待所有数据全部一致了之后再让用户访问系统。设计成CP的系统其实不少,最典型的就是分布式数据库,如Redis、HBase等。对于这些分布式数据库来说,数据的一致性是最基本的要求,因为如果连这个标准都达不到,那么直接采用关系型数据库就好,没必要再浪费资源来部署分布式数据库。
**AP wihtout C:**要高可用并允许分区,则需放弃一致性。一旦分区发生,节点之间可能会失去联系,为了高可用,每个节点只能用本地数据提供服务,而这样会导致全局数据的不一致性。典型的应用就如某米的抢购手机场景,可能前几秒你浏览商品的时候页面提示是有库存的,当你选择完商品准备下单的时候,系统提示你下单失败,商品已售完。这其实就是先在 A(可用性)方面保证系统可以正常的服务,然后在数据的一致性方面做了些牺牲,虽然多少会影响一些用户体验,但也不至于造成用户购物流程的严重阻塞。
根据上面的分析,也就是说在分布式存储系统中,最多只能实现上面的两点。而由于网络硬件肯定会出现延迟丢包等问题,所以分区容错性是我们必须需要实现的,所以也就剩下CP、AP的方案;概念已经分析完毕,今天主要以zk和eureka为例探究分布式系统中的服务发现不同方案的选择。
在分布式系统中,我们需要将自己提供的服务暴露给使用方,dubbo、springcloud是目前在国内相对比较流畅两套为服务架构,dubbo使用zk作为服务发现、springcloud使用eureka作为服务发现,但二者又较大区别;
zookeeper是一种提供强一致性的服务。网络上大多数人描述zookeeper的缺点:当向注册中心查询服务列表时,我们可以容忍注册中心返回的是几分钟以前的注册信息,但不能接受服务直接down掉不可用。也就是说,服务注册功能对可用性的要求高于一致性。但是zk会出现这一种情况,当master节点因为网络故障与其他节点失去联系时,剩余注册功能就会重新进行leader选举看。问题在于,选举leader的时间太长,30~120s,且选举期间整个zk集群都是不可用的,这就导致在选举期间注册服务瘫痪。在云部署的环境下,因网络问题使得zk集群失去master节点是较大概率会发生的事,虽然服务能够最终恢复,但是漫长的选举时间导致的注册长期不可用是不能容忍的;
我个人觉得zk的优势在于,zk采用订阅的方式,如果服务节点有变化,zkclient能很快感知到,实时性更高一些,针对zookeeper的缺点,dubbo也做了针对性优化,比如zk真的挂掉了,不影响服务直接的相互调用,在我看来针对性的优化还是很有优势的。
包含两个组件:Eureka Server和Eureka Client。
Feature:
服务启动后向Eureka注册,Eureka Server会将注册信息向其他Eureka Server进行同步,当服务消费者要调用服务提供者,则向服务注册中心获取服务提供者地址,然后会将服务提供者地址缓存在本地,下次再调用时,则直接从本地缓存中取,完成一次调用。
当服务注册中心Eureka Server检测到服务提供者因为宕机、网络原因不可用时,则在服务注册中心将服务置为DOWN状态,并把当前服务提供者状态向订阅者发布,订阅过的服务消费者更新本地缓存。
服务提供者在启动后,周期性(默认30秒)向Eureka Server发送心跳,以证明当前服务是可用状态。Eureka Server在一定的时间(默认90秒)未收到客户端的心跳,则认为服务宕机,注销该实例。
Eureka Server 存在三个变量(三级缓存机制):
Eureka Server 通过上面的三个变量来保存服务注册信息。默认情况下定时任务每 30s 将 readWriteCacheMap 同步至 readOnlyCacheMap,每 60s 清理超过 90s 未续约的节点,Eureka Client 每 30s 从 readOnlyCacheMap 更新服务注册信息,而 UI 则从 registry 更新服务注册信息;
Eureka Server 通过上面的三个变量来保存服务注册信息。默认情况下定时任务每 30s 将 readWriteCacheMap 同步至 readOnlyCacheMap,每 60s 清理超过 90s 未续约的节点,Eureka Client 每 30s 从 readOnlyCacheMap 更新服务注册信息,而 UI 则从 registry 更新服务注册信息。
了解了上面的缓存原理,Eureka的缺点也就很明显了,实时性不够,但省去了zookeeper的中途选举leader时服务不可用的问题,对比起来似乎有一些优势;
可以参考一下网络上的配置
Server Configuration
## 中小规模下,自我保护模式坑比好处多,所以关闭它
eureka.server.enableSelfPreservation=false
## 心跳阈值计算周期,如果开启自我保护模式,可以改一下这个配置
## eureka.server.renewalThresholdUpdateIntervalMs=120000
## 主动失效检测间隔,配置成5秒
eureka.server.evictionIntervalTimerInMs=5000
## 心跳间隔,5秒
eureka.instance.leaseRenewalIntervalInSeconds=5
## 没有心跳的淘汰时间,10秒
eureka.instance.leaseExpirationDurationInSeconds=10
## 禁用readOnlyCacheMap
eureka.server.useReadOnlyResponseCache=false
Client Configuration
## 心跳间隔,5秒
eureka.instance.leaseRenewalIntervalInSeconds=5
## 没有心跳的淘汰时间,10秒
eureka.instance.leaseExpirationDurationInSeconds=10
# 定时刷新本地缓存时间
eureka.client.registryFetchIntervalSeconds=5
# ribbon缓存时间
ribbon.ServerListRefreshInterval=2000
经过调优后,eureka也能到达秒级;
当然市面上还有其它的其它的方案,比如阿里巴巴nacos等,新的技术出现、流行一定是为了弥补现在出现的问题,当然公司在选择切换的时候也有一定成本,如果作为公司的架构师、技术专家,那么一定也会考虑更多、权衡利弊之后才会做出抉择;nacos并不在本文讨论的范围之内,可以根据参考链接的《Nacos与Eureka区别及如何选型》做对比。
CAP原则(CAP定理)、BASE理论
深入学习 Eureka 原理
Nacos与Eureka区别及如何选型
打赏地址