Lease 机制是最重要的分布式协议,广泛应用于各种实际的分布式系统中。即使在某些系统中
相似的设计不被称为 lease,但我们可以分析发现其本质就是一种 lease 的实现。本节从一个分布式
cache 系统出发介绍最初的 lease 机制,接着加以引申,探讨 lease 机制的本质。最后介绍了 lease 机
制最重要的应用:判定节点状态
本节先通过讨论一种分布式 cache 系统的实例来介绍 lease 机制
基本的问题背景如下:在一个分布式系统中,有一个中心服务器节点,中心服务器存储、维护
着一些数据,这些数据是系统的元数据。系统中其他的节点通过访问中心服务器节点读取、修改其
上的元数据。由于系统中各种操作都依赖于元数据,如果每次读取元数据的操作都访问中心服务器
节点,那么中心服务器节点的性能成为系统的瓶颈。为此,设计一种元数据 cache,在各个节点上
cache 元数据信息,从而减少对中心服务器节点的访问,提高性能。另一方面,系统的正确运行严
格依赖于元数据的正确,这就要求各个节点上 cache 的数据始终与中心服务器上的数据一致,cache
中的数据不能是旧的脏数据。最后,设计的 cache 系统要能最大可能的处理节点宕机、网络中断等
异常,最大程度的提高系统的可用性
为此,利用 lease 机制设计一套 cache 系统,其基本原理为如下。中心服务器在向各节点发送数
据时同时向节点颁发一个 lease。每个 lease 具有一个有效期,和信用卡上的有效期类似,lease 上的
有效期通常是一个明确的时间点,例如 12:00:10,一旦真实时间超过这个时间点,则 lease 过期失效。
这样 lease 的有效期与节点收到 lease 的时间无关,节点可能收到 lease 时该 lease 就已经过期失效。
这里首先假设中心服务器与各节点的时钟是同步的,下节中讨论时钟不同步对 lease 的影响。中心服
务器发出的 lease 的含义为:在 lease 的有效期内,中心服务器保证不会修改对应数据的值。因此,
节点收到数据和 lease 后,将数据加入本地 Cache,一旦对应的 lease 超时,节点将对应的本地 cache
数据删除。中心服务器在修改数据时,首先阻塞所有新的读请求,并等待之前为该数据发出的所有
lease 超时过期,然后修改数据的值
基于 lease 的 cache,客户端节点读取元数据的流程
1. 判断元数据是否已经处于本地 cache 且 lease 处于有效期内
1.1 是:直接返回 cache 中的元数据
1.2 否:向中心服务器节点请求读取元数据信息
1.2.1 服务器收到读取请求后,返回元数据及一个对应的 lease
1.2.2 客户端是否成功收到服务器返回的数据
1.2.2.1 失败或超时:退出流程,读取失败,可重试
1.2.2.2 成功:将元数据与该元数据的 lease 记录到内存中,返回元数据
基于 lease 的 cache,客户端节点修改元数据流程
1. 节点向服务器发起修改元数据请求
2. 服务器收到修改请求后,阻塞所有新的读数据请求,即接收读请求,但不返回数据
3. 服务器等待所有与该元数据相关的 lease 超时
4. 服务器修改元数据并向客户端节点返回修改成功
上述机制可以保证各个节点上的 cache 与中心服务器上的中心始终一致。在 lease 有效期内,服务器不会修改数据,从而客户端节点可以放心的在 lease 有效期内 cache 数据。上述 lease 机制可以容错的关键是:服务器一旦发出数据及 lease,无论客户端是否收到,也无论后续客户端是否宕机,也无论后续网络是否正常,服务器只要等待 lease 超时,就可以保证对应的客户端节点不会再继续 cache 数据,从而可以放心的修改数据而不会破坏 cache 的一致性
上述基础流程有一些性能和可用性上的问题,但可以很容易就优化改性,优化如下:
最后,我们分析一下 cache 机制与多副本机制的区别。Cache 机制与多副本机制的相似之处都是将一份数据保存在多个节点上。但 Cache 机制却要简单许多,对于 cache 的数据,可以随时删除丢弃,没命中 cache 的后果仅仅是需要访问数据源读取数据;然而副本机制却不一样,副本是不能随意丢弃的,每失去一个副本,服务质量都在下降,一旦副本数下降到一定程度,则往往服务将不再可用
首先给出本文对 Lease 的定义:lease 是由颁发者授予的在某一有效期内的承诺。颁发者一旦发
出 lease,则无论接受方是否收到,也无论后续接收方处于何种状态,只要 lease 不过期,颁发者一
定严守承诺;另一方面,接收方在 lease 的有效期内可以使用颁发者的承诺,但一旦 lease 过期,接
收方一定不能继续使用颁发者的承诺
由于 lease 是一种承诺,具体的承诺内容可以非常宽泛,可以是上节的例子中数据的正确性;也
可以是某种权限,例如当需要做并发控制时,同一时刻只给某一个节点颁发 lease,只有持有 lease
的节点才可以修改数据;也可以是某种身份,例如在 primary-secondary 架构中,给节点颁发
lease,只有持有 lease 的节点才具有 primary 身份。Lease 的承诺的内涵还可以非常宽泛,这里不再
一一列举
Lease 机制具有很高的容错能力,且只依赖单向网络通信,无论接收方节点宕机、网络不可达等,都不会影响lease的正确性。Lease 机制依赖于有效期,这就要求颁发者和接收者的时钟是同步的。一方面,如果颁发者的时钟比接收者的时钟慢,则当接收者认为 lease 已经过期的时候,颁发者依旧认为 lease 有效。接收者可以用在 lease 到期前申请新的 lease 的方式解决这个问题。另一方面,如果颁发者的时钟比接收者的时钟快,则当颁发者认为 lease 已经过期的时候,接收者依旧认为 lease 有效,颁发者可能将 lease颁发给其他节点,造成承诺失效,影响系统的正确性。对于这种时钟不同步,实践中的通常做法是将颁发者的有效期设置得比接收者的略大,只需大过时钟误差就可以避免对 lease 的有效性的影响
在分布式系统中确定一个节点是否处于正常工作状态是一个困难的问题。由于可能存在网络分化,节点的状态是无法通过网络通信来确定的。下面举一个较为具体的例子来讨论这个问题。如在一个 primary-secondary 架构的系统中,有三个节点 A、B、C 互为副本,其中有一个节点为 primary,且同一时刻只能有一个 primary 节点。另有一个节点 Q 负责判断节点 A、B、C的状态,一旦 Q 发现 primary 异常,节点 Q 将选择另一个节点作为 primary。假设最开始时节点 A为 primary,B、C 为 secondary。节点 Q 需要判断节点 A、B、C 的状态是否正常
首先需要说明的是基于“心跳”(Heartbeat)的方法无法很好的解决这个问题。节点 A、B、C 可以周期性的向 Q 发送心跳信息,如果节点 Q 超过一段时间收不到某个节点的心跳则认为这个节点异常。这种方法的问题是假如节点 Q 收不到节点 A 的心跳,除了节点 A 本身的异常外,也有可能是因为节点 Q 与节点 A 之间的网络中断导致的。在工程实践中,更大的可能性不是网络中断,而是节点 Q 与节点 A 之间的网络拥塞造成的所谓“瞬断”,“瞬断”往往很快可以恢复。另一种原因甚至是节点 Q 的机器异常,以至于处理节点 A 的心跳被延迟了,以至于节点 Q 认为节点 A 没有发送心跳。假设节点 A 本身工作正常,但 Q 与节点 A 之间的网络暂时中断,节点 A 与节点 B、C 之间的网络正常。此时节点 Q 认为节点 A 异常,重新选择节点 B 作为新的 primary,并通知节点 A、B、C 新的 primary 是节点 B。由于节点 Q 的通知消息到达节点 A、B、C 的顺序无法确定,假如先到达 B,则在这一时刻,系统中同时存在两个工作中的 primary,一个是 A、另一个是 B。假如此时 A、B 都接收外部请求并与 C 同步数据,会产生严重的数据错误。上述即所谓“双主”问题,虽然看似这种问题出现的概率非常低,但在工程实践中,不止一次见到过这样的情况发生
上述问题的出现的原因在于虽然节点 Q 认为节点 A 异常,但节点 A 自己不认为自己异常,依旧作为 primary 工作。其问题的本质是由于网络分化造成的系统对于“节点状态”认知的不一致。上面的例子中的分布式协议依赖于对节点状态认知的全局一致性,即一旦节点 Q 认为某个节点A 异常,则节点 A 也必须认为自己异常,从而节点 A 停止作为 primary,避免“双主”问题的出现。解决这种问题有两种思路,第一、设计的分布式协议可以容忍“双主”错误,即不依赖于对节点状态的全局一致性认识,或者全局一致性状态是全体协商后的结果;第二、利用 lease 机制。对于一种思路即放弃使用中心化的设计,而改用去中心化设计,超过本节的讨论范畴。下面着重讨论利用lease 机制确定节点状态。由中心节点向其他节点发送 lease,若某个节点持有有效的 lease,则认为该节点正常可以提供服务。节点 A、 B、 C 依然周期性的发送 heart beat 报告自身状态,节点 Q 收到 heart beat后发送一个 lease,表示节点 Q 确认了节点 A、B、C 的状态,并允许节点在 lease 有效期内正常工作。节点 Q 可以给 primary 节点一个特殊的 lease,表示节点可以作为 primary 工作。一旦节点 Q 希望切换新的 primary,则只需等前一个 primary 的 lease 过期,则就可以安全的颁发新的 lease 给新的primary 节点,而不会出现“双主”问题
在实际系统中,若用一个中心节点发送 lease 也有很大的风险,一旦该中心节点宕机或网络异常,则所有的节点没有 lease,从而造成系统高度不可用。为此,实际系统总是使用多个中心节点互为副本,成为一个小的集群,该小集群具有高可用性,对外提供颁发 lease 的功能。chubby 和 zookeeper都是基于这样的设计
Lease 的有效期虽然是一个确定的时间点,当颁发者在发布 lease 时通常都是将当前时间加上一个固定的时长从而计算出 lease 的有效期。如何选择 Lease 的时长在工程实践中是一个值得讨论的问题。如果 lease 的时长太短,例如 1s,一旦出现网络抖动 lease 很容易丢失,从而造成节点失去 lease,使得依赖 lease 的服务停止;如果 lease 的时长太大,例如 1 分钟,则一旦接受者异常,颁发者需要过长的时间收回 lease 承诺。例如,使用 lease 确定节点状态时,若 lease 时间过短,有可能造成网络瞬断时节点收不到 lease 从而引起服务不稳定,若 lease 时间过长,则一旦某节点宕机异常,需要较大的时间等待 lease 过期才能发现节点异常。工程中,常选择的 lease 时长是 10 秒级别,这是一个经过验证的经验值,实践中可以作为参考并综合选择合适的时长
分布式系统 | Lease机制 |
---|---|
GFS | GFS 中使用 Lease 确定 Chuck 的 Primary 副本。 Lease 由 Master 节点颁发给 primary 副本持有Lease 的副本成为 primary 副本。Primary 副本控制该 chuck 的数据更新流量,确定并发更新操作在chuck 上的执行顺序。GFS 中的 Lease 信息由 Master 在响应各个节点的 HeartBeat 时附带传递(piggyback)。对于每一个 chuck,其上的并发更新操作的顺序在各个副本上是一致的,首先 master选择 primary 的顺序,即颁发 Lease 的顺序,在每一任的 primary 任期内,每个 primary 决定并发更新的顺序,从而更新操作的顺序最终全局一致。当 GFS 的 master 失去某个节点的 HeartBeat 时,只需待该节点上的 primary chuck 的 Lease 超时,就可以为这些 chuck 重新选择 primary 副本并颁发 lease |
Niobe | Niobe 中虽然没有明确说明使用了 Lease 机制,但是通过分析可以发现,这是一个 Lease 机制。Niobe 协议中的 Lease 与常见的由中间节点 Master 颁发给 primary 不太相同。Niobe 协议中,也是通过 Lease 机制维持 Primary 副本的选择,不同的是 Niobe 中的 Lease 是由 Secondary 节点向 Primary节点发送。在 Niobe 协议中,有一个高可用的全局元数据服务节点称为 GSM (global state manager)。 GSM上的元信息有唯一地址的版本号(称为 epoch) ,每次更新该元信息都必须附带提交之前读取到的版本号,并进行 condition-write,即 GSM 会检验客户节点提交的版本号是否与当前的版本号相同,如果相同则允许提交更新操作,并递增版本号,否则更新失败,从而实现了元信息更新的全局顺序一致。在 Niobe 协议中,每个 Secondary 副本都会给 Primary 副本发送 Lease,这个 Lease 的含义是:在 Lease 时间内,本副本承认你是 Primary 节点。在 Niobe 协议中,一旦出现 primary 失去了某个secondary 的 lease,此时 primary 和 secondary 都会尝试去 kill 对方,secondary 在 kill 对方的同时还会尝试成为新的 primary。当 primary 失去某个 secondary 的 lease 后,primary 会立刻尝试修改 GSM中的元信息,将 secondary 在元信息中标记为“不可用”,从而 kill 掉该 secondary,被 kill 掉的 secondary只有重新与 primary 同步后才会被重新标记为“可用”并提供服务。而当某个 secondary 因不能与primary 通信,造成无法给 primary 发送 lease 后, 在 lease 超时后,也会尝试修改 GSM 中,将 primary标记为“不可用”且将 primary 设置为自己。由于在 GSM 上更新操作靠 epoch 实现全局一致。 Primary与 secondary 相互 kill 对方的操作有且仅有一个会成功,失败的那个副本需要重新读取 GSM 上的元数据后才能发起新的更新元数据的操作,而如果被对方 kill,那么重新读取元数据时会发现自己已“不可用”从而无法再 kill 对方。从这里我们可以看到,niobe 中的 lease 含义也可以理解为:“我承诺在接下来 lease 时间内,我不会 kill 你”。这确实是一种另类的 lease 含义 |
Chubby/Zookeeper | Chubby 中有两处使用到 Lease 机制。我们知道 chubby 通过 paxos 协议实现去中心化的选择 primary 节点。一旦某个节点获得了超过半数的节点认可,该节点成为 primary 节点,其余节点成为 secondary 节点。Secondary节点向 primary 节点发送 lease,该 lease 的含义是:“承诺在 lease 时间内,不选举其他节点成为 primary节点”。只要 primary 节点持有超过半数节点的 lease,那么剩余的节点就不能选举出新的 primary。一旦 primary 宕机,剩余的 secondary 节点由于不能向 primary 节点发送 lease,将发起新的一轮 paxos选举,选举出新的 primary 节点。这种由 secondary 向 primary 发送 lease 的形式与 niobe 的 lease 形式有些类似。除了 secondary 与 primary 之间的 lease,在 chubby 中,primary 节点也会向每个 client 节点颁发lease。该 lease 的含义是用来判断 client 的死活状态,一个 client 节点只有只有合法的 lease,才能与chubby 中的 primary 进行读写操作。一个 client 如果占有 chubby 中的一个节点锁后 lease 超时,那么这个 client 占有的 chubby 锁会被自动释放,从而实现了利用 chubby 对节点状态进行监控的功能。另外, chubby 中 client 中保存有数据的 cache,故此 chubby 的 primary 为 cache 的数据颁发 cache lease,该过程前面介绍的基于 lease 的 cahce 机制完全类似。虽然相关文献上没有直接说明,但笔者认为,chubby 的 cache lease 与 primary 用于判断 client 死活状态的 lease 是可以合并为同一个 lease的,从而可以简化系统的逻辑。与 Chubby 不同, Zookeeper 中的 secondary 节点(在 zookeeper 中称之为 follower)并不向 primary节点(在 zookeeper 中称之为 leader)发送 lease, zookeeper 中的 secondary 节点如果发现没有 primary节点则发起新的 paxos 选举,只要 primary 与 secondary 工作正常,新发起的选举由于缺乏多数secondary 的参与而不会成功。与 Chubby 类似的是, Zookeeper 的 primary 节点也会向 client 颁发 lease,lease 的时间正是 zookeeper 中的 session 时间。在 Zookeeper 中,临时节点是与 session 的生命期绑定的, 当一个 client 的 session 超时,那么这个 client 创建的临时节点会被 zookeeper 自动删除。通过监控临时节点的状态,也可以很容易的实现对节点状态的监控。在这一点上,zookeeper 和 chubby 完全是异曲同工 |
很难想象,如何在工程上既不使用 Lease 而又实现一个一致性较高的系统。直接实现 lease机制的确会对增加系统设计的复杂度。然而,由于有类似 Zookeeper 这样的开源的高可用系统,在工程中完全可以间接使用 Lease。借助 zookeeper,我们可以简单的实现高效的、无单点选主、状态监控、分布式锁、分布式消息队列等功能,而实际上,这些功能的实现都是依赖于背后 zookeeper与 client 之间的 Lease 的