分布式存储系统通常采用多副本的方式来保证系统的可靠性,而多副本之间如何保证数据的一致性就是系统的核心。Ceph号称统一存储,其核心RADOS既支持多副本,也支持纠删码。本文主要分析Ceph的多副本一致性协议。

1. pglog及读写流程

Ceph 使用 PGLog 来保证多副本之间的一致性。PGLog是由PG来维护,记录了该PG的所有操作,其作用类似于数据库里的undo log。PGLog通常只保存近千条的操作记录(默认是3000条),但是当PG处于降级状态时,就会保存更多的日志(默认是10000条),这样就可以在故障的PG重现上线后用来恢复PG的数据。
pglog的示意图如下:pglog主要用来记录做了什么操作,比如修改、删除等,而每一条记录里包含了对象信息,还有版本。

Ceph使用版本控制的方式来标记一个PG内的每一次更新,每个版本包括一个(epoch、version)来组成: 其中epoch是osdmap版本,每当OSD状态变化如增加、删除等时,epoch就递增; version是PG内每次更新操作的版本号,递增的,由PG内的Primary OSD进行分配。
Ceph PGLog 一致性存储问题_第1张图片

每个副本上都维护了pglog,pglog里最重要的两个指针就是last_complete和last_update,正常情况下,每个副本上这两个指针都指向同一个位置,当出现机器重启、网络中断等故障时,故障副本的这两个指针就会有所区别,以便于记录副本间的差异。

last_complete:在该指针之前的版本都已经在所有的OSD上完成更新(只表示内存更新完成);
last_update:PG内最近一次更新的对象的版本,还没有在所有OSD上完成更新,在last_update与last_complete之间的操作表示该操作已在部分OSD上完成但是还没有全部完成;
log_tail:指向pg log最老的那条记录;
head:最新的pg log记录;
tail:指向最老的pg log记录的前一个;
log:存放实际的pglog记录的list;

1.1 存储方式

1)在ceph的实现里,对于写I/O的处理,都是先封装成一个transaction,然后将这个transaction写到journal里,在journal写完成后,触发回调流程,经过多个线程及回调的处理后再进行写数据到buffer cache的操作,从而完成整个写journal和写本地缓存的流程。
2)总体来说,PGLog也是封装到transaction中,在写journal的时候一起写到日志盘上,最后在写本地缓存的时候遍历transaction里的内容,将PGLog相关的东西写到Leveldb里,从而完成该OSD上PGLog的更新操作。
3)写I/O和PGLog都会序列化到transaction里的bufferlist里,这里就对这个bufferlist里的主要内容以图的形式展示出来。transaction的bufflist里就是按照操作类型op来序列化不同的内容,如OP_WRITE表示写I/O,而OP_OMAPSETKEYS就表示设置对象的omap,其中的attrset就是一个kv的map。 注意这里面的oid,对于pglog来说,每个pg在创建的时候就会生成一个logoid,会加上pglog构造的一个对象,对于pginfo来说,是pginfo_构造的一个对象,而对于真正的数据对象来说,attrset就是其属性。

为了便于说明Ceph的一致性协议,先简要描述一下Ceph的读写处理流程:

1.2 写处理流程:

1) client把写请求发到Primary OSD上,Primary OSD将写请求序列化到一个事务中(在内存里),然后构造一条pglog记录,也序列化到这个事务中,之后再将这个事务以DirectIO的方式异步写入journal,同时Primary OSD把写请求和pglog(pglog_entry是由primary生成的)发送到Replicas上。

2) 在Primary OSD将事务写到journal上后,会通过一些列的线程和回调处理,然后将这个事务里的数据写入filesystem(只写到文件系统的缓存里,会有线程定期刷数据),同时这个事务里的pglog记录(也包括pginfo的last_complete和last_update)会写到leveldb,还有一些扩展属性相关的也在这个事务里,在遍历这个事务时也会写到leveldb

3) 在Replicas上,也进行类似于Primary的动作,先写Journal,写成功会给Primary发送一个committd ack,然后将这个事务里的数据写到filesystem, pglog与pginfo写到leveldb里,写完后会给Primary发送另外一个applied ack;

4) Primary在自己完成journal的写入时,以及在收到Replica的committed ack时都会检查是否多个副本都写入journal成功了,如果是则向client端发送ack通知写完成; primary在自己完成事务写到文件系统和leveldb后,以及在收到replica的applied ack时都会检查是否多个副本都写文件系统成功,如果是则向client端发送ack通知数据可读

1.3 读处理流程:

由于实现了强一致性,主节点和从节点的数据基本完全一致,故在读取时采用了随机的方式进行OSD的选取,然后读取对应的数据。

PGLog封装到transaction里面和journal一起写到盘上的好处:如果osd异常崩溃时,journal写完成了,但是数据有可能没有写到磁盘上,相应的pg log也没有写到leveldb里,这样在osd再启动起来时,就会进行journal replay,这样从journal里就能读出完整的transaction,然后再进行事务的处理,也就是将数据写到盘上,pglog写到leveldb里。

2. 故障恢复

Ceph在进行故障恢复的时候会经过Peering的过程。简要来说,peering就是比对各个副本上的pglog,然后根据副本上pglog的差异来构造missing列表,然后在恢复阶段就可以根据missing列表来进行恢复了。
peering是按照pg为单位进行的,在进行Peering的过程中,IO请求是会挂起的;当进行完peering阶段进入recovery阶段时,IO可以继续进行
不过当IO请求命中了missing列表的时候,对应的这个待恢复对象会优先进行恢复,当这个对象恢复完成后,再进行IO处理。

因为pglog记录数有限制,当比对各个副本上的pglog时,发现故障的副本已经落后太多,这样就无法根据pglog来恢复了,所以这种情况就只能全量恢复,称为backfill。坏盘、坏机器或者集群扩容时也会触发backfill,参见2.3 故障恢复延伸

基于pglog的一致性协议包含两种恢复过程:一个是primary挂掉后又起来的恢复; 一种是Replica挂掉后又起来的恢复。

2.1 Primary故障恢复

Ceph PGLog 一致性存储问题_第2张图片
简单起见,图中的数字就表示pglog里不同对象的版本。

1) 正常情况下,都是由Primary处理client端IO请求,这时Primary和Replicas上的last_update和last_complete都会指向pglog最新记录;

2) 当Primary挂掉后,会选出一个Replica作为“临时主”,这个“临时主”负责处理新的读写请求,并且这个时候“临时主”和剩下的Replicas上的last_complete和last_update都更新到该副本上的pglog的最新记录;

3) 当原来的Primary又重启时,会从本地读出pginfo和pglog,当发现 last_complete < last_update 时,last_complete 和 last_update 之间就可能存在丢失的对象,遍历 last_complete 到 last_update 之间的pglog记录,对于每一条记录,从本地读出该记录里对象的属性(包含本地持久化过的版本),对比最新副本的pglog记录里的对象版本与读出来的版本,如果本地读出来的对象版本小于pglog记录里的版本,说明该对象不是最新的,需要进行恢复,因此将该对象加到missing列表里;

4) Primary发起Peering过程,即“抢回原来的主”,选出权威日志,一般就是“临时主”的pglog,将该权威日志获取过来,与自己的pglog进行merge_log的步骤,构建出missing列表,并且更新自己的last_update为最新的pglog记录(与各个副本一致),这个时候last_complete与last_update之间就会加到missing列表,并且peering完成后会持久化last_complete和last_update;

5) 当有新的写入时,仍然是由Primary负责处理,会更新last_update,副本上会同时更新last_complete,与此同时,Primary会进行恢复,就是从其他副本上拉取对象数据到自己这里进行恢复,每当恢复完一个时,就会更新自己的last_complete(会持久化的),当所有对象都恢复完成后,last_complete就会追上last_update了。

6) 当恢复过程中,Primary又挂了再起来恢复时,先读出本地pglog时就会根据自己的last_complete和last_update构建出missing列表,而在peering的时候比对权威日志和本地的pglog发现权威与自己的last_update都一样,peering的过程中就没有新的对象加到missing列表里。总的来说,missing列表就是由两个地方进行构建的: 一个是osd启动的时候read_log里构建的;另一个是peering的时候比对权威日志构建的

2.2 Replica故障恢复

Ceph PGLog 一致性存储问题_第3张图片
与Primary的恢复类似,peering都是由Primary发起的,Replica起来后也会根据pglog的last_complete和last_update构建出replica自己的missing,然后Primary进行peering的时候比对权威日志(即自身)与故障replica的日志,结合replica的missing,构建出peer_missing,然后就遍历peer_missing来恢复对象。然后新的写入时会在各个副本上更新last_complete和last_update,其中故障replica上只更新last_update。恢复过程中,每恢复完一个对象,故障replica会更新last_complete,这样所有对象都恢复完成后,replica的last_complete就会追上last_update。

如果恢复过程中,故障replica又挂掉,然后重启后进行恢复的时候,也是先是读出本地pglog,对比last_complete与last_update之间的pglog记录里的对象版本与本地读出来的该对象版本,如果本地不是最新的,就会加到missing列表里,然后Primary发起peering的时候发现replica的last_update是最新的,peering过程就没有新的对象加到peering_missing列表里,peer_missing里就是replica自己的missing里的对象。

2.3 故障恢复延伸

2.3.1 临时性故障:
故障发生后,如果一定时间后重新上线故障 OSD,那么 PG 会进行以下流程:

  1. 故障 OSD 上线,通知 Monitor 并注册,该 OSD 在上线前会读取存在持久设备的 PGLog。
  2. Monitor 得知该 OSD 的旧有 id,因此会继续使用以前的 PG 分配,之前该 OSD 下线造成的 Degraded PG 会被通知该 OSD 已重新加入
  3. 这时候分为两种情况,注意这个情况下 PG 会标志自己为 Peering 状态并暂时停止处理请求:
    3.1 第一种情况是故障 OSD 所拥有的 Primary PG
    3.1.1 它作为这部分数据"权责"主体,需要发送查询 PG 元数据请求给所有属于该 PG 的 Replicate 角色节点。
    3.1.2 该 PG 的 Replicate 角色节点实际上在故障 OSD 下线时期间成为了 Primary 角色并维护了“权威”的 PGLog,该 PG 在得到故障 OSD 的 Primary PG 的查询请求后会发送回应。
    3.1.3 Primary PG 通过对比 Replicate PG 发送的元数据和 PG 版本信息后发现处于落后状态,因此它会合并得到的 PGLog并建立“权威” PGLog,同时会建立 missing 列表来标记过时数据
    3.1.4 Primary PG 在完成“权威” PGLog 的建立后就可以标志自己处于 Active 状态

    3.2 第二种情况是故障 OSD 所拥有的 Replicate PG
    3.2.1 这时上线后故障 OSD 的 Replicate PG 会得到 Primary PG 的查询请求,发送自己这份“过时”的元数据和 PGLog到Primary PG。
    3.2.2 Primary PG 对比数据后发现该 PG 落后并且过时,比通过 PGLog 建立了 missing 列表。
    3.2.3 Primary PG 标记自己处于 Active 状态

  4. PG 开始接受 IO 请求,但是 PG 所属的故障节点仍存在过时数据,故障节点的 Primary PG 会发起 Pull 请求从 Replicate 节点获得最新数据,Replicate PG 会得到其他 OSD 节点上的 Primary PG 的 Push 请求来恢复数据。
  5. 恢复完成后标记自己 Clean。

步骤三是PG 唯一不处理请求的阶段,它通常会在 1s 内完成来减少不可用时间。但是这里仍然有其他问题,比如在恢复期间故障 OSD 会维护 missing 列表,如果 IO 正好是处于 missing 列表的数据,那么 PG 会进行恢复数据的“插队”操作,主动将该 IO 涉及的数据从 Replicate PG 拉过来,提前恢复该部分数据。这个情况造成的延迟大概在几十毫米,通常来说是可接受的。

2.3.2永久性故障:
上面的流程的前提故障 OSD 在 PGLog 保存的最大条目数以内加入集群都会利用 PGLog 恢复,那么如果在 N 天之后或者发生了永久故障需要新盘加入集群时,PGLog 就无法起到恢复数据的作用,这时候就需要 backfill(全量拷贝) 流程介入。backfill 会将所有数据复制到新上线的 PG,这里的流程跟上述过程基本一致,唯一的差异就是在第三步 Primary PG 发现 PGLog 已经不足以恢复数据时,这时候同样分为两种情况:

故障 OSD 拥有 Primary PG,该 PG 在对比 PGLog 后发现需要全量拷贝数据,那么毫无疑问 Primary PG 在复制期间已经无法处理请求,它会发送一个特殊请求给 Monitor 告知自己需要全量复制,需要将 Replicate PG 临时性提升为 Primary,等到自己完成了复制过程才会重新接管 Primary 角色。
故障 OSD 拥有 Replicate PG,该 PG 的 Primary 角色会发起 backfill 流程向该 PG 复制数据,由于故障 OSD 是 Replicate 角色,因此不影响正常 IO 的处理
除此之外,恢复数据还需要涉及到恢复数据的带宽控制、优先级等细节问题,这里就不一一赘述了。

参考链接:
https://ivanzz1001.github.io/records/post/ceph/2018/12/12/ceph-pglog#22-replica%E6%95%85%E9%9A%9C%E6%81%A2%E5%A4%8D
https://blog.shunzi.tech/post/ceph-consistency/
http://emancipators69.rssing.com/chan-68285723/latest.php