增量备份与CBM机制

概述

内核提供cbm(changed block map)功能,对外提供数据页面的修改情况,并向提供外部接口,根据cbm信息可直接获取两次备份之间发生对于数据文件(行存、列存)的增量修改信息,并备份。

实现原理:

数据库所有的增量修改都会记录在xlog中,通过cbm writer常驻线程,持续解析新增xlog,识别并记录下哪些数据页面被修改。

CBM writer

在startup线程刚启动时,其根据已经解析出来的cbm文件,来决定cbm writer开始解析的起始lsn位置。然后,每次执行到checkpoint末尾时,会设置cbm writer线程的latch。cbm writer线程一直在一个死循环中等待latch被设置,然后进行一轮日志解析。

强制初始化逻辑


image.png

获取解析范围

上一次结束的位置就是开始的位置。

结束位置,要么是最近的checkpoint重做点位置,要么是强制刷新的CBM位置。

关键结构

Hash表

image.png

CbmPageHeader

typedef struct cbmpageheader {

    pg_crc32c pageCrc;

    bool isLastBlock;

    uint8 pageType;

    XLogRecPtr pageStartLsn;

    XLogRecPtr pageEndLsn;

    RelFileNode rNode;

    ForkNumber forkNum;

    BlockNumber firstBlkNo;

    BlockNumber truncBlkNo;

} CbmPageHeader;

解析过程

插入hash表

  1. 按page读取xlog

  2. 对page里所有修改的block进行遍历

  3. 按照这个顺序找到自己在hash表中的位置插入,HashEntry -> segEntry -> pageEntry

刷盘

  1. 获取一个HashEntry上的所有page

  2. 按照firstBlkNo从小到大进行排序

  3. 刷入磁盘文件

CBM文件

cbm文件保存在data目录的pg_cbm文件夹下,命名方式为:pg_xlog_seqnum_startlsn_endlsn.cbm。

其中,seqnum表示这是第几个cbm文件,当一个cbm文件的大小超过128M时,将会切换到下一个cbm文件,并将seqnum加1,。startlsn为本cbm文件内容对应xlog记录的起始lsn,endlsn为本cbm文件切换时最后一次解析的截止lsn。若一个cbm文件还没有切换,那么endlsn为0。

cbm文件中一个page是512个字节。其中头文件56个字节(已经字节对齐)。可用字节为456个字节,每个字节可以表示8个block的变更,那么一个page就可以表示3648个变更的block。1G文件,用4个page就可以完全表示所有变更的block。

image.png

增量备份

  1. 首先用pg_cbm_tracked_location函数获取已经track的cbm的LSN号作为end LSN,获取父备份的start LSN作为start LSN。(?为啥不是stop)

  2. 然后调用pg_cbm_get_changed_block(start_LSN, end_LSN)可以获取文件路径,改变的block数量,和block no列表。

  3. pg_cbm_get_changed_block操作首先读取所有cbm文件,选择LSN在范围内的page(通过pageHeader)。

  4. 然后将这些page组成上面一样的Hash(组成hash的过程其实也就在进行合并),最后再把这些整个hash转为一个数组返回。

你可能感兴趣的:(增量备份与CBM机制)