rockdb 原理

1.结论

(1)rocksdb根据分层触发条件触发compaction操作
(2)rocksdb 做merge后,会根据原来的sst数据文件合成新的sst,然后在checkpoint的时候,生成新的hdfs文件,删除旧sst hdfs数据文件(注:这里的rocksdb merge 和checkpoint 是两个独立的线程)

2.基础介绍

重要概念:
(1)active memtable: write append
(2)immutable memtable: read-only
(3)sst:磁盘存储

3.原理解析

(1)数据先写到memtable,当超过write_buffer_size大小后,就会将active memtable改为read only,然后重新开启一个active memtable 供新数据写入
(2)这里的memtable有两个参数,一个为:
min_write_buffer_to_merge: 默认值为1,及imutable_memtable 数量超过1后,即会触发flush操作,即写sst,落到磁盘(level 0)
max_write_buffer_to_merge: immutabl_memtable的最大数量,超过最大数量后,roksdb将发生严重错误,会停止数据写入功能
(3)marjor compactor:
各层有各自的merge触发条件:
level 0的触发条件为,文件的数量;level 1+ 层的触发条件为,该层的文件大小超过了该层允许的最大文件大小

rocksdb有单独的调度merge程序,原则就是根据各个层来计算score,及权重,score值越大,即优先处理merge

level0 compation操作:

  • 每当触发了level0 的merge条件,即会将所有的level0 文件进行统一的merge;为什么要把level 0中所有的文件进行合并了,是因为level 0 中文件的key是有交叉的;同样这里在合并时,是将level0 s所有的文件中涉及的key跟level1的相关sst文件作为输入,做merge操作(去重、删除数据等)
相关参数 说明
level0_file_num_compaction_trigger 4 当有4个未进行Compact的文件时,达到触发Compact的条件
level0_slowdown_writes_trigger 20 当有20个未进行Compact的文件时,触发RocksDB,减慢写入速度
level0_stop_writes_trigger 24 当有24个未进行Compact的文件时,触发RocksDB停止写入文件,此时会尽快的Compact Level-0层文件

level0 计算score,会先算出当前有多少个没有进行Compact 的文件个数numfiles, 然后根据这个文件的个数进行判断,当numfiles<20 时,Score = numfiles/4;当24>numfiles>=20时,Score = 10000;当 numfiles>=24时,Score = 1000000:

level1+ compaction操作:

  • 会去计算每一层未进行Compact文件的总Size,然后再和这一层的”容量值”做对比,得到一个比值,这个值就是该层的 CompactScore ,也就是说对于Level-1+层,Compact 触发条件是看这一层文件的大小而不是个数。Score = level_bytes / MaxBytesForLevel(level)
    对于Level-1+层,每一层的最大Bytes 是如何计算出来的?
    Level-1 层 文件总大小由 max_bytes_for_level_base 参数控制,而 Level-2 层的大小通过: Level_max_bytes[N] = Level_max_bytes[N-1] * max_bytes_for_level_multiplier^(N-1)*max_bytes_for_level_multiplier_additional[N-1] 计算得出:
相关参数 说明
max_bytes_for_level_base 10485760 用于指定Level-1 层总大小,超过这个值满足触发Compact条件
max_bytes_for_level_multiplier 10 每一层最大Bytes 乘法因子
max_bytes_for_level_multiplier_additional[2] 1 Level-2 层总大小调整参数
max_bytes_for_level_multiplier_additional[3] 1 Level-3 层总大小调整参数
max_bytes_for_level_multiplier_additional[4] 1 Level-4 层总大小调整参数
max_bytes_for_level_multiplier_additional[5] 1 Level-5 层总大小调整参数
max_bytes_for_level_multiplier_additional[6] 1 Level-6 层总大小调整参数

2.在进行Compact的时候,会选择哪些文件进行Compact操作呢?

对于Level-0层文件,RocksDB总是选择所有的文件进行Compact操作,因为Level-0层的文件之间,可能会有key范围的重叠。
对于Level-N (N>1)层的文件,会先按照文件大小排序(冒泡排序),选出最大的文件,并计算这个文件Key 的起止范围,通过这个范围查找Level-N+1层文件,把选出的Level-N 文件和Level-N+1 文件做为输入,并且在Level-N+1新建一个或多个SST文件作为输出。
可以通过设置max_background_compactions 大于1 来使用并行Compact,不过这个并行Compact 不能作用到Level-0层。

3.fink 使用rocksdb做增量checkpoint

那checkpoint如何来管理落盘的hdfs文件呢,在flink中有保存rocksdb和hdfs文件路径映射关系state,当rocksdb触发merge操作时,会删除旧的sst,同时生成新的sst,这样在做增量checkpoint时,会对应的删除已经删掉sst对应的hdfs文件,同时在hdfs中新增一些文件

你可能感兴趣的:(flink)