compaction 作为单机引擎rocksdb/leveldb LSM tree 实现中的一个关键步骤,用来对底层存储的SST文件中的key进行排序去重,同时对其中针对key的不同操作进行处理。总之,就是保证了底层数据存储的有序性。
接下来的compaction相关的实现细节是基于rocksdb6.4.6 版本进行的描述。
关于compaction 原理实现,看到网络上已经有很多的描述,像基本的分层实现,以及如何触发compaction 这一些基础实现就不再赘述。如果想要了解,可以参考官网rocksdb – compaction概述,以及针对默认compaction 策略level compaction 过程描述。
先描述一下整体的过程,拿之前rocksdb的一个写流程来说,如下图:
compaction是在整个写流程的右下角部分,是针对磁盘上LSM tree管理的分层结构中的SST 文件进行的处理。
看似是一个文件从输入,做了合并排序,到最后输出,其实内部实现有相当多的细节:保证key的有序,对不同类型的key(put/delete/merge)进行对应的处理,保证同一个key的不同snapshot得到合并,保证最终写入的key是按照SST 文件本身的格式写入(basedtableformat)…
为了后续能够对compaction过程中的细节描述理解的足够透彻,本篇先对SST 文件的详细格式从源码层面做一个总结。关于SST文件内部数据存储格式,rocksdb默认的是Block-BasedTable format,关于SST文件存储格式为什么要进行一些独特的细节设计呢?
LSM tree保证了数据是有序写入(memtable – skiplist),提高了写性能,但是因为其本身的分层结构,牺牲了读性能(一个key如存储在了低级别的level,从上到下每一层都要进行查找,代价极大)。所以,针对读的性能提升有了很多的优化:bloom filter(高效判读一个key是否不存在),index-filter (二分查找,消耗低内存的情况下)索引key-value数据。这一些数据都需要存储在SST文件之中,用来进行k-v数据的有序管理。
话不多说,先上图(这个图是社区block-base table类型的SST文件格式概览图)
这个是一个SST文件的格式,可以看到有如下几个区域
具体每个block的作用先说一下:
接下来详细介绍每一种存储格式:
其中Footer 的结构主要是用来索引 metaindex block 和data index block,且还有一些魔数和版本号的存储,用来确认是否是rocksdb的footer结构。
详细的存储内容以及对应数据结构 预留的存储空间大小如下:
下面的图中有一条数据记录是padding,这个是如果前面的数据不足指定大小20B,剩余空间就填充0。
这里可以看到footer 在不同的version下面使用的是不同的 存储格式。
这里的较高版本的Footer中多了一个check_sum
的类型,主要是为了保证在创建一个新的sst文件的时候(compaction的output)时,旧的SST文件仍然能够提供读。
除了check_sum 字段,主要的两个字段我们之前也提到过是要能够索引 meta index 和 index 的字段,这里面是两个BlockHandle,可以看到每个blockhandle 中有两个数据结构:offset和size ,分别存放的是对应index的偏移地址。
源码如下(format.cc Footer::EncodeTo):
// legacy footer format:
// metaindex handle (varint64 offset, varint64 size)
// index handle (varint64 offset, varint64 size)
// to make the total size 2 * BlockHandle::kMaxEncodedLength
// table_magic_number (8 bytes)
// new footer format:
// checksum type (char, 1 byte)
// metaindex handle (varint64 offset, varint64 size)
// index handle (varint64 offset, varint64 size)
// to make the total size 2 * BlockHandle::kMaxEncodedLength + 1
// footer version (4 bytes)
// table_magic_number (8 bytes)
void Footer::EncodeTo(std::string* dst) const {
assert(HasInitializedTableMagicNumber());
if (IsLegacyFooterFormat(table_magic_number())) {
// has to be default checksum with legacy footer
assert(checksum_ == kCRC32c);
const size_t original_size = dst->size();
metaindex_handle_.EncodeTo(dst);
index_handle_.EncodeTo(dst);
dst->resize(original_size + 2 * BlockHandle::kMaxEncodedLength); // Padding
PutFixed32(dst, static_cast<uint32_t>(table_magic_number() & 0xffffffffu));
PutFixed32(dst, static_cast<uint32_t>(table_magic_number() >> 32));
assert(dst->size() == original_size + kVersion0EncodedLength);
} else {
const size_t original_size = dst->size();
dst->push_back(static_cast<char>(checksum_));
metaindex_handle_.EncodeTo(dst);
index_handle_.EncodeTo(dst);
dst->resize(original_size + kNewVersionsEncodedLength - 12); // Padding
PutFixed32(dst, version());
PutFixed32(dst, static_cast<uint32_t>(table_magic_number() & 0xffffffffu));
PutFixed32(dst, static_cast<uint32_t>(table_magic_number() >> 32));
assert(dst->size() == original_size + kNewVersionsEncodedLength);
}
}
meteindex block其实是一组block,保存了多个metablock的handle ,可以用来访问具体的metablock
实现源码如下(block_based_table_builder.cc):
函数为BlockBasedTableBuilder::Finish()
可以看到这里是将对应的metablock 相关信息写入到meta_index_builder之中,最后通过finish函数固化。
finish函数实现如下:
//将builer中的数据按照格式添加的meta_inex_block中
Slice MetaIndexBuilder::Finish() {
for (const auto& metablock : meta_block_handles_) {
meta_index_block_->Add(metablock.first, metablock.second);
}
return meta_index_block_->Finish();
}
// 生成index block的格式,作为参数由以上截图中的函数WriteRawBlock写入磁盘。
Slice BlockBuilder::Finish() {
// Append restart array
for (size_t i = 0; i < restarts_.size(); i++) {
PutFixed32(&buffer_, restarts_[i]);
}
uint32_t num_restarts = static_cast<uint32_t>(restarts_.size());
BlockBasedTableOptions::DataBlockIndexType index_type =
BlockBasedTableOptions::kDataBlockBinarySearch;
if (data_block_hash_index_builder_.Valid() &&
CurrentSizeEstimate() <= kMaxBlockSizeSupportedByHashIndex) {
data_block_hash_index_builder_.Finish(buffer_);
index_type = BlockBasedTableOptions::kDataBlockBinaryAndHash;
}
// footer is a packed format of data_block_index_type and num_restarts
uint32_t block_footer = PackIndexTypeAndNumRestarts(index_type, num_restarts);
PutFixed32(&buffer_, block_footer);
finished_ = true;
return Slice(buffer_);
}
这里的filter meta block主要是用来存储bloom filter相关的数据,格式如下:
filter可能有多个,每个对应一个data block,用来确认datablock中的key数据是否存在。它是在compaction过程中生成,会为每一个datablock增加一个对应的filter block和对应的index block。
最终通过WriteFilterBlock 编码到对应的meta_index_builder之中,同时在该过程中会为所有的filter block增加一个index,这个index包含了当前编码datablock的filterblock名称,每个fiterblock的偏移地址和大小。这个index会在最后添加到filterblock所对应的meta index block之中。
以上过程实现代码如下:
这段代码是在compaction过程中期,sub_compaction线程构建的Iterator,用来对参与compaction的key进行处理。
block_based_filter_builder.cc EnterUnbuffered函数
void BlockBasedTableBuilder::EnterUnbuffered() {
...
/*针对每一个datablock,构建其filterblock和index block*/
for (size_t i = 0; ok() && i < r->data_block_and_keys_buffers.size(); ++i) {
const auto& data_block = r->data_block_and_keys_buffers[i].first;
auto& keys = r->data_block_and_keys_buffers[i].second;
assert(!data_block.empty());
assert(!keys.empty());
/*filter block的构建过程需要依据datablock中一个个key来进行*/
for (const auto& key : keys) {
if (r->filter_builder != nullptr) {
//这里只是创建存在于内存中的fitler_builder结构,且将key只是作为一个个string类型的entry保存起来
// 这个过程并未增加filter的一些算法处理,后续在WriteFilterBlock会使用当前构造好的entry通过一系列hash函数构造bloom filter功能。
r->filter_builder->Add(ExtractUserKey(key));
}
r->index_builder->OnKeyAdded(key);
}
WriteBlock(Slice(data_block), &r->pending_handle, true /* is_data_block */);
if (ok() && i + 1 < r->data_block_and_keys_buffers.size()) {
Slice first_key_in_next_block =
r->data_block_and_keys_buffers[i + 1].second.front();
Slice* first_key_in_next_block_ptr = &first_key_in_next_block;
r->index_builder->AddIndexEntry(&keys.back(), first_key_in_next_block_ptr,
r->pending_handle);
}
}
r->data_block_and_keys_buffers.clear();
}
block_based_table_builder.cc WriteFilterBlock函数
将之前收集的key的数据进行整合,按照filter本身应有的格式进行构建,并格式化到metaindex builer之中
void BlockBasedTableBuilder::WriteFilterBlock(
MetaIndexBuilder* meta_index_builder) {
BlockHandle filter_block_handle;
bool empty_filter_block = (rep_->filter_builder == nullptr ||
rep_->filter_builder->NumAdded() == 0);
if (ok() && !empty_filter_block) {
Status s = Status::Incomplete();
while (ok() && s.IsIncomplete()) {
// Finish函数 通过filter_builder中的key数据 完成多次filter content的构建,一下步骤是循环进行,直到builder数据为空
// 步骤包括:
// 1.从之前添加的key/prefix key的entries 取出数据
// 2. 针对每一条entries 通过对应filter策略(目前有full和partition两种)的hash函数
// 映射出一个能表示该key是否存在的一个值,编码到 filter之中
// 3. 清除临时取出来的entries
// 4. 将建立好的fitler的偏移量写入到filter handle之中
Slice filter_content =
rep_->filter_builder->Finish(filter_block_handle, &s);
assert(s.ok() || s.IsIncomplete());
rep_->props.filter_size += filter_content.size();
WriteRawBlock(filter_content, kNoCompression, &filter_block_handle);
}
}
// 完成之后将 filter的类型以及策略名称组合成一个key,和filter_block_handle一起添加到meta_index_builder之中
// 用来一起创建索引
if (ok() && !empty_filter_block) {
// Add mapping from ".Name" to location
// of filter data.
std::string key;
if (rep_->filter_builder->IsBlockBased()) {
key = BlockBasedTable::kFilterBlockPrefix;
} else {
key = rep_->table_options.partition_filters
? BlockBasedTable::kPartitionedFilterBlockPrefix
: BlockBasedTable::kFullFilterBlockPrefix;
}
key.append(rep_->table_options.filter_policy->Name());
meta_index_builder->Add(key, filter_block_handle);
}
}
以上详细的Finish函数的实现是在:block_based_filter_builder.cc 之中,其中还包括通过指定的hash函数创建bloom filter的过程。这里bloom filter的实现就不多说了,网络上很多人已经讲的很明白了。总之就是 能够100%确认一个key 不在当前data block之中,而概率性确认一个key存在。
大体过程如下:
此时如果我们想要在以上已有的filter之中查找eat字符串,发现e a t对应的bit位都已经被置为1了,但是本身这个字符串并不在filter对应的底层存储之中。
但是如果判断一个duck 的字符串是否存在,只要有一位不是1,那这个字符串肯定就不存在了。
所以bloom filter主要还是确认一个字符串不存在。时间复杂度是O(k),k代表输入的key的长度。
上面在介绍filter block的时候对 index block也做了一个简单的描述,上面的block_based_filter_builder.cc EnterUnbuffered函数中index block的添加和filter block是在一起的,filter 是为了过滤不存在的key,而index block则是为了加速查找key。所以,这里针对每一个data block也会创建一个index block,保存这个data block 的key的范围。
在EnterUnbuffered 也是保存一些index block所需要的key数据的enties信息。
index block的数据存储格式如下:
这里简单通过图来介绍一下 index的格式(这里的index_type是kBinarySearchWithFirstKey):
index_block 的存储格式是如上图左下角的形态,有多个1 level的index block和1个 2level的index block。 2level的index block用来索引 1 level 的index lock。
具体的1 level中的存储结构如 下部分:
以上只列举出了一个restart_point,一个1 level的index block包含多个restart_point,间隔通过index_block_restart_interval
默认1B控制,即下一个restart 距离上一个restart 间隔多少字节的偏移。一个index block的大小默认是4KB
restart_point内部的每一条record都记录的是一个类似于k-v的数据存储结构,key是data_block中的第一个key,value是当前索引的datablock 的偏移地址,大小,以及保存一个裁剪后的key(first_key),其表示当前比data_block的最后一个key小,但又比下一个data_block的起始key大 的一个前缀key。
以上的编码过程是通过AddIndexEntry实现,也就是在block_based_filter_builder.cc EnterUnbuffered函数中,添加完filter_block之后,添加index_entry
for (size_t i = 0; ok() && i < r->data_block_and_keys_buffers.size(); ++i) {
/*添加filter block entry*/
......
WriteBlock(Slice(data_block), &r->pending_handle, true /* is_data_block */);
if (ok() && i + 1 < r->data_block_and_keys_buffers.size()) {
Slice first_key_in_next_block =
r->data_block_and_keys_buffers[i + 1].second.front();
Slice* first_key_in_next_block_ptr = &first_key_in_next_block;
r->index_builder->AddIndexEntry(&keys.back(), first_key_in_next_block_ptr,
r->pending_handle);
}
}
后续统一通过WriteIndexBlock函数写入到存储之中,并添加索引信息到meta_index_builder之中
void BlockBasedTableBuilder::WriteIndexBlock(
MetaIndexBuilder* meta_index_builder, BlockHandle* index_block_handle) {
IndexBuilder::IndexBlocks index_blocks;
auto index_builder_status = rep_->index_builder->Finish(&index_blocks);
if (index_builder_status.IsIncomplete()) {
// We we have more than one index partition then meta_blocks are not
// supported for the index. Currently meta_blocks are used only by
// HashIndexBuilder which is not multi-partition.
assert(index_blocks.meta_blocks.empty());
} else if (ok() && !index_builder_status.ok()) {
rep_->status = index_builder_status;
}
if (ok()) {
for (const auto& item : index_blocks.meta_blocks) {
BlockHandle block_handle;
WriteBlock(item.second, &block_handle, false /* is_data_block */);
if (!ok()) {
break;
}
meta_index_builder->Add(item.first, block_handle);
}
}
......
}
这个block是字典压缩block,这个数据结构同样是在EnterUnbuffered 函数之中进行数据区域的创建的,这个部分的是为了节约datablock/filterblock/indexblock的存储空间而 设置的一个针对key的字典压缩后的数据存放区域。主要通过参数compression_opts.enble,compression_opts.max_dict_bytes ,compression_opts.strategy等
相关compression参数进行配置。
当前支持四种类型的字典压缩算法:
kZlibCompression, kLZ4Compression, kLZ4HCCompression, 和 kZSTDNotFinalCompression
可以通过strategy来进行配置。
大多数情况下,只有当key-value数据写入到了最后一层的时候才会开始进行压缩,且压缩的对象是SST文件最大的而且其中key-value数据最为稳定。
void BlockBasedTableBuilder::EnterUnbuffered() {
Rep* r = rep_;
assert(r->state == Rep::State::kBuffered);
r->state = Rep::State::kUnbuffered;
const size_t kSampleBytes = r->compression_opts.zstd_max_train_bytes > 0
? r->compression_opts.zstd_max_train_bytes
: r->compression_opts.max_dict_bytes;
Random64 generator{r->creation_time};
std::string compression_dict_samples;
std::vector<size_t> compression_dict_sample_lens;
if (!r->data_block_and_keys_buffers.empty()) {
while (compression_dict_samples.size() < kSampleBytes) {
size_t rand_idx =
static_cast<size_t>(
generator.Uniform(r->data_block_and_keys_buffers.size()));
size_t copy_len =
std::min(kSampleBytes - compression_dict_samples.size(),
r->data_block_and_keys_buffers[rand_idx].first.size());
compression_dict_samples.append(
r->data_block_and_keys_buffers[rand_idx].first, 0, copy_len);
compression_dict_sample_lens.emplace_back(copy_len);
}
}
// final data block flushed, now we can generate dictionary from the samples.
// OK if compression_dict_samples is empty, we'll just get empty dictionary.
std::string dict;
if (r->compression_opts.zstd_max_train_bytes > 0) {
dict = ZSTD_TrainDictionary(compression_dict_samples,
compression_dict_sample_lens,
r->compression_opts.max_dict_bytes);
} else {
dict = std::move(compression_dict_samples);
}
r->compression_dict.reset(new CompressionDict(dict, r->compression_type,
r->compression_opts.level));
r->verify_dict.reset(new UncompressionDict(
dict, r->compression_type == kZSTD ||
r->compression_type == kZSTDNotFinalCompression));
......
/*借用压缩后的key的信息, 来构造filter entry和index entry*/
最后通过WriteCompressionDictBlock 函数对最终的压缩数据进行整合固化到meta_index_builder之中。
void BlockBasedTableBuilder::WriteCompressionDictBlock(
MetaIndexBuilder* meta_index_builder) {
if (rep_->compression_dict != nullptr &&
rep_->compression_dict->GetRawDict().size()) {
BlockHandle compression_dict_block_handle;
if (ok()) {
WriteRawBlock(rep_->compression_dict->GetRawDict(), kNoCompression,
&compression_dict_block_handle);
#ifndef NDEBUG
Slice compression_dict = rep_->compression_dict->GetRawDict();
TEST_SYNC_POINT_CALLBACK(
"BlockBasedTableBuilder::WriteCompressionDictBlock:RawDict",
&compression_dict);
#endif // NDEBUG
}
if (ok()) {
meta_index_builder->Add(kCompressionDictBlock,
compression_dict_block_handle);
}
}
}
Range delete block的数据保存的是上层客户端下发的接口DeleteRange
中处于当前compaction文件中的keys以及key对应的sequence num。
这里为什么不能将range del 的k-v数据和datablock集成到一块呢?这是因为如果放到datablock中就无法对range del 的key进行二分查找了,从而无法快速判断一个key是否处于rangedel而对客户端的Get相关操作作出对应的反馈。
Range del 相关的数据获取时机是在compaction 的 ProcessKeyValueCompaction
过程中,最后的组合格式仍然还是一个标准的block存储方式。
最后通过函数进行固化,并添加到meta_index_builder之中
void BlockBasedTableBuilder::WriteRangeDelBlock(
MetaIndexBuilder* meta_index_builder) {
if (ok() && !rep_->range_del_block.empty()) {
BlockHandle range_del_block_handle;
// 写入之前,先通过Finish函数 对range_del_block数据进行格式的封装。
WriteRawBlock(rep_->range_del_block.Finish(), kNoCompression,
&range_del_block_handle);
meta_index_builder->Add(kRangeDelBlock, range_del_block_handle);
}
}
这个meta block我们之前也说过,保存了一些当前SST文件的属性信息,同时也包括其他的各个block属性数据。
属性信息的更新是在compaction的各个阶段伴随着各个block创建维护而更新的。
实现如下(具体项就不说了,函数中的变量名称已经描写的很清楚了,同时也可以使用sst_dump
指定db ,加上-show_properties 选项也能看到完整的打印信息):
void BlockBasedTableBuilder::WritePropertiesBlock(
MetaIndexBuilder* meta_index_builder) {
BlockHandle properties_block_handle;
if (ok()) {
PropertyBlockBuilder property_block_builder;
rep_->props.column_family_id = rep_->column_family_id;
rep_->props.column_family_name = rep_->column_family_name;
rep_->props.filter_policy_name =
rep_->table_options.filter_policy != nullptr
? rep_->table_options.filter_policy->Name()
: "";
rep_->props.index_size =
rep_->index_builder->IndexSize() + kBlockTrailerSize;
rep_->props.comparator_name = rep_->ioptions.user_comparator != nullptr
? rep_->ioptions.user_comparator->Name()
: "nullptr";
rep_->props.merge_operator_name =
rep_->ioptions.merge_operator != nullptr
? rep_->ioptions.merge_operator->Name()
: "nullptr";
rep_->props.compression_name =
CompressionTypeToString(rep_->compression_type);
rep_->props.compression_options =
CompressionOptionsToString(rep_->compression_opts);
rep_->props.prefix_extractor_name =
rep_->moptions.prefix_extractor != nullptr
? rep_->moptions.prefix_extractor->Name()
: "nullptr";
......
终于到了我们最后的实际存储key-value数据的部分,整个SST文件的设计可以说环环相扣,很严谨也很巧妙。
data block的存储格式如下:
一个data block中会存储多个record,每个record保存一个key-value数据。record之中按照上图detail 后面的格式进行数据的保存,这里说一下共享key,我们存储到datablock中的key-value数据都是按照key有序的,一般key都是字符串的形态。所以前一个record中的key 可能会和后面record 之中的key有公共前缀。类似于 record1的key:abcde和 record2的key:abcdh,这里的abcd就是共享key部分。
在record之后存储的是restart的点,这里restart的意思上面也说了,当共享key的长度为0 的时候当前record的偏移地址会被记为一个restart点。
为什么会有restart这样的uinit类型的存储结构呢?核心还是为了加速k-v查找,两个restart 点之间的record都是有公共前缀的,可以通过restart点快速在一个datablock中定位到存放key-value的record。
此外,还有一点可以看到rocksdb的数据存储,key和value是存放到一块的,也就是我们只要找到了key就能够找到对应的value。
触发写datablock的时机是在compaction最后一个阶段,固化key-value数据到output的文件之中的时候,会调用函数Status BlockBasedTableBuilder::Finish() 进行table builder结构的创建并按照各个block格式固化到SST文件之中。
而datablock就是在刚开始就会被Flush到存储中,过程中涉及到针对datablock的一些压缩和解压缩的过程,详细的步骤大家可以看看下面的实现。
源码实现如下:
void BlockBasedTableBuilder::Flush() {
Rep* r = rep_;
assert(rep_->state != Rep::State::kClosed);
if (!ok()) return;
if (r->data_block.empty()) return;
WriteBlock(&r->data_block, &r->pending_handle, true /* is_data_block */);
}
void BlockBasedTableBuilder::WriteBlock(BlockBuilder* block,
BlockHandle* handle,
bool is_data_block) {
WriteBlock(block->Finish(), handle, is_data_block);
block->Reset();
}
// 最终执行是通过如下函数执行
void BlockBasedTableBuilder::WriteBlock(const Slice& raw_block_contents,
BlockHandle* handle,
bool is_data_block) {
// File format contains a sequence of blocks where each block has:
// block_data: uint8[n]
// type: uint8
// crc: uint32
assert(ok());
Rep* r = rep_;
auto type = r->compression_type;
uint64_t sample_for_compression = r->sample_for_compression;
Slice block_contents;
bool abort_compression = false;
StopWatchNano timer(
r->ioptions.env,
ShouldReportDetailedTime(r->ioptions.env, r->ioptions.statistics));
......
}
到此我们对整个SST文件的格式就有了一个较为全面的了解了,为了适配LSM tree的存储方式,加速读,拥有良好的可维护和可扩展性(上面的metablock类型可以持续增加),当然也存在一定的复杂度,需要结合社区给出的wiki设计文档结合详细的源码实现来分析。
当然rocksdb本身也提供了一些工具来查看底层sst文件的结构sst_dump
,这个工具的详细用法可以参考sst_dump,编译完rocksdb的tools就可以看到这个工具了。
当我们对整个SST文件的详细存储格式有了了解之后,接下来的compaction就轻松有趣多了。
下期见~