深入浅出RedisTimeSeries-分布式数据库

Part 1 - 背景

Redis作为一个灵活的高性能 key-value数据结构存储，可以用来作为数据库、缓存和消息队列。Redis 对比其他 key-value缓存产品有以下特点：

Redis 支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载到内存使用。

Redis 支持字符串(String)、哈希(Hash)、列表(list)、集合(sets)和有序集合(sorted sets)等数据结构的存储。

时序数据是指一串按照时间维度索引的数据，其特点是没有严格的关系模型，记录的信息可以表示成键和值的关系，因此并不需要关系型数据库进行保存。在实际应用中，时序数据通常是持续高并发写入的。针对时序数据的这一特性，Redis基于自身数据结构和扩展模块，提供了用于保存时间序列数据的两种方案：

1、基于Hash和Sorted Set数据保存时间序列数据；

2、基于RedisTimeSeries模块实现。

1.基于Hash保存时间序列数据

基于Hash保存时间序列数据的特点是可以实现对单键的快速查询，能够满足对时间序列数据的单键查询需求。Redis的Hash实现方式是将内部存储的value作为一个HashMap，并提供了用于直接存取Map成员的接口，将时间戳作为Hash集合的key，设备状态值作为Hash集合的value，因此对数据的修改和存取都可直接通过其内部Map的Key来实现操作对应属性数据，既不需要重复存储数据，也不会带来序列化和并发修改控制的问题。

但是，基于Hash保存时间序列数据的短板在于无法支持对数据的范围查询，虽然时间序列是按照时间顺序插入Hash集合的，但是Hash类型的底层结构是Hash表，并没有实现对数据的有序索引，因此要对Hash类型进行范围查询，则需要扫描Hash集合中的所有数据，再将这些数据取回客户端进行排序，之后才能在客户端得到查询范围内的数据，查询效率很低。

2、基于Sorted Set保存时间序列数据

基于Sorted Set保存时间序列数据的特点是能够同时支持按时间戳范围的查询，能够根据元素的权重值来排序，在时序数据的情况下，将时间戳作为Sorted Set集合的权重值，后跟时间点上记录的测量数据，例如：<时间戳>:<测量值>。RedisSorte Set的内部使用Hash Map和SkipList来保证数据的存储有序，使用SkipList的结构可以保证具有较高的查询效率，并且在实现上比较简单。

但是，基于Sorted Set保存时间序列数据策略的短板在于其仅仅能支持范围查询，无法直接完成对时序数据的聚合计算。因此，只能先把时间范围内的数据取回到客户端，然后在客户端自行完成聚合计算。这个方法虽然能完成聚合计算，但是会带来一定的潜在风险，也就是大量数据在Redis实例和客户端间频繁传输，这会和其他操作命令竞争网络资源，导致其他操作变慢。因此SortedSets 不是一种节约内存的数据结构，其插入的时间复杂度是 O（log（N）），因此集群越大，写入耗时越长。

综合来讲，基于Hash和SortedSet保存时间序列的策略短板主要包含两个方面：其一是当执行聚合计算时，需要把数据读取到客户端内再进行聚合，当存在大量数据需要聚合时，数据传输开销大；其二是当使用该策略时，所有的数据会在两个数据类型中各保存一份，内存开销大。

2、基于RedisTimeSeries保存时间序列数据

RedisTimeSeries作为Redis的一个扩展模块，它弥补了Redis基于Hash和Sorted Set保存时间序列数据内存和数据传输开销大的缺陷，它专门面向时间序列数据提供了数据类型和访问接口，并且支持在Redis端上直接对数据进行时间范围的聚合计算。它使用固定大小的内存块作为时间序列样本，采用与Redis Streams 相同的Radix Tree来实现索引。RedisTimeSeries 的底层数据结构使用了链表，范围查询的复杂度是 O(N) 级别。这种基于RedisTimeSeries保存时间序列数据的策略具有以下特点：

保证大容量插入，低延迟读取；

按开始时间和结束时间查询；

支持任何时间桶的聚合查询（min、max、avg、sum、range、count、first、last）；支持配置保留时间；

下采样/压缩-自动更新的聚合时间序列；

二级索引-每个时间序列都有标签，允许按标签查询。

Part 2 - RedisTimeSeries存储结构

RedisTimeSeries将所有的时序数据存储在chunks中。每个chunks均由双向链表中的两个相关数组组成（一个用于时间戳，一个用于样本值）。每个chunks都有预定义的样本大小，当chunks填满的时候，其他数据将自动存储到下一个chunks。chunks size可以通过参数 CHUNK_SIZE进行设置。(CHUNK_SIZE的设置必须为8的倍数，默认值：4096)