Redis底层数据结构-QuickList

1、quicklist

quicklist是Redis底层最重要的数据结构之一,它是Redis对外提供的6种基本数据结构中List的底层实现,在Redis 3.2版本中引入。

在引入quicklist之前,Redis采用压缩链表ziplist以及双向链表linked-list作为List的底层实现。

当元素个数比较少并且元素长度比较小时,Redis采用ziplist作为其底层存储。
当任意一个条件不满足时,Redis采用linked-list作为底层存储结构。
这么做的主要原因是,当元素长度较小时,采用ziplist可以有效节省存储空间,但ziplist的存储空间是连续的,当元素个数比较多时,修改元素时,必须重新分配存储空间,这无疑会影响Redis的执行效率,故而采用一般的双向链表。

quicklist是综合考虑了时间效率与空间效率引入的新型数据结构。

1.1、quicklist真面目

Redis源码中对quicklist的注释为 A doubly linked list of ziplists;也就是说quicklist是由ziplist组成的双向链表,其中每一个链表节点都是一个独立的ziplist结构,因此,从结构上看,quicklist就是ziplist的升级版。

优化的关键在于,如何控制好每个ziplist的大小

quicklist的节点ziplist越小,越有可能造成更多的内存碎片。极端情况下,一个ziplist只有一个数据entry,也就退化成了linked list
quicklist的节点ziplist越大,分配给ziplist的连续内存空间越困难。极端情况下,一个quicklist只有一个ziplist,也就退化成了ziplist
因此,合理配置参数显得至关重要,不同场景可能需要不同配置;redis提供list-max-ziplist-size参数进行配置,默认-2,表示每个ziplist节点大小不超过8KB

1.2、原理分析

1.2.1、quicklistNode结构:

typedef struct quicklistNode {
 struct quicklistNode *prev;  //前一个quicklistNode
 struct quicklistNode *next;  //后一个quicklistNode
 unsigned char *zl;           //quicklistNode指向的ziplist
 unsigned int sz;             //ziplist的字节大小
 unsigned int count : 16;     //ziplist中的元素个数
 unsigned int encoding : 2;   //编码格式,原生字节数组或压缩存储
 unsigned int container : 2;  //存储方式
 unsigned int recompress : 1; //数据是否被压缩
 unsigned int attempted_compress : 1; //数据能否被压缩
 unsigned int extra : 10;     //预留的bit位
} quicklistNode;
  • prevnext指向该节点的前后节点;
  • zl指向该节点对应的ziplist结构;
  • sz代表整个ziplist结构的大小;
  • encoding代表采用的编码方式:1代表是原生的,2代表使用LZF进行压缩;
  • containerquicklistNode节点zl指向的容器类型:1代表none,2代表使用ziplist存储数据
  • recompress代表这个节点之前是否是压缩节点,若是,则在使用压缩节点前先进行解压缩,使用后需要重新压缩,此外为1,代表是压缩节点;
  • attempted_compress测试时使用;
  • extra为预留

1.2.2、quicklist结构:

quicklist作为一个链表结构,在它的数据结构中,是定义了整个quicklist 的头、尾指针,这样一来,可以通过quicklist的数据结构,来快速定位到 quicklist 的链表头和链表尾。

typedef struct quicklist {
    quicklistNode *head;   // quicklist的链表头
    quicklistNode *tail;   // quicklist的链表尾
    unsigned long count;   // 所有ziplist中的总元素个数
    unsigned long len;     // quicklistNodes的个数
    int fill : QL_FILL_BITS;  // 单独解释
    unsigned int compress : QL_COMP_BITS; // 具体含义是两端各有compress个节点不压缩
    ...
} quicklist;

fill用来指明每个quicklistNodeziplist长度,当fill为正数时,表明每个ziplist最多含有的数据项数,当fill为负数时,如下:

  • Length -1: 4k,即ziplist节点最大为4KB

  • Length -2: 8k,即ziplist节点最大为8KB

  • Length -3: 16k …

  • Length -4: 32k

  • Length -5: 64k

fill取负数时,必须大于等于-5。可以通过Redis修改参数list-max-ziplist-size配置节点所占内存大小。实际上每个ziplist节点所占的内存会在该值上下浮动。

考虑quicklistNode节点个数较多时,我们经常访问的是两端的数据,为了进一步节省空间,Redis允许对中间的quicklistNode节点进行压缩,通过修改参数list-compress-depth进行配置,即设置compress参数,该项的具体含义是两端各有compress个节点不压缩。

1.2.3、quicklistEntry结构

quicklistNodeziplist中的一个节点

typedef struct quicklistEntry {
    const quicklist *quicklist;
    quicklistNode *node;
    unsigned char *zi;
    unsigned char *value;
    long long longval;
    unsigned int sz;
    int offset;
} quicklistEntry;

其中:

  • quicklist指向当前元素所在的quicklist;
  • node指向当前元素所在的quicklistNode结构;
  • zi指向当前元素所在的ziplist;
  • value指向该节点的字符串内容;
  • longval为该节点的整型值;
  • sz代表该节点的大小,与value配合使用;
  • offset表明该节点相对于整个ziplist的偏移量,即该节点是ziplist第多少个entry

1.2.4、quicklistIter结构

quicklist中用于遍历的迭代器:

typedef struct quicklistIter {
    const quicklist *quicklist;
    quicklistNode *current;
    unsigned char *zi;
    long offset; /* offset in current ziplist */
    int direction;
} quicklistIter;
  • quicklist指向当前元素所处的quicklist;
  • current指向元素所在quicklistNode;
  • zi指向元素所在的ziplist;
  • offset表明节点在所在的ziplist中的偏移量;
  • direction表明迭代器的方向。

1.3、数据压缩

quicklist每个节点的实际数据存储结构为ziplist,这种结构的主要优势在于节省存储空间。

为了进一步降低ziplist所占用的空间,Redis允许对ziplist进一步压缩,Redis采用的压缩算法是LZF,压缩过后的数据可以分成多个片段,每个片段有2部分:

一部分是解释字段,另一部分是存放具体的数据字段。
解释字段可以占用1~3个字节,数据字段可能不存在。

LZF压缩的数据格式有3种,即解释字段有3种:

  • 000LLLLL:字面型,解释字段占用1个字节,数据字段长度由解释字段后5位决定;L是数据长度字段,数据长度是长度字段组成的字面值加1。例如:0000 0001代表数据长度为2

  • LLLooooo oooooooo:简短重复型,解释字段占用2个字节,没有数据字段,数据内容与前面数据内容重复,重复长度小于8;L是长度字段,数据长度为长度字段的字面值加2, o是偏移量字段,位置偏移量是偏移字段组成的字面值加1。例如:0010 0000 0000 0100代表与前面5字节处内容重复,重复3字节。

  • 111ooooo LLLLLLLL oooooooo:批量重复型,解释字段占3个字节,没有数据字段,数据内容与前面内容重复;L是长度字段,数据长度为长度字段的字面值加9, o是偏移量字段,位置偏移量是偏移字段组成的字面值加1。例如:1110 0000 0000 0010 0001 0000代表与前面17字节处内容重复,重复11个字节。

quicklistLZF结构:

LZF size in bytes*/
	char compressed[];
} quicklistLZF;

zs 该压缩node的的总长度
compressed压缩后的数据片段(多个),每个数据片段由解释字段和数据字段组成
当前ziplist未压缩长度存在于quicklistNode->sz字段中
当ziplist被压缩时,node->zl字段将指向quicklistLZF

1.3.1、压缩

LZF数据压缩的基本思想是:数据与前面重复的,记录重复位置以及重复长度,否则直接记录原始数据内容。

压缩算法的流程如下:遍历输入字符串,对当前字符及其后面2个字符进行散列运算,如果在Hash表中找到曾经出现的记录,则计算重复字节的长度以及位置,反之直接输出数据。

unsigned int
lzf_compress (const void *const in_data, unsigned int in_len, void *out_data, unsigned int out_len)

1.3.2、解压缩

根据LZF压缩后的数据格式,可以较为容易地实现LZF的解压缩。需要注意的是,可能存在重复数据与当前位置重叠的情况,例如在当前位置前的15个字节处,重复了20个字节,此时需要按位逐个复制。

unsigned int
lzf_decompress (const void *const in_data, unsigned int in_len, void *out_data, unsigned int out_len)

总结

基于ziplist存在的问题,要避免ziplist列表太大问题,因此将大ziplist分成一系列小的ziplist是一种思路。

quicklist是由链表组成的结构,其中每个链表节点中都存在一个ziplist。是由ziplist改进而来,充分利用链表 + ziplist特性

quicklist是一个双端队列,在队首和队尾添加元素十分方便,时间复杂度O(1)
quicklist的节点ziplist越小,越有可能造成更多的内存碎片。极端情况下,一个ziplist只有一个数据entry,也就退化成了linked list
quicklist的节点ziplist越大,分配给ziplist的连续内存空间越困难。极端情况下,一个quicklist只有一个ziplist,也就退化成了ziplist
因此,合理配置参数显得至关重要,不同场景可能需要不同配置;redis提供list-max-ziplist-size参数进行配置,默认-2,表示每个ziplist节点大小不超过8KB

你可能感兴趣的:(Redis,链表,数据结构)