2.1 Redis-简单动态字符串(SDS)

 SDS(simple dynamic string):简单动态字符串,Redis没有使用C语言中字符串(空字符'\0'结尾字符数组),而是构建了sds作为默认的字符串表示。

 redis中使用C语言字符串作为不可修改的字面量,例如打印日志;sds不仅作为字面量还可以作为修改的字符串值,缓冲区等。
结构定义:

struct sdshdr {
    // len=记录buf数组中已使用字节的数量=sds保存字符串的长度
    int len;
    // 记录buf数组中未使用字节的数量
    int free;
    // 字节数组,用于保存字符串
    char buf[];
};

图解:

1.1.1动态字符串示意图.png
如1.1.1 动态字符串示意图所示
  free=0:表示不存在未使用字节;
  len=5:表示存储了5个字符;
  buf:表示char类型数组,分别保存'R'、'e'、d、'i'、's',最后一个字节保留了'\0',sds遵循C语言中已'\0'结尾,1字节不会保存在sds中len属性,会额外分配内存,添加'\0'可以让sds重用部分C语言中的函数。

sds与C字符串区别:
1. O(1)复杂度获得字符串长度
  C字符串本身没有记录字符串长度,需要整体遍历(时间复杂度O(n))字符串才能获得字符串长度。
  sds中len保存已存字符的长度,访问len对应值获得字符串长度,时间复杂度为O(1)。
2. 去除字符串溢出的危险
  C字符串容易造成缓冲区溢出,如果修改字符串时,没有考虑到字符串长度,执行函数时会溢出,造成原先字符串内容丢失。例如用原字符串S1保存"Redis",S2保存"MongoDB",在不考虑字符串溢出情况下,使用"Redis Cluster"替换字符串"Redis"会造成字符串溢出导致S2字符串被修改。

1.1.2 C字符串溢出情况.png
  sds空间分配策略去除字符串溢出的危险,sds需要修改时,对应的API会首先检查空间是否满足需求,不满足会自动进行扩容到可以完成操作的空间大小,然后进行字符串修改。扩容时增加len大小。
3. 减少修改字符导致内存重分配的次数
  上面说到扩容会增加len的大小,增加多少呢?有扩容就会有对应空间回收,怎样回收呢?
  sds通过free(未使用的)解除len(字符串长度)和底层数据的关系。在C字符串中,每次修改字符串要保证字符串和底层数组对应,不然会造成字符串溢出,简单解释上面的两个问题。redis是高性能键值缓存数据库,修改经常频繁发生,如果采用C字符串会带来效率底下问题,sds通过未使用空间,采用空间预分配和惰性空间释放解决上面的问题。
  空间预分配:在扩容分配时,不仅会分配需要的空间还会分配额外未使用的空间。具体的分配方式如下:
   当len<=1M,分配后的free(未使用空间)=len(sds保存字符串的长度);
   当len>1M,free(未使用空间)=1M。
  通过预分配空间,由原连续增长N次需要分配N次空间,现在改变到至多增加N次空间,减少内存重分配次数。
  惰性删除:当sds字符串缩短时,并不立即回收空间,而是把len减少的空间加到free中,等待以后使用。通过惰性删除减少了因字符串缩短带来的空间重分配。在合适的时候,redis会释放sds未使用的空间,不会造成内存浪费。
4. 二进制安全
  C字符串因为是'\0'作为结束符,因此在字符传中不能包含空字符串,这限制了C字符串不能保存二进制流。
  sds使用len值而不是空字符串判断字符串作为结束符,因此可安全保存二进制。
5. 重用C函数
  sds使用API在字符串最后添加空字符('\0'),让sds可以重用部分C函数,避免代码重复。

小结:
  1. C字符串只在字面量中使用,大多数使用SDS作为字符串表示
  2. SDS相较于C字符串有以下优点
     ① len保存存储字符串长度,因此O(1)时间复杂度获得字符串长度;
     ② API自动扩展内存,去除字符串溢出的危险;
     ③ 采用空间预分配和惰性删除减少空间重新分配;
     ④ sds字符串使用len计算结尾,二进制安全;
     ⑤ sds以'\0'结尾,可以使用部分C函数;

你可能感兴趣的:(2.1 Redis-简单动态字符串(SDS))