Redis基础数据结构-简单动态字符串

前言

从今天开始,从头到尾来整理一遍Redis,为了督促自己保持良好的学习习惯,打算用写文章的方式来控制自己,尽量日更。

干货开始

简单动态字符串

Redis没有直接使用C语言传统的字符串表示(以空字符结尾的字符数组,以下简称C 字符串),而是自己构建了一种名为简单动态字符串(simple dynamic string, SDS )的抽象 类型,并将SDS用作Redis的默认字符串表示。

当Redis需要的不仅仅是一个字符串字面量,而是一个可以被修改的字符串值时,Redis 就会使用SDS来表示字符串值,比如在Redis的数据库里面,包含字符串值的键值对在底层都是由SDS实现的。
除了用来保存数据库中的字符串值之外,SDS还被用作缓冲区(buffer): AOF模块中的AOF缓冲区,以及客户端状态中的输入缓冲区,都是由SDS实现的

下面是sds的定义:

struct sdshdr (

//等于SDS所保存字符串的长度
int len;

//记录buf数组中未使用字节的数量
int free;

//字节数组,用于保存字符串
char buf[];

};
image.png

下面根据书中内容来说一下为什么不直接使用C语言传统的字符串
简单来说C语言使用的简单的字符串表示方式并不能满足Redis对字符串在安全性、效率以及功能方面的要求。
那C语言和Redis字符串的区别到底是啥呢,首先来看一下他们的区别

C字符串 SDS
获取字符串长度的复杂度为O(N) 获取字符串长度的复杂度为O(1)
API是不安全的,可能会造成缓冲区溢出 API是安全的,不会造成缓冲区溢出
修改字符串长度N次必然需要执行N次内存重分配 修改字符串长度N次最多需要执行N次内存重分配
只能保存文本数据 可以保存文本或者二进制数据
可以使用所有<string.h>库中的函数 可以使用一部分<string.h>库中的函数

按照惯例,对上面表格的内容解释一波,以便于更好的理解

因为C字符串并不记录自身的长度信息,所以为了获取一个C字符串的长度,程序必须遍历整个字符串,对遇到的每个字符进行计数,直到遇到代表字符串结尾的空字符为止('\0'),这个操作的 复杂度为O(N)
和C字符串不同,因为SDS在len属性中记录了 SDS本身的长度,所以获取一个SDS长 度的复杂度仅为O(1)。

/strcat函数可以将src 字符串中的内容拼接到dest字符串的末尾:
char *strcat(char *dest, const char *src);
因为C字符串不记录自身的长度,所以假定用户在执行这个函数时,已经为 dest分配了足够多的内存,可以容纳src字符串中的所有内容,而当粗心的程序员没有为dest分配足够的内存的时候,就会产生缓冲区溢出。
与C字符串不同,SDS的空间分配策略完全杜绝了发生缓冲区溢岀的可能性:当SDS API需要对SDS进行修改时,API会先检査SDS的空间是否满足修改所需的要求,如果不满足的话,API会自动将SDS的空间扩展至执行修改所需的大小

C字符串在修改字符串长度N次必然需要执行N次内存重分配
如果执行append操作,在执行这个操作前如果没有修改底层数组的空间大小就会产生缓冲区溢出
同样,执行缩短字符串的操作,比如trim,执行之后如果没有释放字符串不再使用的空间就会产生内存泄露。
为了避免C字符串的这种缺陷,在上面SDS的结构代码中我们可以看到,SDS数组里面可以包含未使用的字节,使用free属性记录。
通过未使用空间,SDS实现了空间预分配惰性空间释放两种优化策略:

1.空间预分配
  空间预分配用于优化SDS的字符串增长操作:当SDS的API对一个SDS进行修改, 并且需要对SDS进行空间扩展的时候,程序不仅会为SDS分配修改所必须要的空间,还会为SDS分配额外的未使用空间。
  举个例子:对于2-11所示的sds值s来说,如果我们执行sdscat(s,"Cluster");  那么sdscat将执行一次内存重分配操作,将SDS的长度修改为13字节,并将SDS的未使用空间同样修改为13字节,如图2-12
如果这时,我们再次对s执行:sdscat(s,"Tutorial")
那么,这次sdscat将不需要执行内存重分配,因为free属性里面的13字节足以保存9字节的"Tutorial",执行sdscat之后的sds如图2-13
  在扩展SDS空间之前,SDS API会先检査未使用空间是否足够,如果足够的话,API 就会直接使用未使用空间,而无须执行内存重分配。
  通过这种预分配策略,SDS将连续增长N次字符串所需的内存重分配次数从必定N次 降低为最多N次

image.png

image.png

image.png

2.惰性空间释放

  惰性空间释放用于优化SDS的字符串缩短操作:当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性 将这些字节的数量记录起来.并等待将来使用。
  举个例子,sdstrim函数接受一个SDS和一个C字符串作为参数,移除SDS中所有 在C字符串中出现过的字符。
  比如对于图2-14的SDS值s来说,执行:sdstrim(s, "XY")
会将SDS修改成图2-15的样子

image.png

image.png

  注意执行sdstrim之后的SDS并没有释放多出来的8字节空间,而是将这8字节空间作为未使用空间保留在了SDS里面,如果将来要对SDS进行增长操作的话,这些未使用空间就可能会派上用场。
  举个例子,如果现在对s执行:
  sdscat(s, " Redis”);
那么完成这次sdscat操作将不需要执行内存重分配:因为SDS里面预留的8字节空 间已经足以拼接6个字节长的"Redis",如图2-16所示。
  通过惰性空间释放策略,SDS避免了缩短字符串时所需的内存重分配操作,并为将来可能有的增长操作提供了优化。

总结

SDS的优点:
  1.常数复杂度获取字符串长度。
  2.杜绝缓冲区溢出。
  3.减少修改字符串长度时所需的内存重分配次数。
  4.二进制安全。
  5.兼容部分C字符串函数。

想说的话

  之所以选择在发布是因为之前在这个平台看了不少文章觉得这个平台比较纯净,广告之类的比较少,不像某N,还挺适合做一些技术分享的。
  第一天打算开始写这些东西,效率比较低,说实话,的编辑功能太操蛋了,只有发过文章的才知道痛苦。好了今天的分享就到这里吧,写完这一篇累的半死,明天再见!

你可能感兴趣的:(Redis基础数据结构-简单动态字符串)