跳表

转载自:lotabout.me


正文

跳表(skip list) 对标的是平衡树(AVL Tree),是一种 插入/删除/搜索 都是 O(log n) 的数据结构。跳跃表和二叉查找它最大的优势是原理简单、容易实现、方便扩展、效率更高。因此在一些热门的项目里用来替代平衡树,如 redis, leveldb 等。

跳表的基本思想

首先,跳表处理的是有序的链表(一般是双向链表,下图未表示双向),如下:在这里插入图片描述
这个链表中,如果要搜索一个数,需要从头到尾比较每个元素是否匹配,直到找到匹配的数为止,即时间复杂度是 O(n)。同理,插入一个数并保持链表有序,需要先找到合适的插入位置,再执行插入,总计也是 O(n) 的时间。

那么如何提高搜索的速度呢?很简单,做个索引:
在这里插入图片描述
如上图,我们新创建一个链表,它包含的元素为前一个链表的偶数个元素。这样在搜索一个元素时,我们先在上层链表进行搜索,当元素未找到时再到下层链表中搜索。例如搜索数字 19 时的路径如下图:
在这里插入图片描述
先在上层中搜索,到达节点 17 时发现下一个节点为 21,已经大于 19,于是转到下一层搜索,找到的目标数字 19。

我们知道上层的节点数目为 n/2,因此,有了这层索引,我们搜索的时间复杂度降为了:O(n/2)。同理,我们可以不断地增加层数,来减少搜索的时间:
跳表_第1张图片
在上面的 4 层链表中搜索 25,在最上层搜索时就可以直接跳过 21 之前的所有节点,因此十分高效。

更一般地,如果有 k 层,我们需要的搜索次数会小于 ⌈ n 2 k n 2 k n 2 k n2kn2k \frac{n}{2^k} n2kn2k2knL(n)层到最高层的平均节点个数。这里为了理解方便不再详细证明。

skiplist与平衡树、哈希表的比较

  • skiplist和各种平衡树(如AVL、红黑树等)的元素是有序排列的,而哈希表不是有序的。因此,在哈希表上只能做单个key的查找,不适宜做范围查找。所谓范围查找,指的是查找那些大小在指定的两个值之间的所有节点。
  • 在做范围查找的时候,平衡树比skiplist操作要复杂。在平衡树上,我们找到指定范围的小值之后,还需要以中序遍历的顺序继续寻找其它不超过大值的节点。如果不对平衡树进行一定的改造,这里的中序遍历并不容易实现。而在skiplist上进行范围查找就非常简单,只需要在找到小值之后,对第1层链表进行若干步的遍历就可以实现。
  • 平衡树的插入和删除操作可能引发子树的调整,逻辑复杂,而skiplist的插入和删除只需要修改相邻节点的指针,操作简单又快速。
    从内存占用上来说,skiplist比平衡树更灵活一些。一般来说,平衡树每个节点包含2个指针(分别指向左右子树),而skiplist每个节点包含的指针数目平均为1/(1-p),具体取决于参数p的大小。如果像Redis里的实现一样,取p=1/4,那么平均每个节点包含1.33个指针,比平衡树更有优势。
  • 查找单个key,skiplist和平衡树的时间复杂度都为O(log n),大体相当;而哈希表在保持较低的哈希值冲突概率的前提下,查找时间复杂度接近O(1),性能更高一些。所以我们平常使用的各种Map或dictionary结构,大都是基于哈希表实现的。
  • 从算法实现难度上来比较,skiplist比平衡树要简单得多。

小结

  1. 各种搜索结构提高效率的方式都是通过空间换时间得到的。
  2. 跳表最终形成的结构和搜索树很相似。
  3. 跳表通过随机的方式来决定新插入节点来决定索引的层数。
  4. 跳表搜索的时间复杂度是 O(logn),插入/删除也是。

想到快排(quick sort)与其它排序算法(如归并排序/堆排序)虽然时间复杂度是一样的,但复杂度的常数项较小;跳表的原论文也说跳表能提供一个常数项的速度提升,因此想着常数项小是不是随机算法的一个特点?这也它们大放异彩的重要因素吧。

参考:

  • ftp://ftp.cs.umd.edu/pub/skipLists/skiplists.pdf 原论文
  • https://ticki.github.io/blog/skip-lists-done-right/ skip list 的一些变种、优化
  • https://eugene-eeo.github.io/blog/skip-lists.html skip list 的一些相关复杂度分析
  • http://cglab.ca/~morin/teaching/5408/refs/p90b.pdf skip list cookbook,算是 skip list 各方面的汇总
  • 一个可以在有序元素中实现快速查询的数据结构包含 skip list 的 C++ 实现
  • Redis内部数据结构详解(6)——skiplist 图文并茂讲解 skip list,可与本文交叉对照
  • https://www.youtube.com/watch?v=2g9OSRKJuzM MIT 关于 skip list 的课程
  • https://courses.csail.mit.edu/6.046/spring04/handouts/skiplists.pdf MIT 课程讲义
  • Redis 为什么用跳表而不用平衡树?-掘金_ 张铁蕾

你可能感兴趣的:(数据结构)