数据结构与算法之美-跳表

前言：本篇文章只是记录王争的数据结构与算法之美的学习笔记，写下来能强迫自己系统的再过一遍，加深理解。这门课以实际开发中遇到的问题为例，引入解决问题涉及到的的数据结构和算法，但不会讲的太细，最好结合一本实体书进行学习。

二分查找底层依赖的是数组随机访问的特性，所以使用数组来实现，如果数据存储于链表中，只需要对链表稍加改造，就可以支持类似“二分”的查找算法，改造之后的数据结构就叫做跳表。

1. 跳表

对于一个单链表来说，即使存储的数据是有序的，如果想要查找某个数据，也只能从头遍历链表，时间复杂度为 O(n)，如下图：

image.png

可以每两个结点提取一个结点到上一级，对链表建立一级索引，抽出来的这一级称为索引或者索引层，如下图所示：

image.png

如果查找值为 16 的结点，我们可以先在索引层遍历，当遍历到索引层中值为 13 的结点时，我们发现下一个结点是 17，那要查找的结点 16 肯定就在这两个结点之间。然后通过索引节点的 down 指针，下降到原始链表，继续遍历，这时只需要再遍历 2 个节点，就可以找到值为 16 的结点了，这样，原来如果要查找 16，需要遍历 10 个结点，现在只需要遍历 7 个结点。

如果我们在第一级索引的基础上，再次抽出一个第二级索引，这样查找时需要遍历的结点数量又减少了，如下图：

image.png

如果数据很多，可以建立很多级索引：

image.png

当链表的长度 n 比较大时，在构建索引之后，查找效率的提升就会非常明显，这种链表加多级索引的结构，就是跳表。

2. 时间复杂度

一个链表有 n 个结点，每两个结点会抽出一个结点作为上一级索引的节点，那么第一级索引的结点个数大约n/2，第二级索引的结点个数大约为n/4，那么第 k 级索引的结点个数就是 n/(2^k)。

假设索引由 h 级，最高级的索引由 2 个节点，可以得到n/(2^h) = 2，得出h=log2n-1，如果包含原始链表这一层，整个跳表的高度就是 log2n，我们在跳表中查询某个数据的时候，如果每一层都要遍历 m 个结点，那么在跳表中查询一个数据的时间复杂度就是O(m * logn)。

按照前面那种索引结构，每一级索引最多只需要遍历 3 个结点，也就是 m = 3，那么为什么是 3 呢？

假如查找的数据是 x，在第 k 级索引中，遍历到 y 结点之后，发现 x 大于 y，小于后面的结点 z，所以通过 y 的 down 指针，从第 k 级索引下降到第 k-1级索引。在第k - 1级索引中，y 和 z 之间只有 3 个节点（包含 y 和 z），所以，在 k-1级索引中最多只需要遍历 3 个结点，依次类推，每一级索引都最多只需要遍历 3 个结点，如下图：