skiplist本质上也是一种查找结构,用于解决算法中的查找问题,跟平衡搜索树和哈希表的价值是一样的,可以作为key或者key/value的查找模型。那么相比而言它的优势是什么的呢?这么等我们学习完它的细节实现,我们再来对比。
skiplist是由William Pugh发明的,最早出现于他在1990年发表的论文《Skip Lists: AProbabilistic Alternative to Balanced Trees》。对细节感兴趣的同学可以下载论文原文来阅读。
skiplist,顾名思义,首先它是一个list。实际上,它是在有序链表的基础上发展起来的。如果是一个有序的链表,查找数据的时间复杂度是O(N)。
William Pugh开始的优化思路:
模拟查找过程:
例如需要查找17
17比6大,向右走,跳跃到6
6的下一个结点是nullptr,向下走
6的下一个结点是25,比17大,向下走
6的下一个结点是9,向右走,跳跃到9
9的下一个结点是17,正是要查找的值,跳跃到17
上面我们说到,skiplist插入一个节点时随机出一个层数,听起来怎么这么随意,如何保证搜索时的效率呢?
这里首先要细节分析的是这个随机层数是怎么来的。一般跳表会设计一个最大层数maxLevel的限制,其次会设置一个多增加一层的概率p。那么计算这个随机层数的伪代码如下图:
在Redis的skiplist实现中,这两个参数的取值为:
p = 1/4
maxLevel = 32
根据前面randomLevel()的伪码,我们很容易看出,产生越高的节点层数,概率越低。定量的分析
如下:
因此,一个节点的平均层数(也即包含的平均指针数目),计算如下:
现在很容易计算出:
当p=1/2时,每个节点所包含的平均指针数目为2;
当p=1/4时,每个节点所包含的平均指针数目为1.33。
跳表的平均时间复杂度为O(logN),这个推导的过程较为复杂,需要有一定的数学功底,有兴趣的
老铁,可以参考以下文章中的讲解
铁蕾大佬的博客:http://zhangtielei.com/posts/blog-redis-skiplist.html
William_Pugh大佬的论文:ftp://ftp.cs.umd.edu/pub/skipLists/skiplists.pdf
#define _CRT_SECURE_NO_WARNINGS 1
#include
#include
#include
#include
#include
using namespace std;
struct SkiplistNode
{
int _val;
vector<SkiplistNode*> _nextV;
SkiplistNode(int val, int level)
:_val(val)
, _nextV(level, nullptr)
{}
};
class Skiplist {
typedef SkiplistNode Node;
public:
Skiplist() {
srand(time(0));
// 头节点,层数是1
_head = new SkiplistNode(-1, 1);
}
bool search(int target) {
Node* cur = _head;
//从最高层开始查找
int level = _head->_nextV.size() - 1;
//到第0层如果还找不到数据,就说明不存在
while (level >= 0)
{
// 下一个结点不为nullptr并且目标值比下一个节点值要大,向右走
if (cur->_nextV[level] != nullptr && cur->_nextV[level]->_val < target)
{
// 向右走
cur = cur->_nextV[level];
}
// 下一个节点是空(尾)或者目标值比下一个节点值要小,向下走
else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val > target)
{
// 向下走
--level;
}
else
{
return true;
}
}
return false;
}
//获取插入结点的每一层的前一层结点指针
vector<Node*> FindPrevNode(int num)
{
Node* cur = _head;
int level = _head->_nextV.size() - 1;
// 插入位置每一层前一个节点指针
vector<Node*> prevV(level + 1, _head);
while (level >= 0)
{
// 目标值比下一个节点值要大,向右走
if (cur->_nextV[level] && cur->_nextV[level]->_val < num)
{
// 向右走
cur = cur->_nextV[level];
}
// 下一个节点是空(尾)或者目标值比下一个节点值要小,向下走
else if (cur->_nextV[level] == nullptr || cur->_nextV[level]->_val >= num)
{
// 更新level层前一个
prevV[level] = cur;
// 向下走
--level;
}
}
return prevV;
}
void add(int num) {
vector<Node*> prevV = FindPrevNode(num);
int n = RandomLevel();
Node* newnode = new Node(num, n);
// 如果n超过当前最大的层数,那就升高一下_head的层数
if (n > _head->_nextV.size())
{
_head->_nextV.resize(n, nullptr);
prevV.resize(n, _head);
}
// 链接前后节点
for (size_t i = 0; i < n; ++i)
{
newnode->_nextV[i] = prevV[i]->_nextV[i];
prevV[i]->_nextV[i] = newnode;
}
}
bool erase(int num) {
vector<Node*> prevV = FindPrevNode(num);
// 第一层下一个不是val,val不在表中
if (prevV[0]->_nextV[0] == nullptr || prevV[0]->_nextV[0]->_val != num)
{
return false;
}
else
{
Node* del = prevV[0]->_nextV[0];
// del节点每一层的前后指针链接起来
for (size_t i = 0; i < del->_nextV.size(); i++)
{
prevV[i]->_nextV[i] = del->_nextV[i];
}
delete del;
// 如果删除最高层节点,把头节点的层数也降一下
int i = _head->_nextV.size() - 1;
while (i >= 0)
{
if (_head->_nextV[i] == nullptr)
--i;
else
break;
}
//降低层数
_head->_nextV.resize(i + 1);
return true;
}
}
//C语言产生随机数
//int RandomLevel()
//{
// size_t level = 1;
// // rand() ->[0, RAND_MAX]之间
// while (rand() <= RAND_MAX*_p && level < _maxLevel)
// {
// ++level;
// }
// return level;
//}
//C++产生随机数
int RandomLevel()
{
static std::default_random_engine generator(std::chrono::system_clock::now().time_since_epoch().count());
static std::uniform_real_distribution<double> distribution(0.0, 1.0);
size_t level = 1;
while (distribution(generator) <= _p && level < _maxLevel)
{
++level;
}
return level;
}
private:
Node* _head;
//最大的层数
size_t _maxLevel = 32;
//出现一层的概率是1/2,出现两层的概率是1/4,出现三层的概率是1/8,以此类推
double _p = 0.5;
};
测试层数是否跟前面的概率分布大致相同:
int main()
{
vector<int> v(32, 0);
Skiplist sl;
//int max = 0;
//测试1千万次
for (size_t i = 0; i < 100000000; ++i)
{
v[sl.RandomLevel() - 1]++;
for (int i = 0; i < v.size(); ++i)
{
cout << "第" << i + 1 << "层: " << v[i] << endl;
}
cout << endl;
return 0;
}
从测试结果来看,每一层和下一层的比例大概是2:1,和我们给出的概率是相同的。