jeff_0825

LevelDB 关键算法概述

•LevelDB是Google开源的一套键值存储引擎，它是受BigTable中SSTable的启发，去除了SSTable中的一些库依赖，完善了一些细节后修改而成，虽然没在BigTable中使用，但数据的格式与组织方法与SSTable基本同出一辙，目前主要在Chrome中使用。

•LevelDB是典型的LSM-Tree的实现，支持range query。

•LevelDB采用Skip-List作为内存索引，key与value可以为任意二进制序列。

•LevelDB支持快照查询。

•LevelDB支持前缀压缩与块压缩。

LSM-Tree的实现

LSM-Tree的基本思想，再记录下读文章的几点感受。

LSM思想非常朴素，就是将对数据的更改hold在内存中，达到指定的threadhold后将该批更改批量写入到磁盘，在批量写入的过程中跟已经存在的数据做rolling merge。

拿update举个例子：

比如有1000万行数据，现在希望update table.a set addr='new addr' where pk = '833'，

如果使用B-Tree类似的结构操作，就需要：

1. 找到该条记录所在的page，

2. load page到内存（如果恰好该page已经在内存中，则省略该步）

3. 如果该page之前被修改过，则先flush page to disk

4. 修改数据

上面的动作平均来说有两次disk I/O，

如果采用LSM-Tree类似结构，则：

1. 将需要修改的数据直接写入内存

可见这里是没有disk I/O的。

当然，我们要说，这样的话读的时候就费劲了，需要merge disk上的数据和memory中的修改数据，这显然降低了读的性能。

确实如此，所以作者其中有个假设，就是写入远大于读取的时候，LSM是个很好的选择。我觉得更准确的描述应该是”优化了写，没有显著降低读“，因为大部分时候我们都是要求读最新的数据，而最新的数据很可能还在内存里面，即使不在内存里面，只要不是那些更新特别频繁的数据，其I/O次数也是有限的。

所以LSM-Tree比较适合的应用场景是：insert数据量大，读数据量和update数据量不高且读一般针对最新数据。

文章读下来有以下几点感受：

1. 基本思想早就有了，作者给出了较好的表现形式。

2. Merge是page/block级别的，而不是BigTable中的文件级别的。这一点主要原因可能是BigTable在分布式场景下做block级别很困那，而且GFS也不支持修改。

3. 其提出的比较标准比较有趣，将磁盘容量，转速等结合起来给出一个以美元为单位的cost标准，然后跟B-Tree结构的实现做了比较，结果当然是大大胜出。但是这里我觉得作者有些比较是不合理的，比如LSM使用log而B-Tree没有使用，这显然对B-Tree不公，其实B-Tree如果使用log，写入性能应该不比LSM差，顺序读取可能差一些。

4. 在Multi components 中，提出Ci/Ci+1的比例达到20的时候是最优的，这个数字意义不大，但是其中的分析方法对于Merge策略的选择是个启发。

http://blog.csdn.net/heiyeshuwu/article/details/8445396

Skip-List

http://blog.csdn.net/haidao2009/article/details/8206856

Skip List是一种随机化的数据结构，基于并联的链表，其效率可比拟于二叉查找树（对于大多数操作需要O(log n)平均时间）。基本上，跳跃列表是对有序的链表增加上附加的前进链接，增加是以随机化的方式进行的，所以在列表中的查找可以快速的跳过部分列表(因此得名)。所有操作都以对数随机化的时间进行。Skip List可以很好解决有序链表查找特定值的困难。

§2 Skip List 定义以及构造步骤

Skip List定义

像下面这样（初中物理经常这样用，这里我也盗用下）：

一个跳表，应该具有以下特征：

一个跳表应该有几个层（level）组成；
跳表的第一层包含所有的元素；
每一层都是一个有序的链表；
如果元素x出现在第i层，则所有比i小的层都包含x；
第i层的元素通过一个down指针指向下一层拥有相同值的元素；
在每一层中，-1和1两个元素都出现(分别表示INT_MIN和INT_MAX)；
Top指针指向最高层的第一个元素。

构建有序链表

的一个跳跃表如下：

Skip List构造步骤：

1、给定一个有序的链表。

2、选择连表中最大和最小的元素，然后从其他元素中按照一定算法（随机）随即选出一些元素，将这些元素组成有序链表。这个新的链表称为一层，原链表称为其下一层。
3、为刚选出的每个元素添加一个指针域，这个指针指向下一层中值同自己相等的元素。Top指针指向该层首元素
4、重复2、3步，直到不再能选择出除最大最小元素以外的元素。

§3 Skip List 完整实现

下面来定义跳表的数据结构（基于C）

首先是每个节点的数据结构

         C代码   
         
 typedef  struct nodeStructure  
 {  
   
     int key;  
   
     int value;  
   
     struct nodeStructure *forward[1];  
 }nodeStructure;

跳表的结构如下

         C代码   
         
       
 typedef  struct skiplist  
 {  
   
     int level;  
   
     nodeStructure *header;  
 }skiplist;  

下面是跳表的基本操作

首先是节点的创建

         C代码   
         
 nodeStructure* createNode(int level,int key,int value)  
 {  
   
     nodeStructure *ns=(nodeStructure *)malloc(sizeof(nodeStructure)+level*sizeof(nodeStructure*));    
   
     ns->key=key;    
   
     ns->value=value;    
   
     return ns;    
 }

列表的初始化

列表的初始化需要初始化头部，并使头部每层（根据事先定义的MAX_LEVEL）指向末尾（NULL）。

         C代码   
         
 skiplist* createSkiplist()  
 {  
   
     skiplist *sl=(skiplist *)malloc(sizeof(skiplist));    
   
     sl->level=0;    
   
     sl->header=createNode(MAX_LEVEL-1,0,0);    
   
     for(int i=0;i
   
     {    
   
         sl->header->forward[i]=NULL;    
   
     }  
   
     return sl;  
 }

插入元素

插入元素的时候元素所占有的层数完全是随机的，通过随机算法产生

       C代码   
       
 int randomLevel()    
 {  
   
     int k=1;  
   
     while (rand()%2)    
   
         k++;    
   
     k=(k
   
     return k;    
 }

跳表的插入需要三个步骤，第一步需要查找到在每层待插入位置，然后需要随机产生一个层数，最后就是从高层至下插入，插入时算法和普通链表的插入完全相同。

       C代码   
       
 bool insert(skiplist *sl,int key,int value)  
 {  
   
     nodeStructure *update[MAX_LEVEL];  
   
     nodeStructure *p, *q = NULL;  
   
     p=sl->header;  
   
     int k=sl->level;  
   
     //从最高层往下查找需要插入的位置  
   
     //填充update  
   
     for(int i=k-1; i >= 0; i--){  
   
         while((q=p->forward[i])&&(q->key
   
         {  
   
             p=q;  
   
         }  
   
         update[i]=p;  
   
     }  
   
     //不能插入相同的key  
   
     if(q&&q->key==key)  
   
     {  
   
         return false;  
   
     }  
   
     //产生一个随机层数K  
   
     //新建一个待插入节点q  
   
     //一层一层插入  
   
     k=randomLevel();  
   
     //更新跳表的level  
   
     if(k>(sl->level))  
   
     {  
   
         for(int i=sl->level; i < k; i++){  
   
             update[i] = sl->header;  
   
         }  
   
         sl->level=k;  
   
     }  
   
     q=createNode(k,key,value);  
   
     //逐层更新节点的指针，和普通列表插入一样  
   
     for(int i=0;i
   
     {  
   
         q->forward[i]=update[i]->forward[i];  
   
         update[i]->forward[i]=q;  
   
     }  
   
     return true;  
 }

红色区域为辅助数组update的内容

删除节点

删除节点操作和插入差不多，找到每层需要删除的位置，删除时和操作普通链表完全一样。不过需要注意的是，如果该节点的level是最大的，则需要更新跳表的level。

       C代码   
       
 bool deleteSL(skiplist *sl,int key)  
 {  
   
     nodeStructure *update[MAX_LEVEL];  
   
     nodeStructure *p,*q=NULL;  
   
     p=sl->header;  
   
     //从最高层开始搜  
   
     int k=sl->level;  
   
     for(int i=k-1; i >= 0; i--){  
   
         while((q=p->forward[i])&&(q->key
   
         {  
   
             p=q;  
   
         }  
   
         update[i]=p;  
   
     }  
   
     if(q&&q->key==key)  
   
     {  
   
         //逐层删除，和普通列表删除一样  
   
         for(int i=0; ilevel; i++){    
   
             if(update[i]->forward[i]==q){    
   
                 update[i]->forward[i]=q->forward[i];    
   
             }  
   
         }   
   
         free(q);  
   
         //如果删除的是最大层的节点，那么需要重新维护跳表的  
   
         for(int i=sl->level-1; i >= 0; i--){    
   
             if(sl->header->forward[i]==NULL){    
   
                 sl->level--;    
   
             }    
   
         }    
   
         return true;  
   
     }  
   
     else  
   
         return false;  
 }

查找

跳表的优点就是查找比普通链表快，当然查找操作已经包含在在插入和删除过程，实现起来比较简单。

搜索key=14的示意图

       C代码   
       
 int search(skiplist *sl,int key)  
 {  
   
     nodeStructure *p,*q=NULL;  
   
     p=sl->header;  
   
     //从最高层开始搜  
   
     int k=sl->level;  
   
     for(int i=k-1; i >= 0; i--){  
   
         while((q=p->forward[i])&&(q->key<=key))  
   
         {  
   
             if(q->key==key)  
   
             {  
   
                 return q->value;  
   
             }  
   
             p=q;  
   
         }  
   
     }  
   
     return NULL;  
 }

完整代码如下：

       C代码   
       
     
 #include  
 #include  
     
 #define MAX_LEVEL 10 //最大层数  
     
 //节点  
 typedef  struct nodeStructure  
 {  
     int key;  
     int value;  
     struct nodeStructure *forward[1];  
 }nodeStructure;  
     
 //跳表  
 typedef  struct skiplist  
 {  
     int level;  
     nodeStructure *header;  
 }skiplist;  
     
 //创建节点  
 nodeStructure* createNode(int level,int key,int value)  
 {  
     nodeStructure *ns=(nodeStructure *)malloc(sizeof(nodeStructure)+level*sizeof(nodeStructure*));    
     ns->key=key;    
     ns->value=value;    
     return ns;    
 }  
     
 //初始化跳表  
 skiplist* createSkiplist()  
 {  
     skiplist *sl=(skiplist *)malloc(sizeof(skiplist));    
     sl->level=0;    
     sl->header=createNode(MAX_LEVEL-1,0,0);    
     for(int i=0;i
     {    
         sl->header->forward[i]=NULL;    
     }  
     return sl;  
 }  
     
 //随机产生层数  
 int randomLevel()    
 {  
     int k=1;  
     while (rand()%2)    
         k++;    
     k=(k
     return k;    
 }  
     
 //插入节点  
 bool insert(skiplist *sl,int key,int value)  
 {  
     nodeStructure *update[MAX_LEVEL];  
     nodeStructure *p, *q = NULL;  
     p=sl->header;  
     int k=sl->level;  
     //从最高层往下查找需要插入的位置  
     //填充update  
     for(int i=k-1; i >= 0; i--){  
         while((q=p->forward[i])&&(q->key
         {  
             p=q;  
         }  
         update[i]=p;  
     }  
     //不能插入相同的key  
     if(q&&q->key==key)  
     {  
         return false;  
     }  
     
     //产生一个随机层数K  
     //新建一个待插入节点q  
     //一层一层插入  
     k=randomLevel();  
     //更新跳表的level  
     if(k>(sl->level))  
     {  
         for(int i=sl->level; i < k; i++){  
             update[i] = sl->header;  
         }  
         sl->level=k;  
     }  
     
     q=createNode(k,key,value);  
     //逐层更新节点的指针，和普通列表插入一样  
     for(int i=0;i
     {  
         q->forward[i]=update[i]->forward[i];  
         update[i]->forward[i]=q;  
     }  
     return true;  
 }  
     
 //搜索指定key的value  
 int search(skiplist *sl,int key)  
 {  
     nodeStructure *p,*q=NULL;  
     p=sl->header;  
     //从最高层开始搜  
     int k=sl->level;  
     for(int i=k-1; i >= 0; i--){  
         while((q=p->forward[i])&&(q->key<=key))  
         {  
             if(q->key == key)  
             {  
                 return q->value;  
             }  
             p=q;  
         }  
     }  
     return NULL;  
 }  
     
 //删除指定的key  
 bool deleteSL(skiplist *sl,int key)  
 {  
     nodeStructure *update[MAX_LEVEL];  
     nodeStructure *p,*q=NULL;  
     p=sl->header;  
     //从最高层开始搜  
     int k=sl->level;  
     for(int i=k-1; i >= 0; i--){  
         while((q=p->forward[i])&&(q->key
         {  
             p=q;  
         }  
         update[i]=p;  
     }  
     if(q&&q->key==key)  
     {  
         //逐层删除，和普通列表删除一样  
         for(int i=0; ilevel; i++){    
             if(update[i]->forward[i]==q){    
                 update[i]->forward[i]=q->forward[i];    
             }  
         }   
         free(q);  
         //如果删除的是最大层的节点，那么需要重新维护跳表的  
         for(int i=sl->level - 1; i >= 0; i--){    
             if(sl->header->forward[i]==NULL){    
                 sl->level--;    
             }    
         }    
         return true;  
     }  
     else  
         return false;  
 }  
     
 void printSL(skiplist *sl)  
 {  
     //从最高层开始打印  
     nodeStructure *p,*q=NULL;  
     
     //从最高层开始搜  
     int k=sl->level;  
     for(int i=k-1; i >= 0; i--)  
     {  
         p=sl->header;  
         while(q=p->forward[i])  
         {  
             printf("%d -> ",p->value);  
             p=q;  
         }  
         printf("\n");  
     }  
     printf("\n");  
 }  
 int main()  
 {  
     skiplist *sl=createSkiplist();  
     for(int i=1;i<=19;i++)  
     {  
         insert(sl,i,i*2);  
     }  
     printSL(sl);  
     //搜索  
     int i=search(sl,4);  
     printf("i=%d\n",i);  
     //删除  
     bool b=deleteSL(sl,4);  
     if(b)  
         printf("删除成功\n");  
     printSL(sl);  
     system("pause");  
     return 0;  
 }  

§4 Skip List 概率分析

§5 小结

本篇博文已经详细讲解了Skip List数据结构的所有内容，应该可以有一个深入的了解。如果你有任何建议或者批评和补充，请留言指出，不胜感激，更多参考请移步互联网。