13.线性索引查找---稠密索引、分块索引、倒排索引

/*
8.5 线性索引查找
前面几种比较高效的查找方法都是基于有序的基础之上的,但事实上,很多数据集可能增长非常快,
例如,某些微博网站或者一些服务器的日志信息记录。
数据结构的最终目的是提高数据的处理速度,索引是为了加快查找速度而设计的一种数据结构。
索引就是把一个关键字与它对应的记录相关联的过程,一个索引由若干个索引项构成,每个索引项
至少应包含关键字和其对应的记录再存储器中的位置等信息。索引技术是组织大型数据库以及磁盘文件的一种重要技术。

索引按照结构可以分为线性索引、树形索引和多级索引。我们这里就只介绍线性索引技术。所谓的线性索引
就是将索引项集合组织为线性结构,也成为索引表。我们重点介绍三种线性索引:稠密索引、分块索引和倒排索引。

8.5.1 稠密索引
    我母亲年纪大了,记忆力不好,经常在家里找不到东西,于是他想到了一个办法。她用一小本子记录了家里所有
小东西放置的位置,比如户口本放在右手床头柜下面抽屉中,针线放在电视柜中间的抽屉中,钞票放在衣柜...
总之,她老人家把这些小物品的放置位置都记录在了小本子上,并且每隔一段时间还按照本子整理一遍家中的物品,
用完都放回原处,这样她就几乎再没有找不到东西。
    从这件事就可以看出,家中的物品尽管是无序的,但是如果有一个小本子记录,寻找起来也是非常容易,
而这个小本子就是索引。
稠密索引是指在线性索引中,将数据集中的每个记录对应一个索引项,如下图:
稠密索引 原型图片

刚才的小例子和稠密索引还是略有不同,家里的东西毕竟少,小本子再多也就几十页,全部翻看完就几分钟时间,而
稠密索引要应对的可能是成千上万的数据,因此对于稠密索引这个索引表来说,索引项一定是按照关键码有序排列。
索引有序也就意味着,我们查找关键字时,可以用到折半、插值、斐波那契等有序查找算法,大大提高了效率。

8.5.2 分块索引
    回想下图书馆时如何藏书的。显然他不会时顺序摆放的,给我们一个稠密索引表去查,然后再找到书给你。
图书馆的图书分类摆放是一门非常完整的科学体系,而它最重要的一个特点就是分块。 
    稠密索引因为索引项于数据集的记录个数相同,所以空间代价很大。
    为了减少索引项的个数,我们可以对数据集进行分块,使其分块有序,然后再对每一块建立一个索引项,
从而减少索引项的个数。
    分块有序,是把数据集的记录分成若干块,并且这些块需要满足两个条件:
    1.块内无序,即每一块内的记录不要求有序。当然,你如果能够让块内有序对查找来说更理想,不过这就要付出
大量时间和空间的代价,因此通常我们不要求块内有序。
    2.块间有序,例如,要求第二块所有记录的关键字均要大于第一块中所有记录的关键字,第三块的所有记录的关键字
均要大于第二块的所有记录关键字.....因为只有块间有序,才有可能在查找时带来效率。

    定义分块索引的索引项结构分三个数据项:
    最大关键码,他存储每一块中最大关键字;
    存储块中的记录个数;
    用于指向块首数据元素的指针;

分块索引表中查找步骤:
    1.在分块索引表中查找要查关键字所在的块。由于分块索引表是块间有序的,因此很容易利用折半、插值等算法得到结果。
    2.根据块首指针找到相应的块,并在块中顺序查找关键码。因为块中可以是无序的,因此只能循序查找。

8.5.3 倒排索引
搜索引擎中就使用了倒排索引,无论你查什么样的信息,它都可以在极短时间内给你一些结果。

我们来看样例,现在有两篇极短的英⽂“⽂章”——其实只能算是句
⼦,我们暂认为它是⽂章,编号分别是1和2。
1.Books and friends should be few but good.(读书如交友,应求少⽽精。)
2.A good book is a good friend.(好书如挚友。)
假设我们忽略掉如“books”、“friends”中的复数“s”以及如“A”这样的⼤⼩写差异。我们可以整理出这样⼀张单词表,如表8-5-1所⽰,并将单
词做了排序,也就是表格显⽰了每个不同的单词分别出现在哪篇⽂章中,⽐如“good”它在两篇⽂章中都有出现,⽽“is”只是在⽂章2中才有

英⽂单词 ⽂章编号
a 2
and 1
be 1
book 1,2
but 1
few 1
friend 1,2
good 1,2
is 2
should 1

有了这样⼀张单词表,我们要搜索⽂章,就⾮常⽅便了。如果你在搜索框中填写“book”关键字。系统就先在这张单词表中有序查
找“book”,找到后将它对应的⽂章编号1和2的⽂章地址(通常在搜索引擎中就是⽹⻚的标题和链接)返回,并告诉你,查找到两条记录,
⽤时0.0001秒。由于单词表是有序的,查找效率很⾼,返回的⼜只是⽂章的编号,所以整体速度都⾮常快。
*/

 

你可能感兴趣的:(13.线性索引查找---稠密索引、分块索引、倒排索引)