读书笔记:《这就是搜索引擎》第三章

  第三章应该是本书最重要的几个章节(其它分别为第5,第6,第9)之一了。

    这一章作者讲述索引,其实也就相当于把用户进行搜索查询所会涉及到的最重要的一个环节做了解释。本章有部分内容涉及到的技术细节比较多也比较难以理解,我就直接略过了,等后续把整个搜索的大致原理弄懂了再回过头来看一遍。

1、目前主流的搜索引擎所用的索引结构基本上都是倒排索引。

2、所谓的倒排索引其实就是将文档(泛指被搜索的内容)中的所有词(去重)抽取出来保存到一个表里,这样一来,就可以快速地获取到包含某一个关键词的文档列表。

3、倒排索引主要由单词词典及倒排文件两个部分组成。

4、单词词典是指所有文档集合中出现过的所有单词的字符串集合。

5、倒排文件是指记载了出现过某个单词的所有文档的文档列表及该单词在这些文档中的位置信息的列表的组合(列表统一存放处)。

6、在实际的搜索应用领域,搜索引擎所要处理的文档是具有一定结构的,这些文档包含了各种字段,每个字段都应该单独建立一个索引表,每个字段的在搜索中的权重可能都会有所不同。比如说电商中的商品,有标题、描述、品类、品牌、促销等相关字段,在这些字段中应该是品牌的权重最高。

7、较常见的支持短语查询的技术方法包括:位置信息索引、双词索引以及短语索引3类,为了更有效地利用和计算资源,可以将3者结合使用。以电商为例,用户输入某个查询,先在人工维护的短语索引中进行查询,若找到则返回结果,若没找到则在双词索引中查找,找到则返回结果,没找到则接着在常规索引中查找。

你可能感兴趣的:(读书笔记:《这就是搜索引擎》第三章)