【信息检索导论】第4章 索引构建

4章 索引构建

基于块的排序索引方法

 基于块的排序索引算法:

1. 将文档分割为几个大小相同的部分

2. 将每个部分的词项ID-文档ID排序

3. 将中间产生的临时排序结果存放到磁盘

4. 将所有的中间结果合并成最终的索引

内存式单遍扫描索引构建算法

内存式单遍扫描索引算法,使用词项而不是其ID,它将每个块的词典存入磁盘,对于下一个块则重新采用新的词典。

分布式索引构建方法

MapReduce

动态构建索引算法

最简单的索引更新方法是周期性地对文档集从头到尾开始索引重构

如果要求能够及时检测到新文档,那么可以同时保持两个索引:一个是大的索引,另一个的是小的用于存储新文档信息的辅助索引,后者保存在内存中。检索时可以同时遍历两个索引并将结果合并。每当辅助索引变得很大,就将它合并到主索引中。

你可能感兴趣的:(信息检索导论)