信息检索之词项词典及倒排记录表

1、主要内容
    ①文档的基本组成单位及文档中确定这些单位所含字符序列的方法;
    ②词条化(把原始的字符流分成一个个的词条)和语言学预处理(建立词条的等价类);
    ③跳表倒排记录表数据结构(支持快速查询);
    ④适合于短语查询和邻近查询的索引结构(在布尔操作的检索系统和web搜索系统中非常普遍)。

2、字符序列的生成:
    ①、编码方式:Unicode、UTF-8等;
    ②、从纯文本文档中获取字符序列,如XML文档;
    ③、从二进制文档中获得字符序列,如doc或者zip或者pdf文档;
3、文档单位:[索引粒度:将书库中的每一本书作为索引单位还是每本书的每一章节?]
    ①、单个文件;
    ②、对于邮件系统的邮件目录,单个文件存放多个邮件;
    ③、如powerpoint文档以幻灯片的形式,并将每个页面存放到独立的文件中;
4、词项集合的确定:
    ①、词条话;
    ②、去听用词;
    ③、词项归一化(语言学预处理):1、相似度,比如antidiscriminatory和anti-discri minatory;2、维持多个非归一化词条之间的关联关系,比如car和automobile(可以保存一个同义词表,在查询时使用;也可以在索引建立的时候就使用同义词表,同义词所在的文档也会被索引);
    ④、词干还原和词形归并:[词干还原算法:Porter算法]。
5、基于跳表的倒排记录表快速合并算法(可了解跳表的一些性质)。
6、短语查询:

信息检索之词项词典及倒排记录表_第1张图片

    图2-11
信息检索之词项词典及倒排记录表_第2张图片
    例2-1:

你可能感兴趣的:(搜索引擎)