【信息检索导论】第2章 词项词典及倒排记录表

2章 词项词典及倒排记录表

Tokenization是指将原始的字符流转换为一个个词条的过程。语言学预处理在于建立词条的等价类。

文档分析及编码转换

首先要判断文档的编码方式,该判断可以看作是基于机器学习的分类问题,实际中往往采用启发式方法来实现,也可以利用文档的元信息或直接由用户手工来选择。

文档单位的选择:不一定文档就是固定的索引单位,索引粒度大小对正确率和召回率有影响。

词项集合的确定

词条化

词条指的是在文档中出现的字符序列的一个实例,词项指的是信息检索系统词典中所包含的某个可能经过归一化处理的词条类。

人们总是希望对文档和查询进行同样的词条化处理。

一种非常有效的语言种类识别方法是利用短字符子序列(k-gram)作为特征来分类。

分词的方法包括:

1. 基于词典的最大匹配(利用启发式规则来进行未定义词识别)

2. 基于机器学习序列模型的方法(隐马尔可夫或随机场模型)

去除停用词

一个常见的停用词去除方法就是将词项按照文档集频率从高到低排序,去除高频词

现代的IR系统更关注如何利用语言特性来处理常见词问题

词项归一化

归一化是将看起来不完全一致的多个词条归纳成一个等价类。(1) 最常规的做法是隐式地建立等价类,每类可以用其中的某个元素来命名,然后用词条进行检索等价类。(2) 维持多个非归一化词条之间的关联关系,该方法可以扩展成手工建立同义词表。

另外一些要注意的问题:

(1) 重音和变音符号

(2) 大小写转换,一般从策略是全部转为小写。另一种做法是将部分词条转换小写(启发式处理方法: 句首词转为小写,标题中全部转为小写),也可以采用机器学习模型

(3) 日期

(4) 其他语言的问题

词干还原和词性归并

词干还原是粗略地去除前后缀的启发式过程,词性归并是利用词汇表和词性分析来去除屈折词缀,从而返回词的原型或词典中的词的过程。

英文处理中最常见的词干还原算法是Porter算法,其他的还有LovinsPaice/Hushk

基于跳表的倒排记录表快速合并算法

在构建索引的同时在倒排记录表杀死那个建立跳表,跳表指针可以跳过那些不可能出现在检索结果中的记录项。

在什么位置上放置跳表指针?这里存在一个指针个数和比较次数的折中问题。放置指针位置的简单启发式策略为:在每个sqrt(P)初均匀放置。

含位置信息的倒排记录表及短语查询

二元词索引

处理短语查询的一个办法就是将文档中每个接续词都看作一个短语。

一个更好的办法:对文本进行词条化然后进行词性标注,然后将“名词+虚词*+名词”看作一个二词项

位置信息索引

对于每个词项,以如下方式存储倒排记录:文档ID: <位置1, 位置>

位置索引可以用于邻近搜索

混合索引

后续词索引(next word index

你可能感兴趣的:(信息检索导论)