信息检索导论(第二章) 词项词典及倒排记录表

文档字符生成过程中存在编码识别问题,一般通过启发式的机器学习手段来识别或者手工选择方式来解决;

文档的“单位”:文档单位即“索引粒度”的设定往往需要根据实际情况的需求设定,粒度过大或者过小都有弊端,粒度过小,词汇都被包含在篇幅很小的段落中,遗漏了其余相关的段落后导致正确率高召回率低,粒度过大,正确率低召回率高;


词条化:将给定的字符序列拆分成一系列的子序列的过程,其中的每个子序列称作词条;

词条类:相同的词条构成的集合称作词条类;

词条化处理一般会剔除特殊字符或者进行归一化处理,往往将文档与查询的词语使用相同的方法进行归一化处理来保证查询结果的准确性;


去除停用词:去除意义不大的词项比如the,to等词汇,但是需要注意的是并不是所有情况下这些词语都是应该作为通用词而删除的!记得以前有一个思维定势,认为有些词语在任何时候都应该作为停用词去除,这种思路是错误的,例子有很多这里就不一一列举了;

词项归一化:将形式不完全一致的词项归纳、总结到同一个等价类;

常用的词项归一化方法:①采用非归一化的词条进行索引②构建索引的时候就对词进行拓展;

词条归一化常遇到的问题以及对策:

① 某些语言系统中变音符号常出现在字符中,并且不同的变音符号代表着不通的含义(如西班牙语),而在检索信息时候由于输入速度、用户惰性等原因并不输入这些变音符号;

② 大小写转换问题,一般检索系统会将用户输入的检索词汇进行统一大写转小写或小写转大写,这种方式会将原本具有专有名词的含义与其他词项含义等同,如用户检索Ferrai(法拉第)转成小写后意义已经改变;其次方式是将原本由于语法原因大写的字母还原小写;或者采用机器学习中的序列模型,基于多种特征来实现精确的大小写决策(truecasting);

③ 英语中特殊的语法习惯等等(欧洲与美国描述时间的方式不同等);


词干还原和词形归并

都是一种尝试从特定词汇寻找源词项的过程,词干还原通常使用启发式的过程通过取除单词的前后缀来还原词项的原本形式,而词项归并是一种利用词汇表和词形分析来返回原本词项的过程;

基于跳表(skip list)的倒排记录表快速合并算法

原理:在倒排记录表中存入若干个指针,若合并过程中发现指针所指结点值不满足条件则指针前的所有结点可以直接忽略,节约合并时间;其次对于指针缩放的位置、个数是一个需要考虑的问题,常采用的方式是在每个处放置指针,其中P是倒排记录的长度;


短语查询

实现短语查询的常用方式是二元接续词对,如friends romance countryman则产生了如下二元接续词对:“friends romance”和“romance countryman”,更长的查询通过AND组成的布尔查询来实现,这其中查询的短语经常会出现含有介词、虚词等词汇,通常进行词性标注后将这些词汇进行剔除后效果更好;

存在的问题:

需要扫描整个词汇表,需要为每个单词都建立索引,匹配错误可能性较大;

三元借续甚至更高的方法需要大大增加词汇表的大小;


位置信息索引

文档存储方式:文档ID:(位置1,位置2,… …);

弊端:空间消耗较大;


混合索引机制:

通常对于用户经常查询的短语即高频短语使用短语索引,其他的使用位置索引;

你可能感兴趣的:(信息检索)