信息检索导论 第二章 阅读笔记

1. 词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。在这个过程中,可能会同时去掉一些特殊字符,如标点符号等。

    输入:Friends, Romans, Countrymen, lend me your ears;

    输出:Friends Romans Countrymen lend me your ears (其中每个单词被称为一个词条)

2. 词条、词条类与词项

    词条:在文档中出现的字符序列的一个实例;

    词条类:相同词条构成的集合;

    词项:在信息检索系统词典中所包含的某个可能经过归一化处理的词条类。词项不一定是原始的词条,在实际中,它往往要通过对原始词条进行归一化来得到。

3. 分词(word segmentation):对于一些主要的东亚语言(如汉语、日语、韩语和泰语等),词与词之间并不存在空格,因此必须对这些语言的字符序列先进行分词。

    分词的方法包括基于词典的最大匹配法(采用启发式规则来进行未定义词识别)和基于机器学习序列模型的方法(如隐马尔科夫模型或条件随机场模型)等,后者需要

在手工切分好的语料上进行训练。另一个解决方法则摒弃了基于词的索引策略而采用短字符序列的方法(如字符的k-gram方法)。

4. 停用词(stop word):一些常用词在文档和用户需求进行匹配时价值并不大,需要彻底从词汇表中去除,这些词称为停用词。一个常用的生成停用词表的方法就是将

词项按照文档集频率从高到低排列,然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词。停用词表中的每个词将在索引过程中被忽略。使用停用词表,

可以大大减小系统所需要存储的倒排记录表的数目。但是,停用词表会对短语的搜索造成影响。在信息检索系统不断发展的历程中,有从大停用词表(200-300个词)到

小停用词表(7-12个词)最后到不用停用词的趋势。

5. 词条归一化(token normalization):将看起来不完全一致的多个词条归纳成一个等价类,以便在它们之间进行匹配的过程。

    最常规的做法是隐式地建立等价类,比如在文档和查询中,都把词条anti-discriminatory和antidiscriminatory映射成词项antidiscriminatory,这样对两个词中的

任一个进行搜索,都会返回包含其中任一词的文档。另一种建立等价类的方法是维持多个非归一化词条之间的关联关系。该方法可以扩展成手工建立同义词词表,比如car

和automobile就是同义词。

6. 出于语法上的要求,文档中常常会使用词的不同形态,语言中也存在大量意义相近的同源词。在很多情况下,如果输入其中一个词能返回包含其同源词的文档,那么这

样的搜索似乎非常有用。因此,可以进行词干还原和词形归并,减少屈折变化的形式,将派生词转化为基本形式。

7. 很多复杂的或技术性的概念、机构名和产品名等都是由多个词语组成的复合词或短语。因此,需要支持短语查询。可以考虑使用二元词索引、位置信息索引或者混合索

引机制。

 

你可能感兴趣的:(信息检索导论 第二章 阅读笔记)