【信息检索导论】第9章 相关反馈及查询扩展

9章 相关反馈及查询扩展

本章主要讨论系统中进行查询优化(query refinement)①的各种方法,包括全自动的方法和用户参与的方法。查询优化的方法主要可以分成两类:全局方法和局部方法。全局方法指的是在不考虑查询及其返回文档情况下对初始查询进行扩展和重构的方法,因此,扩展后查询中的用词变化会使得该查询与其他语义相近的查询词项相匹配。这些全局方法包括:

1. 基于同义词词典(thesaurus)②或WordNet的查询扩展或重构方法;

2. 自动构造同义词词典并基于它进行查询扩展;

3. 类似拼写校正的技术。

而局部方法则通过查询的初始匹配文档对原始查询进行修改,基本方法包括:

1. 相关反馈;

2. 伪相关反馈也称为盲相关反馈(blind relevance feedback);

3. (全局)间接相关反馈。

相关反馈

RFrelevance feedback,相关反馈)的主要思想是,在信息检索的过程中通过用户交互来提高最终的检索效果。

1. 用户提交一个简短的查询;

2. 系统返回初次检索结果;

3. 用户对部分结果进行标注,将它们标注为相关或不相关;

4. 系统基于用户的反馈计算出一个更好的查询来表示信息需求;

5. 利用新查询系统返回新的检索结果。

相关反馈算法:Rocchio相关反馈算法、基于概率的相关反馈算法

相关反馈的时机:拼写错误,跨语言IR,用户的词汇表与文档集的词汇表不匹配

web上的相关反馈:点击流数据,web链接结构也是一种隐式反馈

相关反馈的评价

1. 一个明显的策略就是,首先计算出原始查询q0 的正确率—召回率曲线,一轮相关反馈之后,我们计算出修改后的查询qm 并再次计算出新的正确率—召回率曲线

2. 利用剩余文档集(residual collection,所有文档集中除去用户判定的相关文档后的文档集)对反馈后的结果进行评价。

3. 给出两个文档集,一个用于初始查询和相关性判定,另一个用于比较和评价。因此,q0 qm 都可以在后一个文档集上进行有效对比。

伪相关反馈

伪相关反馈(pseudo relevance),也称为盲相关反馈(blind relevance feedback),提供了一种自动局部分析的方法。它将相关反馈的人工操作部分自动化,因此用户不需要进行额外的交互就可以获得检索性能的提升。该方法首先进行正常的检索过程,返回最相关的文档构成初始集,然后假设排名靠前的篇文档是相关的,最后在此假设上像以往一样进行相关反馈。

查询重构的全局方法

查询扩展

1. 使用人工编辑的一部受控词汇表

2. 使用人工编纂的同义词词典

3. 使用自动构建的同义词词典

4. 基于查询日志挖掘进行查询重构

人工构建同义词词典的代价很大,一种取代思路是通过分析文档集来自动构造这种词典。这主要有两种实现方法。一种方法是简单地使用词共现信息。我们可以认为同时出现在文档或段落中的词在某种意义上相似或者相关,这样就可以通过计算文本中的统计信息来找到最相似的词。另一种方法是采用浅层语法分析器来分析文本得到词汇之间的语法关系或语法依存性。

最简单的计算共现同义词词典的方法是基于词项之间的相似度计算。

你可能感兴趣的:(信息检索导论)