A web search analysis considering the intention behind queries

今天看了一个电影叫做《哈特的战争》,感觉非常好看。然后看了一篇论文,论文非常的长,看得不是非常仔细。论文名《A web search analysis considering the intention behind queries》,翻译过来是“基于查询意图的Web搜索分析”,作者是Marcelo Mendoza和Baeza-Yates,第二个作者应该非常熟悉了,雅虎的常客了。

 

摘要

隐藏在查询背后的意图识别能够有效地增加搜索引擎的搜索质量。目前两个非常重要的有利于意图分类的资源是“文本”和“点击”。这个在中文里,很多都被称为“事先”和“事后”的方法。本论文,我们需要分析能够增强意图识别理解的因素,然后还需要识别哪些因素能够准确的提升查询分类的准确率。最终的结果表明,基于“文本”本身的特征表现更好。在所有的查询里面,查询长度,片段和查询之间的Levenshtein距离和PageRank距离是汇重点考察的对象。

 

前言

这里很大的一部分工作都是基于日志的,所以和搜显需要说一下关于日志处理的一些问题。查询实例(query instance),是在一个特定的时刻提交给搜索引擎的查询,并且伴随着一些选择的返回文档。查询Session包含的是一系列的同一个用户的查询实例,要求在一个限制的时间范围类。日志就是这样一个记录在一定时间内,用户和搜索引擎交互的过程。最终,作者选取了3个类别,分别是“信息类”,“非信息类”和“模糊类”。其实这三个类别的定义和以前都差不多,只需要稍微理解就能够理解到位。其实这里一个需要理解的是,这篇论文的目的是知道哪些因素能够有效地对分类起作用,所以一个很重要的方法就是需要用图例来说明每个因素在两个类别中的分布的差异。

 

文本分析

首先讨论的还是查询的“文本”本身。第一个重点考察的是组成查询和返回文档的词汇之间的关系,结果显示没有很大的区别。另一个考察的是查询的长度,结果显示两个类别的查询此长度都在4及其以下,大于5更大的可能是信息类。最后一个考察的是查询-文档对之间的Levenshteein距离,结果显示这个因素在两个类别中也是非常的相似。

 

点击信息分析

另外一个非常重要的信息源就是点击数据了。为了得到信息和非信息类别中的点击区别,主要分析了以下因素:

  1. 在一定时间内查询数目
  2. 每个查询的查询Session
  3. 每个查询的文档选择数目
  4. 每个查询session的文档选择数目
  5. 选择文档在返回列表中的位置
  6. Pagerank值的分布
  7. nCS:对于一个查询q,点击了小于等于n个结果的session比例
  8. nRS:对于一个查询q,只点击了在前n个结果的session比例

 

论文中有非常多的散点图,对于每一个检测的因素都有非常详细的分析。从图的分析结果来看,这里的每一个因素在信息类和非信息类中的分布都非常的相似。所以从一定程度上来说,这些因素都不会给分类带来很大的影响。

 

结论

一个非常重要的结论:基于文本的因素比基于点击数据的因素在区别意图类别上有更好地表现。在所有的结果中,查询的长度,Levenshtein距离和pagerank值最有效果。最后得出的几个结论:

  1. 信息类查询和文档中的词集合比非信息类更有相关性
  2. 查询词的个数是一个很有效地区分信息和分信息的因素
  3. 查询和文档片段之间的Levenshtein(编辑)距离表明非信息类的距离要小于信息类的距离
  4. 点击数据不容易区分意图类别
  5. 查询时间的分布,非信息类查询比信息类查询更长
  6. nRS和nCS能够区别出类别,但是可能不是很明显
  7. pagerank值在非信息类中更高

 

这个论文非常的长,所以每一个因素在测评的时候都非常的详细。分类现在的确是集中在两个方面,一个是查询本身,另一个就是点击信息。这个论文对这些方法都用统一的方法,用统一的语料,用统一的分类体系来进行评测,对每个因素在不同的分类中的分布来检查每个因素对于意图分类是否有效,并且最终得出了很多非常重要的结论。

 

 

你可能感兴趣的:(Web,session,搜索引擎,search,query,文档)