The Intention Behind Web Queries

今天看了一篇论文,在以前看的很多论文中,都被引用了。题目是《The Intention Behind Web Queries》,作者是Baeza等,同样是来自雅虎。这篇论文说实话我非常没有看懂,这里只是作为一个记录,以后如果想起来了这里提到过再回过头来看看。

 

摘要

用户意图或者兴趣的识别能够让搜索引擎提供更为贴切的结果。本论文中奖要介绍一个自动识别用户兴趣的框架,他是基于查询日志的。识别有两部分组成,一个是用户的意图,另一个是目录。首先需要人工分类来作为基础,然后提供了有监督和无监督的学习方法来自动分类。结果表明,有监督效果更加的好,但是通过无监督学习却能够让我们发现用户和行为之间的关系,而这种行为通常通过查询词语来检测。有监督还有一个很重要的作用是能够通过聚类发现一些以前没有考虑进去的类别。通过有监督学习我们能够通过给出一个类别来识别用户意图,而无监督使我们能够验证这些已有的目录,从而重定义并且选择最为合适的。

 

用户意图和目录

要决定查询的冬季,通常需要分两步,一个是找到用户的意图,然后是映射这些查询到一个特定的目录。对于意图,论文建立了三个大的意图分类:信息类非信息类模糊类

另外一个用户“兴趣”识别的关键点是建立主题。这个能够帮助我们在一个特定的领域识别它,并且将其关联到一个主题。这里用到的主题是ODP,包括了(艺术、游戏、儿童等等)。

 

技术

对于有监督,论文选择的是SVM来做,无监督是PLSA(Probabilistic Latent Semantic Analysis)。对于SVM,网上有个叫做jassper的博主,写得SVM和文本分类系列非常的给力,让菜鸟都能够很容易的就看懂了。对于SVM,作者在论文里面提到的很少,而且很牵强,不知道实际操作的时候是否是这样的。首先SVM是基于结构风险最小化的,而且对于高维空间的分类效果更好。作者也说到了这一点,但是却牵强的说很适合查询分类问题。对于PLSA,我以前不是很了解,他在本问题中的作用是找出用户进行搜索的“动机”。这里也是描述的很牵强,只是简单的说了PLSA貌似对“用户兴趣”分析非常的有效。

 

实验

  • 数据集:抽样了很多的查询日志。
  • 数据预处理:一个很重要的方面是要找出这些数据中存在的关系。每个查询的预处理是将他们表示成词串,每个词有他们单独的权重,用TFIDF计算。这里的词串并非是按照查询本身来做的,而是按照每个查询的正确答案的文档来做。然后一个过程是对这些数据进行聚类,K-means,每个类别最后用一个描述。
  • 人工分类:由于先前有了聚类过程,所以这一步就比较简单一点。首先给定一个查询集合,和每个集合的类别信息。这个能够帮助一部分本身不够清晰的查询的人工分类。论文中还有很多的人工分类的结果,包括查询分类到目录,查询分类到意图等等。

 

结果分析

  • 有监督:人工分类之后,这些标注的数据一部分就要用来训练自动分类器。用SVM对测试集进行分类之后,信息类P和R都非常的好,模糊类非常的差。
  • 无监督:无监督的主要作用是要知道用户“兴趣”。一方面是是因为在真正意图到归纳意图之间的不准确,另一方面是搜索引擎提供的结果的不准确。如果能够有效地利用PLSA提供的结果,也就是能够知道给定的查询属于某一个类别的概率,就能够很好的分析每个类别的组成。他能够有助于孩子到查询和主题之间的直接或者间接的关系,然后我们就能够更好地知道用户兴趣。(这个还没有很好的理解,需要看看其他的资料)

 

结论

在本论文中,作了识别用户兴趣的第一步。从两个方面来进行了分析:用户的目的和这些目的的类别。为了识别这些兴趣,使用了人工分类,每一个查询有一个意图类别和一个分类类别。然后用了有监督和无监督的方法来进行自动识别。有监督分析中,对查询采用了一个中特殊的表示方式,然后查询变得可识别。无监督方法知道了和“娱乐”、“性”和“商务”的需要非常容易检测。

 

你可能感兴趣的:(The Intention Behind Web Queries)