Determining the informational, navigational and transactional intent of web queries

一篇非常长的文章,里面的研究方法非常值得借鉴。从问题的分析,到数据的采集与加工,再到实验以及实验分析等等,都非常的详细。论文题目是《Determining the informational, navigational and transactional intent of web queries》,翻译过来是“Web查询中的信息类、导航类和事务类的识别”。作者是Jansen, Bootn 和 Spink。

 

摘要

本论文将要定义以及表述一种容易理解的对于Web查询的分类。该分类包含了3个层次,顶层仍然是信息类、事务类和导航类。然后需要对每个类别定义一些属性特征,然后建立一个能够自动将Web查询进行分类的应用。最终的结果和Border的调查结果相差比较大,80%都属于信息类,其他两个都小于10%。最终的准确率达到了74%,剩下的基本都是本身具有模糊性的。根据以往的研究表明,搜索引擎提供的不仅仅是信息类的服务,还有很多其他的一些功能,比如说导航或者想进行一些商务交易。

 

本文研究的重点是,找到一种方法,能够有效地对用户的查询进行分类。首先需要将用户查询的类别进行组织,然后每个查询用其本身的内容或者一些其他的特征来表述,也就是找特征。然后的工作就是建立一个能够自动分类的程序,并且介绍了意图分类最终能够怎么被使用。

 

相关研究

用户意图分析有三个子领域:

  • 经验学习和用户调查:这个主要是再研究的前期,主要是通过经验或者一些调查问卷的形式来收集。
  • 人工的分析日志:这个前几年研究都非常的火热,Broder对于日志的研究并且最终确定的三个分类体系影响深远。还有上一篇Rose的论文中,用到了查询者的查询,查询者的点击结果,以及查询结果来对用户查询进行分类。
  • 自动分类:上面两个都是人工的分类,但是自动分类才是最终的目的。

 

总的来说,根据前人的工作,几个趋势:

  • 已经存在了被广泛使用的分类体系;
  • 主要的研究还是在实验室内,没有大规模的真实的应用;
  • 很多的工作多多少少的加入了一些人工的分类在里面;
  • 大规模的意图自动分类研究还很少;
  • 很少的关于用户真正的意图的讨论。

 

这些都成为本论文的动机,回顾前人的工作,并且对大规模的真实的Web查询进行分类的评价,并且相信这些努力能够增强对用户查询的理解。

 

研究重点

  1. 建立一个用户查询意图的可理解的分类:通过分析大量的真实的Web搜索交互日志来建立一个更加详细的类别体系。
  2. 通过识别每个查询类别的特征来是这些类别的识别工作可行:对每个类别中的查询进行特征分离,为每个类别建立特征集合
  3. 实现自动分类:对大规模数据集的自动分类,评价其有效性。

 

研究设计

  1. Web搜索的分类:首先还是总结了前人的一些分类的经验和结论。查询本身并非是表达查询的唯一的方式,所以还需要一些额外的特征信息。比如查询的重构、垂直选择性、系统反馈和返回页面。
  2. Web查询的特征:大量的分析来自于多个搜索引擎的日志来对每个类别的特征进行抽取。除了查询本省,还需要一些额外的特性比如再一个session中的查询的顺序,查询长度,返回页面以及“垂直”(这个没有理解)。主要还是集中在Border的三个类别中,但是对于每一个类别,还需要迭代的方式抽取其子类别,这里主要抽取了3层。
  3. Web查询的自动分类:首先是数据集的问题,每个数据项包括的用户表示、Cookie、时间、查询串和源(网页、图片、视频)。然后分析和加工了这些查询,最终的目的是需要得到session中的一系列动作,这和上一篇论文是一样的。

 

结果

  1. 分类:一个3层的分类体系,顶层的仍然是导航、信息和事务。每个类别(大类或者小类),都有非常详细的定义,以及一些例子。
  2. 特征:这里抽取的特征有一点像是启发式,比如导航类,他的特征是:包含“company/business/organization/people names”等等。其他的类别也有类似的特征定义。
  3. 自动分类:对大量的真实的查询按照“特征”步骤中的进行自动分类。一个有意思的特点是80%左右的查询都是信息类,还有一些错分的比例,并且对其进行了非常详细的分析。

 

总结

总结也是非常的详细的,可以参考论文,比如论文提供的方法相比较前人的优点是什么,缺点是什么。最后还提到了如何用的问题。论文用到的特征都只是用户的查询即可,而不会牵扯到其他的一些难于获得的特征,所以能够有效地利用在搜索引擎中。一个很重要的例子就是关于商务的。商务搜索的一个子方面就是需要根据用户的查询,为用户提供一些类似于广告的匹配。如果搜索引擎能够预测到这是一个有电子商务意向的搜索,那么就可以在排序算法中加重这些具有商务内容的网页的权重。或者是在这样的情况下,还可以增加广告推广的数量和质量,而不会引起用户的反感。

 

自己的感觉是这个文章可能对我更大的作用在于这个论文的结构。分析问题,提出可能需要的步骤。解决问题,对于每个步骤设计一个合理的方法来解决。结论,对每个步骤得出一个结论并进行总结。应用方案,需要将这些算法最终用到什么地方。最后是详细的总结。整个论文的思路都非常的清晰,而且引用的论文之多,每个步骤都非常的详细。

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Determining the informational, navigational and transactional intent of web queries)