Determining the Unser Intent of Web Search Engine Queries

05年的一篇论文,那个时候的方法就是启发式。论文的题目《Determining the Unser Intent of Web Search Engine Queries》,翻译过来是《Web查询的用户意图识别》,作者是Jansen

 

摘要

用户意图识别由于查询的稀疏性变得非常的困难。本论文将通过大量的分析日志而抽取出每一个类别的启发式信息,并且最终得到一个自动分类器。结果显示,80%的查询都属于信息类,其他两类都相对比较小。

 

研究方面

首先是对每一个类别进行特征分离,分别抽取每个类别的特征信息。为了验证自动分类的效果,需要人工分类一大部分的日志。然后的一个研究就是在大规模日志上面的自动分类。

 

设计

对于第一步,我们需要分析大量的查询日志,然后抽取初每个类别的特征,这是一个迭代的过程“查询选择-分类-特征重定义”。对于第二个问题,将第一个问题中的特征用来分类大规模的日志。

 

结果

每个分类:

  • 导航类:公司/商务/组织/人名 域名后缀 查询长度 查看第一个结果
  • 事务类:包含了电影、歌曲、歌词、图像、笑话 包含了“获得、下载” ...
  • 信息类:包含了“ways to”,“how to”,“what is”,自然语言,信息类词语

 

然后用于大规模的人工分类的日志进行检验,80%左右的查询都属于信息类,导航类和事务类比较少。分类的准确率70%左右。

 

 

这个文章中提到的“启发式”方法在最开始的研究中应该是很自然的想法,因为分析日志你就知道,很多的查询都是有一定的查询词在里面的。对于每个类别的查询,抽取一些共同的特征,能够得到准确率很高的分类器,但是缺点还是召回率非常低。

你可能感兴趣的:(Determining the Unser Intent of Web Search Engine Queries)