其实总结起来,自己多多少少也看了这么多的文章了,但是很多文章都是在说如何分类的事情。一个关键的问题是:如果分类出来了,有什么作用?今天找了一篇非常给力的论文,将查询意图分类应用到了查询建议中。前面也讲过一篇论文,应用的领域也是查询建议的,而且也是“面向目的”的查询建议。今天这篇论文的题目是《Intentinal Query Suggestion: Making User Goals More Explicit During Search》,翻译过来是《基于意图的查询建议:使用户的意图更加显式化,作者是Strohmaier等。
使用户的查询意图更加的显式化,显然能够提高搜索引擎的质量。相比于传统的查询扩展机制,本论文将介绍一种叫做“意图查询建议”的新方法,来使用户的意图更加的显式化。将会介绍到他的方法论以及后面的评价:搜索结果的多样化和获得更好地点击率的指标。
在IR中,查询建议的本意使减少用户查询和文档之间空白距离,也就是使用户查询和返回的文档的相似性最大化。大规的日志分析显示,很多的查询都表现出对于用户真正想要的文档的理解的缺乏。用户在很多时候对于自己的根本目的归纳并不清楚,因为他也根本不知道搜索引擎会给他返回什么。这就是最大的问题所在,所以查询扩展显得非常的重要。
该论文将要阐明的问题是:相比如搜索引擎传统的去猜测用户的查询中的词语的意思,倒不如去让用户自己显式的去说明自己的目的。我们引入了一个“意图建议”的新概念。传统的“建议”的目的是使查询更加的贴近于返回文档,但是本论文的兴趣在于“使用户的查询更加的显式化”。
可以举例说明:传统的对于“car”的扩展通常是“car rental”,"car insurance", "enterprise car retal", "car games"等。但是如果是基于意图扩展的,我们希望得到的"rent a car", "sell your car", "repair your car"等。也就是扩展更加的注重的是用户输入这个查询串的目的是什么。
本论文的研究的重点是:现在的搜索引擎怎样处理包含了明显用户意图的查询?以及基于意图的查询扩展能够怎样的影响搜索结果和点击率。本论文分为:定义“意图查询建议”,设计一个算法和做实验验证。
大部分的查询建议都需要采用返回结果以及其他的比如日志的资源来进行扩展。“意图查询建议”的最终目的就是“使用户的查询目的“显式化”。我们定义”意图查询扩展“为一个增量的过程:将一个查询转换为一个新的基于意图结构的查询。在本论文中,需要人工抽取一些意图,资源使日志。
本论文中,最初的查询将被一个意图更加明显的新的查询替代。
来自MSN搜索引擎,采用了另外一个论文中的方法来抽取一些显式意图的查询,当作是”显式意图查询集“。采用了两种方法结合来估计用户的查询意图:基于文本和基于邻居关系。其实这个说起来很玄乎,其实就是一个匹配的过程。因为有了一些抽取出来的意图集合,那么接下来的就是需要对于新来的查询进行匹配。
两个查询可以简单的看成两个句子,那么句子相似度的计算算法都可以使用,论文中采用的是Jaccard相似度,其实就是交除以并。
在基于文本的基础之上,这里还需要用刀一种基于查询日志邻近信息的相似度计算。从日志中建立一个二分图,一种节点是包含了显式意图,另一种节点是包含的隐式意图,在后面的相似度计算中就要利用这两种节点。采用领结的查询来进一步的表述和充实显式的查询。具体的过程也很简单,对于一个显式的查询qe,那么找到其前d个和后d个查询来作为他的邻居,每个查询都是一个tag的串。然后还需要定一个一个参数i来表示邻居和qe的词的交集,我们取至少交集大于i的邻居来进行扩充。论文中有一个比较形象的例子,每一个显示的查询都会用邻居来进行扩展。那么在输入一个查询之后,计算他和每个显式的查询的相似度就可以用传统的方法了。这里用邻居来进行扩展的原因就是扩展之后的每个显式查询都会有一些隐式的特征在里面。
最后将两种方法线性组合起来,就能够对于一个查询得到一个排序的显式的查询候选了。
用了人工打分的方式,对30个查询的意图建议进行分类,将他们分为体现了用户的意图和完全没有体现这两类。结果显示有71%的查询扩展都很有效。
将要讨论两种潜在的影响:搜索结果的多样化和点击率。比如现在的搜索引擎大多追求的是尽量对于一个查询包含更多的他的方面。我们可以考虑到,如果一个有显式意图的查询结果有多样性,那么经过意图建议之后的查询结果应该更加的集中。点击率通常用来评价大文档集合的相关性,我们期望的是通过让用户的查询更加的显示化,能够增加点击率。
结果用了对比的方法,一个对比是Yahoo的扩展系统,通过扩展之后的结果的平均交集大于通过意图扩展。这说明意图建议能够让搜索的结果变得更加的多样性,也就是传统的查询新引入的结果占原来结果的很小一部分。然后还对比了两种方法的各个扩展之间的区分,结果显示yahoo的各个扩展之间的交集大于意图建议的交集。这个说明了意图建议的查询能够得到更加多样化的结果,而且每个扩展的结果更加的集中。对于点击率的实验是采用了不同长度的查询的点击率。我们感兴趣的是长度是5的统计,因为经过统计显式意图集合的平均长度是5.33个词。结果显式在5个词查询中,点击率提高了30%左右。也就是结果和查询更相关,导致了更多的点击率。
这个论文将意图分类的问题用到了实际应用中。这个论文中没有涉及到一个查询的分类问题,而只是结用了“意图”这个说法,然后在“意图”的角度来改善了查询扩展或者查询建议的系统。结果显示,让用户的查询更加的显式一方面能够使查询结果更加的多样化,并且通过建议再查询能够让查询结果集中化。另一方面使能够使查询结果的点击率得到提高,也就是查询结果的相关性得到提高。