1.准确率和覆盖率
覆盖率。
准确率。
平均覆盖率。
平均准确率。
精度和召回率
wiki:http://en.wikipedia.org/wiki/Precision_and_recall
2.浏览距离
这个概念最早在张德的博士论文《万维网信息聚类研究》中看到。其目的是为了评价信息检索系统的易用性。
设有一个信息检索系统,在它对某个查询q返回的结果中,用户必须浏览k个文档后才能看到文档d,则称在此系统中文档d对查询q的浏览距离是browse_distance(d,q)=k,如果与查询q相关的文档集合(用户真正需要的信息)是X(q),那么称在此系统中X(q)的浏览距离是browse_distance(X (q ),q) = min{browse_distance(d,q)},d属于X。
例如,用户想寻找关于爪哇咖啡的信息。在搜索引擎中查询“Java”,得到的搜索结果大部分都是关于Java程序设计语言的,若第一个关于爪哇咖啡的文档在搜索结果列表中排在第101个,即用户必须浏览到第101个文档时才能找到白己真正需要的信息,则称该搜索
引擎对“爪哇咖啡”相关文档集合的浏览距离是101。
对大量用户的查询进行统计可以得到系统的平均浏览距离(average browse distance)。
设查询集合为Q,则系统的平均浏览距离
average_browse_distance = Σbrowse_distance(X(q), q)/|Q|
因为事后聚类能够将相关的文档放在同一个类中,用户就可以跳过不相关的类而直接浏览相关的类中的文档,所以在事后聚类一般能够缩短信息检索系统的平均浏览距离。
3.
传统的聚类算法很难评估,但在该文中,评估相对简单,因为可以将其定义为评级问题。因此我们可以使用信息检索中经典的评估方法。
其使用精确率(P)在前N个结果中,来衡量性能:
P@N = |C∩R|/|R|
其中R是其算法返回的前N个显著关键词集合,C是手工标注的正确的显著关键词集合。在其大多数实验中,使用P@5,P@10,以及P@20来评估。
4.覆盖率和重叠
上文还评测了其算法生成的簇的覆盖。从图中可以看到,平局而言,前10个显著短语的簇包含大约一半的搜索结果。这也许是其提出算法的不足,与传统的聚类算法相比。我可以进一步精炼之,通过设计更精密的簇合并算法。
上文展示了前N个簇的重合。平均,前5个簇的重叠大约是35%。意味着在100个文档中大约有65个不同的文档。前20个簇的重叠大约是60%,意味着在100个文档中大约只有40个不同的文档。
5. Question Utility: A Novel Static Ranking of Question Search
经验评估
我们的经验评估包含两个实验。一个是评估提出的方法来估计问句有用性。另一个是评估问句有用性作为问句搜索的静态评级的使用。
实验构建
源数据
我们使用从Yahoo!Answers得到的问句作为评估所用。更准确的说,我们利用在在Yahoo!Answers解决了关于travel的问句。这些问句包括310,000项左右。每个解决的问句包含3个部分:‘title’表示问句的主要信息,‘description’表示问句增加的细节,以及‘answer’。在我们的实验中,问句参考‘title’部分的文本。我们参考数据集合作为‘SRC-DAT’。
问句有用性评估数据
为了评估我们基于问句有用性的语言模型的性能,我们选择5个城市名称(Los Angles,Paris,Beijing,Seoul,以及Tokyo)作为主题,并构建一个关于这些话题的背景真相,采用以下的步骤。
首先,10个人被询问无依赖的问题,关于这5个话题。尤其,对每个话题,每个人被要求提供10个问句,是他最可能询问的,当其计划访问这个城市。结果,有100个问句被收集,考虑每个话题。我们把数据集归为SET-A。继而,一个辅佐人被要求手工选择问句,从‘SRC-DAT’,以形成背景真相(以‘SET-B’)表示,通过观察数据集‘SET-A’。一个问句被选择提供,这个问句可以被用于回答‘SET-A’的确定问题的参考。作为基本事实,我们使用‘SET-B’来评估我们的方法,为问句有用性,因为没有‘SET-A’中的问句可以在‘SRC-DAT’中找到。
我们评估方法的思想很简单:如果一个系统可以更准确的预言问句的一般有用性,有更多的机会,这个问句评级较高,以这个系统,可以覆盖很多问句相关于有用的这个,通过不同个人。
表1提供了静态统计,在背景事实‘SET-B’上。‘#related’参考相关于相应城市的问句的数目,在‘SRC-DAT’中。‘#relevant’参考‘SET-B’中问句的数目。表2分别表明了来自‘SET-A’和‘SET-B’例子。
问句搜索评估数据
为了评估问句有用性作为问句搜索的静态评级,我们随机选择100个问句从查询日志中,来自于商业搜索引擎的查询日志,继而构建一个在问句搜索上的事实。
一个查询被选择,仅当它包含超过两个单词,且相关于‘travel’领域。100个查询的平均长度是3.5个单词(去除停用词之后是2.7个单词)。表3表明了几个查询的例子,在我们的实验中。‘Frequency’是在查询日志中香型的查询的出现的次数。
对每个查询,我们使用语言模型方法【】来搜索相关的问题,从数据集‘SRC-DAT’。继而,两个辅助者被要求手工的决定前200个前关问句的相关性。为两个辅助者不同意的问句,一个附加的注解者被要求提供最终的注解。
评估策略
我们指导两个实验作为评级任务。一个实验评估我们的方法,估定问句用用性,作为一个静态评级任务。一个实验评估问句有用性的使用为搜索,是一个动态(搜索)评级任务。因此,我们使用标准的IR评估策略比如MAP,R-Precision,和P@N。
其他配置
在实验中,我们采用Porter,并移除停用词,在索引和实时搜索的阶段。作为训练语言模型,我们使用CMU-Cambridge统计语言模型工具。
结果
用语言模型估计问句有用性
对我们的语言模型方法,我们尝试两个变种:(a)unigram模型和trigram模型;(b)长度归一化或否。
以我们的观察,长问句常常询问很个人化的或者不流行的东西,其不能认为有用。因此,我们考虑评级问句的方法(对每个话题)通过问句的反转长度,可以为有竞争的基本方法。
在实验里,对每个话题(城市名),我们使用我们的方法和基准方法来评级所有的问句,从‘SRC-DAT’相关于此话题。继而,我们使用‘SET-B’来评估结果。
从表4,我们看到我们的方法基于无论是unigram语言模型还是trigram语言模型,都比基本方法好很多。更进一步,trigram语言模型比unigram语言模型好很多。