检索/搜索系统评价体系基础构建

本文主要讲解了检索系统的评价体系构建的基本方式，不涉及高深的数学公式，通过阅读可以初步了解基本概念。

一、为什么需要建立完整的检索评价体系

人们在度量事物好坏的时候，总是喜欢包含主观标记信息，这些信息都会给评价标准引入大量的复杂性、延迟和误差，我们称之为“噪声”。不好的评价指标往往充斥着人们对于所描述事物的不信任和二次猜忌，也会因此忽略了事物的某些特征而让评价指标不够全面。规则化是一个不错的概念，它能让问题的描述和考虑更加的全面、不冗余，从而构建出一个性能优越的评价体系。

在设计评价指标的时候，一定要时刻铭记5个关键点：代价成本、简洁性、可信性、准确性和因果相关性。对于这几个关键点的提升能够直接帮助后续产品的改进、用户体验的提升，也能帮我们在各种左右为难的权衡局面中做出合理和自然的取舍。

实际工作中，简单性、低成本和构造的有效性通常是对立的，通常会为了追求简单和低成本性而破坏了构造的有效性。很多公司或团队在这个方面投入了大量的人力物力，力求得到完美的平衡。结构有效性设计的一个难点在于它使用的人类标记信息，人类都具有主观偏差性，对于标签的理解都存在着主观性和差异性，所以个人在标记过程中的准则和标准都可能有所差异，例如A童鞋将这个标签标记为1，B童鞋就认为应该标记为2。

就目前而言，大多公司在追求简洁和低成本性的时候，缺少了可信性、准确性和因果相关性，所以很难根据这些客观指标去修改、完善和优化算法，进一步优化检索系统。因为我们不能保证用户反馈体现了严格数学意义上的随机抽样，因此我们可能永远无法解决这个问题，所以我们需要建立起一个完整的规则化的评价体系。

二、确定测试集构建方案

一个完整的测试集由三部分组成：文档集、查询集和相关判断集。

（一）文档集

文档集是一组文档的集和，确定了文档的规模和内容范围。该组文档被信息检索系统用来进行文字分析，它是信息系统评估的数据基础，从各种数据源中选取并整理成符合规范格式的文档，如期刊等。文档集要具有代表性与多样性，并且需要有一定规模。但不能一味增加测试集的规模，因为会使相关判断工作耗费大量人力。

（二）查询集

查询集是向信息检索系统提出问题的集和，这些问题依据检索系统和所需评估项目的不同，可以是一个或一组关键词，也可以是一段文字描述。根据文档的具体内容，将文档集划分成多个类别，然后按照类别将文档分配给若干名构建查询主题的人员，构建人员再根据具体内容来创建查询主题。最后，筛选得到的查询主题，选出比较理想的查询主题，并将其整理为统一的格式。查询集分为2类构建方式：

第一类查询内容范围比较大，此类内容需要对其定义描述，并需要列出哪些内容会与该主题相关，用来作为后续相关判断的参考，一般有多个描述及对应的答案。如“笔记本”，对应的答案应该有“笔记本的分类”，“如何使用笔记本”，“笔记本维修”等等。

第二类查询内容是一个颗粒度比较细致问题，问题本身就定义的比较清晰，一般是一些比较固定的答案，如“林肯生日”。

（三）相关判断集

相关判断集制作非常耗费时间，所以需要查询集问题的数量通常控制在几百个左右。相关判断集是对应查询集中问题所给的一组标准答案的集和，它被用来比对信息检索系统对于查询集中的问题所给出的答案。相关判断集的正确性和权威性非常重要，通常由人工手动判断获得。人工判断过程：所有相关判断的赋值工作由若干名研究员分成2组进行。分为初步判断和检查2个阶段。第1阶段,先由1组业务人员进行判断赋值。第2阶段，完成赋值后，由另一组业务人员进行检查。当2组判断工作完成后，将判断结果进行合并计算，得到相关判断集。

三、检索系统的评价指标

搜索引擎的检索效果一般可以从相应时间、查全率、查准率等方面来衡量，其中查准率和查全率又是最重要的2项指标。响应时间是用户输入检索开始查询到检索出结果的时间。查准率是指一次搜索结果集中符合用户要求的数目与该词搜索结果的总数之比。查全率是指一次搜索结果中符合用户要求的数目与用户查询相关的总数之比。一个好的搜索引擎应该具有较快的响应速度、高的查全率和查准率，或者有极大的相似度。

查准率＝检索出的相关信息量/ 检索出的信息总量查全率

查全率＝检索出的相关信息量/ 系统中的相关信息总量

查准率金额查全率是相对的，当查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

检索系统给出的答案和相关判断集中的答案越相近，则证明该检索系统的质量越高。

　　例如：在一次测试集检索中，共检出文章10篇，其中相关判断集中的文章为6篇（实际上检索问题在相关判断集中有12篇），其余的4篇为非相关文章，按照上述公式，本次检索的查准率=（6/10）×100%即60%，查全率=（6/12）×100%即50%。

　　利用上述公式，对每一次信息检索，都可计算出其查准率和查全率，对检索系统做出数据化的评价。

四、模型评测指标及展示方式

信息检索中，一般以查准率和查全率绘制P-R图的方式进行展示，也就是将测试集中每一个问题的查准率和查全率当成一个点，然后将这些点连成线。例如我测试集中的查询集有200个问题，就会将这200个问题的准确率和查全率都跑出来，如下图所示：

然后以查全率为X坐标轴，查准率为Y坐标轴，绘制成P-R图：

P-R图

P-R曲线越靠近右上角，则模型的效果越好。图上1、2两条曲线分别代表模型的两次迭代，曲线2完全包住曲线1及代表第2次迭代的效果要比第1次的效果好。

五：总结

根据笔者构建的实际经验，整个评价体系构建最难的地方在于如何构建测试集，需要根据实际业务来构建查询集和相关判断集，虽然非常耗费人工时间，但是在评价体系构建完成后，可以测量模型的性能是非常有意义的，为今后的迭代提供数据支持。

另一方面，评测指标还有ROC（接收者操作特征曲线）、对数损失等等，在实际项目中可根据自身的需要自行选择评价指标。