测评师说书第三：你的测评靠谱吗？

书接前回，上回书我们说到，工作分析对选对测评工具、用好测评结果的重要性，可以说无分析，不测评！工作分析帮我们解决了要测什么、选择什么类别的测评、评价标准如何的问题。

接下来就要选定测评工具，开始真正的实施测评了，那么问题又来了，你选的测评工具靠谱吗？如何来衡量一个测评工具是否靠谱呢？这一回书，给大家介绍三个心理测试领域的“大咖”，常模、信度和效度。

信度、效度代表心理测试问卷的可靠性和有效性，常模为心理测评结果提供了标准化的对照组，通过对比，测评结果能够得到清晰的解释，水平高下立见！可以说，这几个因素是一个心理测试项目中“看不见的影响力”。

小伙伴们会问，说了半天，那这几个因素到底是怎么影响心理测试的成功率呢？我们先来看看官方解释：

常模——提供可供比较的分数标准，用来解释心理测量的结果。这一步通过将原始分数与常模比较，转换成等值的标准分数来实现素质或特点的解释。

信度——即心理测评工具的可靠性，即测评结果能否代表被试者一致、稳定和真实的特点，这是对测评工具的基本要求，如果测评工具的信度不理想，则测评结果不可靠，信度的高低通常以相关系数来表示。

效度——即心理测评工具的有效性，即测评能在多大程度上反映要测评的目标。如果一个测验效度低，那么无论其信度有多高，这个测验都没有应用价值，相反，如果一个测验效度高，那么它的信度也会高。

哎呀！不说还好，被小编这么一说，很多小伙伴表示，更晕了！

别着急，我们是测评师说书栏目，我们来举几个“栗子”说明这三个因素对心理测评的重要性！

如前所述，常模在心理测评的分数解释中起到比较组的作用。

哎呀呀，说好的“栗子”呢？好了，好了，“栗子”来了：

我们以学校的考试为例，在一次数学考试中，初二（3）班小明得了102分。乍一听到102分，你会怎么看这个成绩呢？比100分还多2分，感觉不错啊！应该是非常棒的成绩吧？其实……这次的考试总分150分，平均分125分，小明的102分，处于E等级，在初二年级排名在倒数的10%。

听到这里是不是比较有感觉了，测试结果的原始分（小明的102分），在没有与特定人群做比较时，是无法评价的，你无法从分数本身上去看出这个分数是高于还是低于平均水平，在群体中大概处于什么位置。

常模就是解释测验结果的数字标尺，也叫做比较组，原始分通过与常模的比较来转化标准分可以相互比较，同时可以对应到比较组中相应的等级和百分位，比如小明的102分，对应在初二年级所有同学，成绩处于E等级，处于比较组中的后10%。我们可以从等级和百分位直观的了解小明的成绩水平。

我们在测评中常常听到的标准10分制、Z分数、IQ、T分数都是常模解释体系中的标准分制，通过不同类型的标准分，我们可以快速了解到被测评者的水平是高于而是低于平均分，距离平均分的差距有几个标准差（正负一个标准差包含了群体中68%的人，正负两个标准差就包含了95%的被测评者了），以Z分数为例：

哈哈，是不是又有点晕了，没关系，非专业人士，一般也不需要去记得如何计算标准分，如何解读标准分。大家只要记得标准分的常规解释就好了，以最常遇到的标准10分制为例，记住7-10分高于平均水平，4-6分与平均水平相当，1-3分低于平均水平就好了。

在选择心理测评工具的时候，“信度”是我们要关注的首要指标，它决定了我们选的工具可不可靠！

测评工具的信度到底是啥，其实举个例子，我们可以理解测评工具就是对着“理论”描绘现实，依据的“理论”不同，描绘出的“现实”就不同，这其中最靠近现实的，“信度”就相对更高。

这里强调的是选对理论，也就是选对测评工具，比如我们用尺子来量身高，那么量出的结果就符合事实，每次量的也比较一致，那么这个尺子就是可靠的。量身高的结果信度就高。但当我们用磅称来量身高，每次量的结果也一致，但实际上这根本就不是一个身高的数据，不符合事实，工具不可靠，其信度就为0。

另外可靠的测评工具，不同时间、地点测评结果的一致性（重测信度）也要高，今天测、明天测或隔一段时间测，结果应该在一定范围内是一致的。

效度是针对测量目标而言的，反映测试的准确性和有效性，我们评价说一个测评工具有效，准确性高，则意味着这个测评工具有效度，如前所述，效度高的测评工具，信度也比较高

用下面这个打靶图，可以很形象的说明效度和信度的关系。

一个靠谱有效的测评工具，每次测试的结果应该能够准确的“击中”测评目标，如上图第三个靶子，所有的射击都正中靶心！这时我们称这个测评工具具备高信度和高效度。

同样做一个测试，每次测试的结果都不同，就象上图第一个靶子，我们无法根据结果来判断被试的特点，这时这个工具就是没有信度和效度的工具。

上图二的射击，每次的结果都能够稳定的击中同一位置，但这个位置根本就不是我们的目标，所以这就是一个可靠（有信度）但没有准确性（低效度）的测试。就象我们前面举的例子，用磅称来量身高一样。量的次数再多，结果也不可用。

回归测评本身，心理测评工具中，信度要达到0.8以上才可用于对人的测量。效度方面，不同的测评工具，差异是非常大（资源来源： Hunter & Schmidt: 1999, 2001）：

组织开展人才测评时，要根据测评的目的不同选择不同的测评工具或组合使用测评工具。

那么具体要如何选择呢？且听下回分解。