书接前回,上回书我们说到,工作分析对选对测评工具、用好测评结果的重要性,可以说无分析,不测评!工作分析帮我们解决了要测什么、选择什么类别的测评、评价标准如何的问题。
接下来就要选定测评工具,开始真正的实施测评了,那么问题又来了,你选的测评工具靠谱吗?如何来衡量一个测评工具是否靠谱呢?这一回书,给大家介绍三个心理测试领域的“大咖”,常模、信度和效度。
信度、效度代表心理测试问卷的可靠性和有效性,常模为心理测评结果提供了标准化的对照组,通过对比,测评结果能够得到清晰的解释,水平高下立见!可以说,这几个因素是一个心理测试项目中“看不见的影响力”。
小伙伴们会问,说了半天,那这几个因素到底是怎么影响心理测试的成功率呢?我们先来看看官方解释:
常模——提供可供比较的分数标准,用来解释心理测量的结果。这一步通过将原始分数与常模比较,转换成等值的标准分数来实现素质或特点的解释。
信度——即心理测评工具的可靠性,即测评结果能否代表被试者一致、稳定和真实的特点,这是对测评工具的基本要求,如果测评工具的信度不理想,则测评结果不可靠,信度的高低通常以相关系数来表示。
效度——即心理测评工具的有效性,即测评能在多大程度上反映要测评的目标。如果一个测验效度低,那么无论其信度有多高,这个测验都没有应用价值,相反,如果一个测验效度高,那么它的信度也会高。
哎呀!不说还好,被小编这么一说,很多小伙伴表示,更晕了!
别着急,我们是测评师说书栏目,我们来举几个“栗子”说明这三个因素对心理测评的重要性!
一、常模:让TA的水平立见高下
如前所述,常模在心理测评的分数解释中起到比较组的作用。
哎呀呀,说好的“栗子”呢?好了,好了,“栗子”来了:
我们以学校的考试为例,在一次数学考试中,初二(3)班小明得了102分。乍一听到102分,你会怎么看这个成绩呢?比100分还多2分,感觉不错啊!应该是非常棒的成绩吧?其实……这次的考试总分150分,平均分125分,小明的102分,处于E等级,在初二年级排名在倒数的10%。
听到这里是不是比较有感觉了,测试结果的原始分(小明的102分),在没有与特定人群做比较时,是无法评价的,你无法从分数本身上去看出这个分数是高于还是低于平均水平,在群体中大概处于什么位置。
常模就是解释测验结果的数字标尺,也叫做比较组,原始分通过与常模的比较来转化标准分可以相互比较,同时可以对应到比较组中相应的等级和百分位,比如小明的102分,对应在初二年级所有同学,成绩处于E等级,处于比较组中的后10%。我们可以从等级和百分位直观的了解小明的成绩水平。
我们在测评中常常听到的标准10分制、Z分数、IQ、T分数都是常模解释体系中的标准分制,通过不同类型的标准分,我们可以快速了解到被测评者的水平是高于而是低于平均分,距离平均分的差距有几个标准差(正负一个标准差包含了群体中68%的人,正负两个标准差就包含了95%的被测评者了),以Z分数为例:
哈哈,是不是又有点晕了,没关系,非专业人士 ,一般也不需要去记得如何计算标准分,如何解读标准分。大家只要记得标准分的常规解释就好了,以最常遇到的标准10分制为例,记住7-10分高于平均水平,4-6分与平均水平相当,1-3分低于平均水平就好了。
二、信度:你会永远象今天一样对我好吗?
在选择心理测评工具的时候,“信度”是我们要关注的首要指标,它决定了我们选的工具可不可靠!
测评工具的信度到底是啥,其实举个例子,我们可以理解测评工具就是对着“理论”描绘现实,依据的“理论”不同,描绘出的“现实”就不同,这其中最靠近现实的,“信度”就相对更高。
这里强调的是选对理论,也就是选对测评工具,比如我们用尺子来量身高,那么量出的结果就符合事实,每次量的也比较一致,那么这个尺子就是可靠的。量身高的结果信度就高。但当我们用磅称来量身高,每次量的结果也一致,但实际上这根本就不是一个身高的数据,不符合事实,工具不可靠,其信度就为0。
另外可靠的测评工具,不同时间、地点测评结果的一致性(重测信度)也要高,今天测、明天测或隔一段时间测,结果应该在一定范围内是一致的。
三、效度:你是不是真正懂得我的心?
效度是针对测量目标而言的,反映测试的准确性和有效性,我们评价说一个测评工具有效,准确性高,则意味着这个测评工具有效度,如前所述,效度高的测评工具,信度也比较高
用下面这个打靶图,可以很形象的说明效度和信度的关系。
一个靠谱有效的测评工具,每次测试的结果应该能够准确的“击中”测评目标,如上图第三个靶子,所有的射击都正中靶心!这时我们称这个测评工具具备高信度和高效度。
同样做一个测试,每次测试的结果都不同,就象上图第一个靶子,我们无法根据结果来判断被试的特点,这时这个工具就是没有信度和效度的工具。
上图二的射击,每次的结果都能够稳定的击中同一位置,但这个位置根本就不是我们的目标,所以这就是一个可靠(有信度)但没有准确性(低效度)的测试。就象我们前面举的例子,用磅称来量身高一样。量的次数再多,结果也不可用。
回归测评本身,心理测评工具中,信度要达到0.8以上才可用于对人的测量。效度方面,不同的测评工具,差异是非常大(资源来源: Hunter & Schmidt: 1999, 2001):
组织开展人才测评时,要根据测评的目的不同选择不同的测评工具或组合使用测评工具。
那么具体要如何选择呢?且听下回分解。