测验的信度与效度——伍尔福克教育心理学读后感(十六)

一、信度

       假设一个人的能力是保持不变的,如果一个测验在两种情境下对个人能力的“解读”具有一致性和稳定性,就说明测验分数是可信的。一个测量精准的温度计的工作原理也是一样的,当把温度计置于沸水中,每次显示的温度都会是100C。因此,在两个不同情境下施测同一测验,测量信度意味着稳定性或者叫重测信度。如果让一组人参加同一测试的两个不同版本测验,这两个测验上的分数是可以相互比较的,这被称作复本信度。信度也可以表示一个测验的内部一致性或一个测验的精确性。这种类型的信度,比如分半信度,通常需要比较一半测验和另一半测验之间的相关。比如,如果一个人在所有的奇数题上做得很好,而偶数题做得不好,我们就可以认为测验题目在测量他们想要测量的东西上不具有一-致性或者不精确。

        信度计算有多种方式,但是所有的信度值都在0.0和1.0之间,就像相关系数样。超过0.9就认为测验是非常可信的;0.8 至0.9之间是良好;低于0.8的信度对于一些标准化测试而言就不是很好了。一般而言,题目多的测验比题目少的测验信度更高。

二、效度

      如果测验分数是可信的,下一个问题就是这些分数是否有效或者是否正确,基于这些测验分数所得出的判断或决策是不是有效的。为了实现有效性,基于测验进行的决策和推论应该有证据支持。这就意味着效度与某个特殊的用途或目的有关,即跟实际做出的决定或该决定的证据有关。一个特定的测验对于某个目的可能是有效的,而对于另一个目的可能就没有效了。

      我们有不同的证据来检验一个具体的判断。如果测验目的是为了测量一门课程或者一个单元的技能,那么我们希望看到试卷覆盖了这些章节重要的主题。这样的话,我们就有了内容效度的证据。在你所参加的测验中,是否遇到过有的试卷上只包含了课程的少部分内容的情况?如果是这样的话,基于那次测验所做的决策当然就缺乏内容效度的证据了。

        更多的标准化测验一些心理特征或“构念”,比如推理能力,阅读理解、成就动机、智力、创造力等。虽然收集构念效度的证据比较困难,但是构念效度非常重要——也许是最重要的。构念效度证据的收集需要几年的时间,它往往通过一些分数模式进行说明。比如岁数较大的孩子比岁数较小的孩子在智力测验上能够回答更多的问题。这这与我们的智力结构是一致的。如果5岁的孩子和13岁的孩子在一个测验上回答正确的问题同样多,我们就应该怀疑这个测验是否真的测量了智力。如果一个测验的结果与另一个已被人们接受的同样结构的测验结果相关,也证明该测验具有构念效度。

        一个测验要有效,首先必须是可信的。比如,在几个月中对同一个小孩进行两次智力测试,两次测量的结果不同,那么这个测量结果就是不可信的。当然了,这也肯定不会是有效的智力测量方式,因为智力被假设是很稳定的,至少在一小段时间内具有稳定性。然而,信度高并不能保证效度高。如果对于一一个特殊的孩子,这个智力测验每次都给出了同样的分数,但是这个分数不能预测学校的成绩、学习速度或其他些与智力相关的特征,那么这个测验结果就不是智力的真实表现。所以说,这个测验是可信的,但不是有效的。信度和效度是所有评估过程都需要考虑的问题,而不仅仅限于标准化测验。课堂测验也应该有可信的结果,需要尽可能地减少误差,同时也应该有效度,即准确地测量到了需要测量的内容。

你可能感兴趣的:(测验的信度与效度——伍尔福克教育心理学读后感(十六))