(一)信度
1 、信度的含义
测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 :
ST 2
Rxx= ───
Sx 2
式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。
从上式可看出 , ( 1 )信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :
X=T+E
Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。
( 2 )信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。
信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。
2 、信度的估计方法
测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数
ST 2
Rxx= ─── ,
Sx 2
但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 :
( 1 )再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 :
∑ X 1 X 2 /N-M1M2
Rxx= ─────────────
S 1 · S 2
式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准差 ,N 是被试人数。
用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的情况下才使用重测法估计信度。
用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适宜的时距应根据测验目的、 性质及被试特点而定 , 最好不超过六个月。对儿童的时距应该短些 , 对成年人的时距可适当长些 , 因为个体早期的身心特征变化较大 , 而成年人的身心特征则相对稳定。
( 2 )复本法 . 根据同一测验目的编制的许多平行德等值测验 , 可测定被试的同一特征 , 这些等值的测验叫做复本。对一组受测者间隔一定时间或同时施测两个复本 , 根据两次测验结果求得相关系数 , 即得等值性系数 , 又称复本信度。对一组受测者间隔一定时间后施测两个复本所求得的稳定性系数又称等值稳定性系数。因为用这种方法求得的信度不仅受复本质量的影响 , 而且受时间练习等因素的影响 , 因此 , 等值稳定性系数更全面地反映了测验的信度。 计算等值稳定性系数是对两个复本测验结果计算斯皮尔曼积差相关系数 ( 具体公式见前 ) 。
( 3 )分半法 . 当测验没有复本 ( 复本的编制是很复杂的 ) 而且测验只适合施测一次的情况下 , 可用分半法估计信度 , 即将测验题目分成对等的两半 , 根据每人在这两半测验中的得分 , 计算其相关系数 , 这个系数又称内部一致性系数。
要求得分半信度 , 首先要将测验分成对等的两半。绝大多数测验是由许多题目排列组成的 , 但是若将测验简单地分成前后两部分 , 常常是不对等的 , 对等的两部分起码有两个要求 : 一是测验的两部分在难度、 区分度及测验目标上基本是相同的 ; 一是被测者以同等的态度来对待两部队测验 , 即在完成两部分测验过程中 , 练习 , 疲劳 , 情绪等因素对被试产生了同等的影响。因此 , 将一个测验分成两部分时 , 常用的是奇偶分半法 , 即将奇数题分为一部分 , 将偶数题分为一部分。 特别是测验题目是按由易到难排列时 , 这种分法可以将测验分为大致相等的两半 , 但是 , 对于速度型的测验不适合用奇偶分半法。
用分半法求出的测验的信度系数并不能反映整个测验的信度。 这是因为信度受测验的长度的影响 , 测验越长 , 信度越高 , 将测验分成两半求得的信度系数 , 低估了整个测验的信度 , 因此 , 需对测验系数加以校正 , 校正公式是斯皮尔曼—布朗 (Spearman — Brown) 公式 :
2Rhh
Rxx= ─────
1+Rhh
Rxx 是整个测验的信度估计系数 ,Rhh 是两个分半测验的相关系数。 上述公式的前提假设是两个半测验分数的变异性相等 , 但是若测验资料不符合这个假定 , 可用下列公式求得信度 :
弗朗那根 (Flanagan) 公式 :
Sa 2 +Sb 2
Rxx=2 · (1- ━──── )
Sx 2
Sa 2 和 Sb 2 分别代表两个分测验分数的变异数 ,Sx 2 代表整个测验的变异数。
卢伦 (Rulon) 公式 :
Sd 2
Rxx=1- ━───
Sx 2
Sd 2 代表两个半测验分数之差的变异数 ,Sx 2 代表总测验变异数。
对于由客观性题目组成的测验 ( 即答对一题得一分 , 答错得 0 分 ), 则可用库得─理查逊 (Kuder ─ Richardson) 公式估计测验的内部一致性 :
k ∑ (pq)
Rkk=( ──── )(1- ────── )
k-1 Sx 2
k 为测验的总题目数 ,p 为某一个题目的答对率或通过该题目的人数比例 ,q 为未通过该题目的人数比例 ,p=1-q,Sx 2 为测验总分的方差。
对于由客观性题目和主观性题目组成的测验 , 有些题目是多重计分的情况下 , 则要用克伦巴赫 (Cronbach) 公式计算α系数来估计测验的内部一致性 :
k ∑ Si 2
α =( ──── )(1- ───── )
k-1 Sx 2
k 为测验题目总分 ,Si 2 是某一题目得分的方差 ,Sx 2 是整个测验分数的方差。
上面这些公式不适用于速度性测验 , 因为只有每个人做完所有的题目 , 题目的方差才是准确的。
3 、提高测验信度的方法 :
影响测验信度的误差归纳起来主要有 :
(1) 抽样误差 : 简单说 , 这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。 全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大 , 全距小说明被试间差异小。被试间在某一心理量上参差不齐 , 差别悬殊 , 则该心理量的方差大 ; 反之 , 方差小。对于方差小的样本 , 被试间在某一心理特征上相差较小 , 则前后两次测验结果的一致性较低 , 即降低了信度。 因为被试之间的差别越小其同质性越高 , 被试的分数只要发生小的变化 , 其名次就可能改变 , 从而降低信度。
(2) 随机误差 : 由于各种偶然因素的影响而产生的误差 , 表现为用同一方法多次测量同一对象时结果上不一致。 随机误差是由许多因素造成的 , 如量标的质量 , 测量的程序 , 被试的身心状态 , 测量的环境等。
根据影响测验信度的因素 , 可从以下几方面来提高测验的信度 : 一是从测验本身考虑 , 如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等 ; 一是从被试自身考虑 , 如被试在被测心理特征上的差异大小 , 参加测验的动机水平 , 对测验的态度和积极性等。 在此主要介绍如下几种提高测验信度的方法 :
( 1 )适当延长测验的长度 :
测验的长度主要指量表所包含的题目多少。对一个测验来说 , 测验的题目越少 , 得分越容易受偶然因素的影响 , 故测验的信度越低。 反之如果测验题目较多 , 即测验长度延长 , 扩大了被试得分范围 , 可在一定程度上排除偶然因素的影响 , 从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时 , 延长测验长度信度系数增加较大 ; 当信度系数已经较大时 , 延长测验长度对信度系数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题时是否疲倦或产生厌烦情绪 , 是否节省时间、物力和财力 , 测题是否附合测验目的等。
( 2 )测验的难度要适中 : 难度即测验的难易程度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太易的测验都使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。参见公式 :
δ E 2
R=1- ─────
δ x 2
( 3 )测验的内容尽量同质 : 性质相同的测验内容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内容应尽量同质。
( 4 )测验的时间要充分 : 对某一测验而言 , 应保证绝大多数被试在规定时间内完成测验 ; 否则 , 如果被试不能从容回答所有问题 , 就不能反映被试的真实水平。
( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、 回答问题的方式、分收试卷的方法、测验时间等都要统一。
( 6 )评分要客观 : 评分是否客观对测验信度有直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评分者影响较大 , 不易做到客观。为了尽可能客观评分 , 应制定明确而易掌握的评分标准 , 尽量做到一卷多评 , 或一人只评一题等。
(二) 效度
1 、效度的含义
效度 (Validity) 是指测量的有效程度或测量的正确性 , 即一个测验能够测量出所要测量特性的程度。例如 , 用直尺测量长度是有效的 , 而用来测量温度则是无效的。对效度的定义可作如下理解 :
( 1 )任何一种测验只是对一定目的来说才是有效的。
( 2 )测验的效度是对测量结果而言的 , 即一种测量工具只有经过实际测量 , 才能根据测量结果判断它的效度。
( 3 )测验的效度是相对的而非绝对的。测验是根据行为样本 , 对所要测量的心理特性作间接推断 , 只能达到某种程度的准确性 , 而没有全有、全无的差别。
在测量理论中 , 效度被定义为 : 在一系列测量中 , 与测量目的有关的真变异数 ( 即有效变异 ) 与总变异数之比 : Sv 2
rxy 2 = ───────
Sx 2
rxy 表示测量的效度系数 ,Sv 2 代表有效变异数 ,Sx 2 代表总变异数。
根据上述公式 , 可看出效度与信度的关系 :
∵ Sx 2 =Sv 2 +SI 2 +SE 2
ST 2 =Sv 2 +SI 2
Sv 2 ST 2 -SI 2 SI 2
∴ rxy 2 = ─── = ───── = rxx- ─────
Sx 2 Sx 2 Sv 2
∴ rxy 2 ≤ rxx
SI 2 表示系统误差方差 , 它稳定地与有效方差结合在一起 , 对信度没有影响 , 而影响效度。从以上证明看出 , 测验的效度受测验的信度所制约 , 而且效度系数不会大于信度系数。效度高的测验 , 信度必定高 ; 但信度高的测验 , 效度则未必高。
效度在教育测量中有重要的意义。对一个测验来说 , 效度比信度更为重要 , 测验首先要保证能如实地测量出所要测量的东西 , 否则 , 这种测量将是没有意义的。在教育测量中 , 效度问题尤其重要 , 首先 , 教育测量的对象大多是精神现象 , 只能对被测者的外部表现进行测量 , 以间接了解其心理活动特点或知识技能水平。其次 , 学生的心理活动特征与其外部表现之间 , 仅有相关关系而没有严格的函数关系 , 外部行为有时并不能准确地反映某种心理状态。再次 , 教育测量对象是有主观能动性的人 , 人是能够有意识地调节自己的外部行为 , 掩盖自己的内心活动 , 这就更增加了教育测量的难度。
2 、效度的类型与估计
(1) 内容效度 (Content Validity): 是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。例如 , 以考查学习成绩为目的的测验来说 ," 所欲测量的内容 " 是指教学大纲所规定的全部教材 ;" 起预期反应 " 是指学生学习这些教材所产生的行为变化 , 如对教材的记忆、 理解和应用。
在编制测验时 , 内容效度是一个相当复杂的问题 , 例如教师编制学绩测验 , 其目的是了解学生在某一学科或专题上对知识掌握情况 , 若条件允许 , 应该对大纲规定的所有内容进行全面考试 , 这显然是行不通的 , 只能从这一范围总体内容中选取有代表性题目 ( 样本 ), 组成测验 , 根据测验分数推论学生对该范围总体知识的掌握。 若测验题目较好地代表了这个知识范围 , 则推论是有效的 , 即测验的内容效度高 ; 若选题有偏差 , 则推论是无效的 , 即测验的内容效度低。从另一方面看 , 测验题目所引起的被试反应 ( 是一个样本 ), 若能代表其对本学科或专题的全部行为反应 , 也说明该测验是有效的 ; 反之 , 则是无效的。因此 , 一个测验要有较高的内容效度应具备如下两个条件 :1. 要有定义好的内容范围。 2. 测验题目取样应有代表性 ( 对所界定的内容范围而言 ) 。
估计内容效度的方法 :
A 、由专家进行逻辑分析 : 即请有关专家对测验题目与原来的内容范围是否符合进行分析 , 作出判断 , 看测验题目是否较好地代表了原来的内容。
B 、统计分析 : 克伦巴赫 (Cronbach) 认为内容效度可以进行数量估计 , 方法是从同一教学内容总体中抽取两套测题 , 分别对同一组被试进行测验 , 两种测验的相关系数可用来估计内容效度。若相关系数大 , 则内容效度高 ; 若相关系数小 , 则两个测验中至少有一个内容效度低。
另外 , 有经验的任课教师对本学科测验的内容效度有较好的判断。当然 , 若能与有关专家配合会更好些。
( 2 )结构效度 (Construct Validity): 又称构想效度 , 是测验对某一理论概念或心理特质测量的程度。 即某测验对所要测量的结构或心理特质实际测量的程度。心理测验都是建立在心理学理论基础的 , 例如比纳─西蒙智力量表的制订 , 心理学家比纳 (Binet) 首先详细研究了智力的结构 , 他认为智力行为是一种连锁性的过程 , 包括判断、推理、 解决问题等。他根据这一理论编制的智力测验 , 确实测量出被试的判断、推理和解决问题能力 , 可以认为他所编制的测验具有结构效度。一般说 , 学科测验主要看内容效度 , 心理测验主要看结构效度。 判断内容效度更容易一些 , 有教学大纲作依据 ; 判断结构效度更难一些 , 因为理论结构和心理特质不易把握。因此 , 要制订有构想效度的测验 , 首先要建立理论结构 , 例如智力测验 , 先要确定关于智力的一套理论 , 如智力的概念、结构、与环境的关系、与年龄的关系、与性别的关系等 , 在理论的基础上提出若干假设并编制测题。
确定结构效度的方法 :
A 、对测验题目进行分析 : 主要是分析测验的内容 , 被试对题目所作的反应 , 测验题目的同质性以及分测验之间的关系来判断测验的构想效度。
B 、计算与同类权威测验的相关 : 某一个新测验如果与同类的大家公认有效的已有测验之间 , 在测验结果上相关很高 , 说明这两个测验测的是相同特质 , 即新测验也有较高的结构效度 , 如后编的智力测验常与斯坦福─比纳智力量表进行比较。
C 、因素分析 : 通过因素分析找到影响测验分数的共同因素 , 在测验分数的总变异中来自有关因素的比例 , 可以作为构想效度的指标。
(3) 预测效度 (Predictive Validity): 又称实证效度 , 是指一个测验对个体将来的行为或获得的成就进行预测时的准确性。 一个测验预测得越准确 , 预测效度越高。被预测的行为或成绩是检验预测效度的标准 , 简称效标 (Criterion), 即衡量测验有效性的参照标准。效标是估计预测效度的主要依据 , 应具备如下一些条件 1) 有效性 : 即效标测量本身必须有效。 (2) 可靠性 : 效标测量要具有较高的信度。 (3) 客观性 : 在效标测量时要防止受评定者主观印象和成见的影响 , 要防止效标污染 , 即由于主试知道某个人原来的测验成绩 , 因而影响了在效标测量中对这个人的评定分数。 (4) 效标测量应该简单省时 , 花费少 , 经济实用。一般常用学业成就 , 等级评定 , 临床诊断 , 实际的工作表现作为效标。例如 , 一个智力测验其预测效度既可用被试的学业成就作效标 , 也可用熟悉的班主任对其进行等级评定作效标。
估计预测效度的主要方法是 :
A 、相关法 : 即求某测验分数与效标测量间的相关 , 所得结果即效标系数。当测验分数与效标测量分数都是连续变量时 , 用积差相关公式求相关系数 ( 具体公式见统计教材 ) 。
当测验分数是连续变量 , 而效标测量分数是二分变量时 , 可用二列相关公式计算效度系数 ( 具体公式见统计教材 ) 。
B 、区分法 : 即看原先测验的分数是否可以区分由效标测量所化分的团体。例如 , 某工厂通过测验录用了一批工人 , 过一段时间后 , 根据工作成绩将其分为称职和不称职两种 , 然后回过头来检查他们的测验分数 , 运用 t 检验看看两组在测验上的平均分数是否有显著差异。若有显著差异 , 说明测验是有效的 ; 若差异不显著 , 说明测验是无效的。
C 、功利率 : 为了测定测验的功效 , 人们还可对使用测验所化掉的费用与得到的利益进行比较 , 看其利弊大小 , 这种效度指标叫功利率。
U=B(Ns)-C(Nu)-S
U 代表功利率 ,B 表示录用一个合格的工人所产生的平均利润 ,C 表示录用一个不合格的工人所造成的损失 ,Ns 和 Nu 分别代表所录用的人中成功和不成功的人数 ,S 代表整个选人程序的费用。
计算功利率说明 , 如果一个测验简单易做 , 适合于团体施测 , 即使效度低些 , 也会有人采用 ; 反之 , 如果测验复杂 , 只能个别施测 , 费时费力 , 那么只有效度极高 , 给人带来极大好处时 , 人们才会使用它。
提高测验效度对教育测验非常关键 , 效度系数多大合适 ? 要根据测验的具体情况而定 :
(1) 智力测验分数与熟悉教师对学生智力等级评定之间的效度系数一般在 0.30 ─ 0.50 之间。教师评定常受许多其他因素的影响。
(2) 某一科目的标准测验成绩与任课教师对学生名次排列之间的相关系数应达到 0.60 ─ 0.70 。
(3) 两种不同的智力测验或两种标准测验之间的相关系数应达到
0.60 ─ 0.80
效度系数可解释为效标分数中的变异有百分之几来源于测验的变异。例如效度系数为 0.50, 则说明效标分数中有 0.502=25% 的变异来自原测验分数的变异 ; 若效度系数为 0.71, 则效标分数中有 50% 的变异来自原测验分数。
3 、提高测验效度的方法 :
( 2 )控制系统误差 : 系统误差是影响测验效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案按排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以降低系统误差 , 提高效度。
(2) 精心编制测题和测验量表 : 首先测题内容要适合测验目的 , 如知识性测题就不能全面反映被试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由易到难。第三 , 测题的难度和曲分度要合适。
(3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的解释 , 按标准评分 , 两次测验间隔要适当。
(4) 样本容量要适当 : 当样本容量增大时 , 样本对总体的代表性提高 , 样本大 , 被试的内部差异增大 , 扩大了真分数的方差 , 使效度提高。 样本容量一般不应低于 30 。另外 , 抽样方法也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随之增大。
(5) 正确处理好信度与效度的关系 : 信度是效度的必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度(信度)要求测验项目之间有高度的组间相关; 最大预测有效度却要求低度的组间相关。最大可靠度(信度)要求项目等同的难度; 最大预测有效度却要求项目的难度有所区别。中等程度的组间相关( 0.10 ─ 0.60), 通常可产生良好的效度 (0.30 ─ 0.80), 并且产生满意的信度 (0.90) 。” ( 郝德员 : 《教育与心理统计》 , 教育科学出版社 ,1962 年版 .P429)
(6) 适当增加测验的长度 : 增加测验的长度可提高测验的信度 , 也可以提高效度 , 但增加测验的长度对信度的影响大于对效度的影响。如果增加测验 长度到原来的 n 倍 , 则新测验的效度系数 Rnxy 计算公式 :
Rxy
Rnxy= ───────────
├────────
│ 1-Rxx
│──── + Rxx
√ n
式中 Rxy 、 Rxx 分别是原测验的效度系数和信度系数。
(三)难度
1 、测验的含义
难度 (Difficulty) 简单说是指测验的难易程度 , 通常是以题目的通过率来表示大小的 , 通过率是指被试正确回答或通过题目的人数与所有被试之比 , 即 :
R
P = ────── *100 %
N
P 表示题目难度 ,R 表示被试正确回答或通过题目的人数 ,N 表示参加测验的所有被试。 P 值越大 , 表示题目越简单 ;P 值越小 , 说明题目越难。
( 1 )难度影响测验分数的分布状态 : 当难度值 P 趋向 1.00 时 , 说明所有被试都得了高分 ; 当难度值 P 趋向 0.00 时 , 说明被试得了低分。在此情况下 , 被试得分集中在高分和低分端 (100 和 0), 学生间的实际差异被掩盖。因此 , 有两种非常态的分布 : 正偏态 . 负偏态 ( 如下图 ) 正偏态说明 , 被试得分集中在低端 , 表明题目偏难 ; 负偏态说明 ,
被试得分集中在高端 , 表明题目偏易。
( 2 )难度影响测验的信度 : 难度太大或太小的测验 , 被试得分集中在高分端或低分端 , 测验分数之间的差异变小 , 则测验分数的方差 ( δ x2) 也变小 , 根据信度公式 :
δ E2
Rxx=1- ─── , 测验分数的方差减小 , 则 Rxx 值将降低。
δ x2
( 3 )难度影响测验的鉴别力 : 在测验中 , 被试之间相互配对比较的可能性越多 , 就越有利于准确地鉴别被试的不同能力。如有 100 个学生参加考试 , 若 P=0.50 的题目 , 则必有 50 人答对 ,50 人答错 , 此题就有 2500(50*50) 次配对比较 ; 若 P=0.70, 则有 70 人答对 ,30 人答错 , 可组成 70*30=2100 次配对比较 ; 若 P=1.00 或 P=0.00, 则没有比较的可能 (100*0=0,0*100=0) 。因此 ,P 值越接近 0.50, 题目的鉴别力就越高 ; P 值越接近 1.00 或 0.00, 题目鉴别力就越低。
( 4 )如何确定适宜的难度水平 ?
一个测验的难度是由组成测验的各个题目的难度决定的。整个测验的难度的确定可根据测验分数的分布作出 , 每个题目的难度多大合适 ? 这是由测验的目的决定的 , 并不是要求所有题目的难度都要在
0.50 左右 , 若所有题目的难度都要在 0.50, 题目过分同质 , 也会降低测验总分的区分力。如要通过测验选拔 10% 的学生参加某项比赛 , 测验的难度应与选拔率相当 , 保持 P=0.50 左右。有些题目即使 P 值为 0, 有时也是需要的 , 如成就测验 , 只要教育者认为重要的内容可编入测验 , 而不管 P 值大小。一般说 , 在测验中 , 题目的难度在 0.20 ─ 0.80 之间 , 整个测验的平均难度接近 0.50, 是比较理想的难度。另外 , 对于选项不同的选择题 , 难度值要求也不同 , 五择一题目 , 适宜的难度值约为 0.69; 四择一题目 , 难度值应为 0.67; 是非题的难度值应为 0.50 。
2 、难度的计算方法
( 1 )用题目的通过率估计难度 :
R
P = ────── *100%
N
( 2 ) . 用被试得分平均数估计难度 :
M
P = ────── *100%
W
P 为难度值 ,M 是被试在某题目上的平均得分 ,W 是该题目的最高得
分 ( 满分 ) 。 该公式适合于计算大题目的难度。
( 3 )用两端分组法计算难度 :
PH+PL
P = ──────── *100%
2
P 是难度 ,PH 和 PL 分别代表高分组和低分组的通过率。当被试人数较多时 , 可用该公式计算难度。在测验总分的分布符合正态分布时 , 高分组与低分组的最适当比例是各占 27%, 如果分布较平坦 , 应高于 27% 。一般情况下 , 其比率介于 27% ─ 33% 。 各类标准化测验是取 27% 。例如 , 在 100 名学生中 , 高分组与低分组各有 27 人 , 其中高分组答对第一题的有 20 人 , 低分组答对第一题的有 10 人。该题的难度是 H=20/27=0.74 PL=10/27=0.37
0.74+0.34
P= ─────── *100% = 56%
2
该公式适合用二分法 ( 即答对得 1 分 , 答错得 0 分 ) 计分的题目。
( 4 )选择题的难度计算 :
在多项选择题中 , 由于有猜测的成分 , 被试的得分可能被夸大 , 不能真正反映测验的难度 , 吉尔福德提出了一个难度的校对公式 :
KP-1
CP = ──────
K-1
CP 为校正后的通过率 ,P 为实际得到的通过率 ,K 为选项的数目。
例如 , 某题有 75% 的被试通过 , 若该题有 5 个选项 , 则校正后的通过率应为 CP=(5*0.75-1)/(5-1)= 0.69; 同理可得 ,K=4 时 ,CP=0.67,K=2 时 ( 即是非题 ),CP=0.50 。
( 5 )等距量表的难度计算 : 以通过率作为难度指标 , 实际上是以顺序量标来表示难度 , 这只能指出题目难度的顺序或相对难度的高低。例如有 3 个试题 1.2.3, 其通过率分别为 50%.30%.10%, 我们可以断定第一题最易 , 第三题最难 , 但无法确定题目 1 和 2 之间的难度差别是否等于题目 2 和 3 之间的难度差别。如果被试在所欲测量的特性上呈常态分布 , 则可以根据常态曲线表 , 将试题难度转化成具有相等单位的等距量表 , 即用 Z 分数表示难度。下面是美国教育测验中心 (ETS) 采用的难度指标 :
Δ =13+4Z
Δ (delta) 为常态化等距难度值 ,13 是平均数 , 目的是为了消除小数 ,Z 表示某题目难度距平均数有多少个标准差 ( δ ) 。Δ值介于 1 ─ 25 之间 , Δ值越大 , 难度越高 ; Δ值越小 , 难度越小。对于大多数测验而言 , 只要算出 P 值即可 , 但如要作精确的统计分析 , 则需要计算出具有等距性质的Δ值。
(四)区分度
1 、区分度的含义
区分度 (Dscimination) 是指测验项目对被试实际水平的区分程度 , 又称鉴别力。具有良好区分度的测验 , 实际水平高的被试应得高分 , 水平低的被试应得低分。它是测验是否有效的 " 指示器 ", 被作为评价试题质量 , 筛选试题的主要指标与依据。
区分度的取值范围 ( 指数 D) 在 +1.00 ─ -1.00 之间。如果测验题目有足够的效度 , 则水平高的被试得分高或通过该题的人数多 ,D > 0, 这种区分被称为积极的区分 ; 反之 , 若测验的效度不高 , 水平高的被试得分低或通过的人数少 , 而水平低的被试反而得分高 ,D < 0, 这种区分被称为消极的区分 ; 若高分组与低分组通过的人数相等 , 则 D=0, 说明无区分作用。具有积极区分作用的题目 ,D 值越大 , 其区分效果越好。
2 、测验区分度与信度的关系 :
区分度与信度的关系 :
━━━━━━━━━━━━━━━━━━━━━
区分度 (D) 信度
━━━━━━━━━━━━━━━━━━━━━
.1225 .00
.16 .42
.20 .63
.30 .84
.40 .915
.50 .949
━━━━━━━━━━━━━━━━━━━━━━
上表是 R.L. 艾伯于 62 年发表的 , 假定全部题目 ( 共 100 题 ) 的难度均为 0.50 时所预测的信度系数。由上表可看出 , 测验信度随区分度的提高而增长 , 且信度增长的速度较区分度为快。因此 , 要提高测验的信度 , 提高题目的区分度是方法之一。
3 、区分度与难度的关系 :
表 3 ━ 2 区分度与难度的关系 :
━━━━━━━━━━━━━━━━━━━━━━
难度 ( P ) 区分度 (D)
━━━━━━━━━━━━━━━━━━━━━━
1.00 .00 .
90 .20
.70 .60
.50 1.00
.30 .60
.10 .20
.00 .00
━━━━━━━━━━━━━━━━━━━━━━
由上表可知 , 当难度为 1.00 或 0 时 , 区分度将是 0, 即题目没有区分被试实际水平的能力 ; 难度为 0.50 时 , 题目的区分度达到最大值 (P=1), 因此 , 要求题目的难度应在 0.50 左右。
题目鉴别指数与优劣评价
──────────────────────
鉴别指数 D 试题评价
─────────────────────
0.4 以上 非常优良
0.30 ─ 0.39 良好
0.20 ─ 0.29 尚可
0.19 以下 应该淘汰
───────────────────────
( 美国测量学家伊贝尔 L.Ebel 提出 )
4 、区分度的计算
( 1 )客观性试题的区分度计算 :
D=PH-PL
PH 为高分组通过试题的人数比例 ,PL 为低分组通过试题的人数比例。 D 为区分度。
( 2 )论文题目的区分度计算 :
XH-XL
D= ──────
N(H-L)
D 为区分度指数 ,XH 为高分组得分总数 ,XL 为低分组得分总数 ,H 为该题目的最高得分 ,L 为该题目的最低得分。例如 , 一道满分为 5 分的论文性题目 , 学生回答结果统计如下 :
表 3 ─ 3 论文性试题分析表
━━━━━━━━━━━━━━━━━━━━━
高分组 │ 低分组
──────────────────────
得分 人次 │ 得分 人次
x f fx │ x f fx
━━━━━━━━━━━━━━━━━━━━━━
5 4 20 │ 5 0 0
4 3 12 │ 4 1 4
3 2 6 │ 3 1 3
2 1 2 │ 2 3 6
1 0 0 │ 1 4 4
0 0 0 │ 0 1 0
━━━━━━━━━━━━━━━━━━━━━━━━
∑ 10 40 ∑ 10 17
━━━━━━━━━━━━━━━━━━━━━━━━
40-17
D= ────── = 0.46
10(5-0)
三、测验的编制
编制测验的一般程序主要包括 : 确定测验目的 , 制定编题计划 , 编制测题 , 最后合成测验。
(一)测验目的的确定
编制测验首先要明确为什麽测验 , 要测量什麽 , 即要明确测验目的。只有明确了测验目的 , 我们才知道测什麽 , 怎样测 , 才能解决测验质量的优劣问题。在教育测验中 , 教育目标是确定测验目的的唯一依据。因此 , 要明确教育测验目的 , 首先要明确教育目标 , 即教育目标必须是能够测量 , 适合于测量。所以 , 分析测验目的 , 首先要从分析教育目标入手。
教育目标的确定也是一个十分复杂的问题 , 它包括许多要素 , 这些要素既是相互独立 , 又是彼此联系的。 1956 年 , 美国心理学家布鲁姆 (B.S.Bloom) 最早提出了教育目标分类系统。他把教育目标分为认知目标、情感目标、运动技能目标三大类 , 每类目标又分成不同层次 , 如认知目标分成六个层次 : 1. 知识 ( Knowledge) , 2. 理解 (Comprehesion),3. 应用 (Application),4. 分析 (Analysis),5. 综合 (Synthesis),6. 评价 (Evoluation) 。情感目标 (Affective Domain) 分为五个层次 :1. 接受 ,2. 反应 ,3. 评价 ,4. 价值组织 ,5. 品格形成。布鲁姆的教育目标分类理论无疑对教育测验的编制有重要意义 , 但应该看到他的理论并不是尽善尽美的 , 如认知目标的六个层次存在着交叉重叠现象 , 在教育测验中很难将这些层次明确的化分开来。我国的测验理论工作者正在研究这个问题 , 准备创建一套适合我国实际的教育目标分类系统。
(二)制定编题计划
遍题计划通常就是编制测验的双向细目表 , 指出测验所包含的内容和要测定的技能 , 以及对每一项内容和技能的相对重视程度。下表是一个小学高年级自然常识测验的双向细目表 :
表 4 ─ 1 假定的自然常识测验的双向细目表
━━━━━┳━━━━━━━━━━━━━━━━━━━━━━
教学目标 ┃基本│原理│原理 因果│
教学内容 ┃知识│理解│应用 分析│综合│评价│合计
━───╂──┼──┼─────┼──┼──┼─────
生物世界 ┃ 3 │ 5 │ 6 3 │ 2 │ 1 │ 20
资源利用 ┃ 2 │ 3 │ 3 1 │ 1 │ 0 │ 10
动力和机械┃ 2 │ 3 │ 4 2 │ 0 │ 1 │ 12
物资、物性┃ 5 │ 6 │ 8 3 │ 2 │ 1 │ 25
能量 ┃ │ │ │ │ │
气象 ┃ 2 │ 4 │ 3 2 │ 2 │ 0 │ 13
宇宙 ┃ 2 │ 5 │ 4 1 │ 0 │ 0 │ 12
地球 ┃ 2 │ 2 │ 2 1 │ 1 │ 0 │ 8
─────╂─┼─┼─────┼──┼───────
合计 ┃ 18 28 │ 30 13 │ 8 │ 3 │ 100
━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━
此表的顶端开列了要测量的认知目标 , 与目标对应最下一行的数值是各项目标所分配的权重 , 左边一栏开列的是测验内容 ( 教学内容 ), 与该栏对应的右边一栏是各项内容所分配的权重。 编制这个表首先要开列教材大纲并对大纲规定的教学内容分配权重 , 其次 , 对各种教学目标分配权重 , 然后才能编制出双向细目表 , 这是编题的依据。
但在具体编制试题时 , 不宜过于拘泥于此表 , 而要根据具体情况。
(三)编制测题
编制测题是一项非常复杂的工作 , 它是实现测验目的的关键 , 测题编写的好坏直接反映了测验质量的高低 , 这是编制测验的核心环节。
1 、试题的种类 : 根据不同标准可以将试题分为不同种类 , 最常见的是根据评分是否客观将试题分为 :
( 1 )客观性试题:即评分标准和评分过程都是客观的 , 评分者之间的信度系数可达到 1.00 。客观性试题又可分为 : 简答题、是非题、填空题、配对题、排列题、多项选择题、找错题等。客观性试题的优点是: A 、有明确的标准答案 , 评分简单准确 , 便于使用计算机阅卷 , 节省时间; B 、这类题目适合于测量被试的知识、理解、应用、 分析几个层次的认知目标; C 、在限定的时间内可包含足够的试题数量 , 保证对所测内容的覆盖率。其缺点是: A 、客观性试题不易编制 , 化费较多时间和精力; B 、 它不适合测量被试的综合、评价两级认知目标; C 、学生在答题时 , 难以排除被试的随机猜测。
( 2 )非客观性试题 : 又包括 , 应用题、论述题、作文题、分析题等 , 这些题目被统称为论文性试题。这类题目的优点是: A 、适合测量被试较高层次的认知目标 , 如组织材料的能力、综合能力、文字表达能力、评价能力和创造能力等 , 这是客观性测题难以测量的; B 、论文性试题编制起来比较简单 , 不需要准备很多选项 , 省时省力; C 、论文性试题可克服被试的随机猜测以及对知识的简单背诵而得高分现象。 其缺点也是明显的: A 、论文性试题没有明确答案 , 评分困难且不可靠; B 、题目数量少 , 对要测量内容的覆盖面小 , 不能保证内容效度; C 、测验成绩易受被试写作能力 , 书写质量等无关因素的影响。
两类题目各有利弊 , 在编制测验时应根据测验目的的要求 , 在充分了解各类试题特点的基础上 , 选择合适的题型。一般说应遵循以下原则 :
( 1 )依据测验目的选择题型。
( 2 )题目取样要有代表性。
( 3 )各种题目类型要合理搭配。
( 4 )施测与评分应符合经济性原则。
2 、多项选择题的编制 :
在标准化测验中 , 多项选择题是应用最多的一种题型 , 它是由题干和选项两部分组成的。题干常常用直接问句或不完全陈述句 , 选项由一个正确答案和若干错误答案组成。错误答案又称干扰项 , 目的是干扰被试的选择 , 使不具备相应知识的学生作出错误的选择 , 因此又称诱答项。例如 : 找出与其他几项不属于同类的一项 :
(A) 狗 ( 鸟 (C) 树 (D) 鱼
孔子的最伟大成就在哪一方面 ?
(A) 学术教育 ( 国防军事 (C) 艺术建筑 (D) 内政外交
多选题的优点是 :1) 单位时间内可以施测很多题目 , 从而保证取样的广泛性、代表性。 2) 评分客观 , 题目量多 , 可以保证测验的可靠性。 3) 阅卷方便 , 机器评分 , 保证测验的经济性。 4) 题目可以存于题库重复使用。其缺点是 :1) 有固定答案 , 测不出对材料的组织能力和创造能力。 2) 编题复杂 , 题目量大 , 要编出一些似是而非的答案是需要一定技巧的。
多项选择题的编制应遵循以下原则 :
( 1 )题干意义要完整。读了题干 , 即使不看选项 , 也要知道该题的确切含义。
( 2 )题干的陈述要简单、明确。 避免使用不必要的修饰词和太复杂的句子。
( 3 )错误答案要有迷惑性 , 不能错得太明显。例如 , 唐朝定都在 :
(A) 北京 (1321 (C) 长安 (D) 勃海
此题中选项 ( (D) 不是城市名 , 是明显错误的答案 , 不合要求 , 若改成 ( 兰州 (D) 洛阳较好。
( 4 )在选项中不宜使用重复的语句。例如 , 客观性试题的所谓 " 客观 ", 指的是 :
(A) 指鉴别认知目标的方法 ( 指选择测验内容的方法
(C) 指提出问题的方法 (D) 指试题评分的方法
选项中都有 " 的方法 ", 是没必要的 , 应删去 , 可改为 :
(A) 鉴别认知目标 ( 选择测验内容
(C) 提出问题 (D) 试题评分
( 5 )选项不应互相重叠 , 互相包括。例如 ,9-3 是多少 ?
(A) 大于 5 (6 (C) 小于 7 (D)12
选项中除 (D) 外 , 其余三项相互重叠 , 应予以修改。
( 6 )应注意题干与选项之间在逻辑与语法上的联系。
3 、论文式试题的编制 :
论文式试题的优缺点前面已分析过 , 编写这类题目应注意以下几点 :
( 1 )题目的范围应限制好。要让被试明确答题的范围、要求 , 不使题目过于笼统。
( 2 )题目的数量要适当 , 内容要具体。题目太少 , 其代表性就差 , 测验误差就大 ; 题目过多 , 易成为速度型测验 , 不利于被试对题目作深入的分析、理解。
( 3 )在编写试题的同时应拟定出较具体的答案及评分标准。 一般说 , 这类题目的答案常常是不固定的 , 有时会有多个理想答案 , 这在测量前都应考虑到。
( 4 )一般不要有任选题 , 因为两个论文式题目很难做到等值。
另外还有匹配题、操作题、改错题、是非题等 , 这些题目的编制方法及应注意的问题 , 请参考其他测量教材。
(四)合成测验
试题编好后 , 应对题目进行检查 , 组合 , 最后编辑成完整的测验 ( 试卷 ) 。
1 、检查题目 :
首先检查题目是否符合双向细目表要求。因为题目的编写一般是根据双向细目表来进行的。第二 , 检查题目叙述是否明确清晰 , 内容有无科学性错误。第三 , 检查题目的难度是否恰当 , 题目的数量是否合适。第四 , 检查题目的内容是否彼此独立 , 没有交叉。第五 , 检查题目是否适合于所测对象。
2 、编辑成测验 :
将测题编辑成完整的测验 , 一般有如下几种形式:( 1 )按题目的类型组合测验。将同一类型的测题组合在一起 , 这样便于计分和被试回答 , 如大部分学业成就测验即属于这种形式。( 2 )按题目所测量的内容排列。将测量相同要素的测题排列在一起 , 如韦氏儿童智力量表。( 3 )按难度递增排列题目。又有两种形式 , 一种是测验的所有题目是按由易到难排列的 ; 另一种是测验分为若干分测验 , 每个分测验是按由易到难排列的 , 韦氏智力量表。( 4 )按难度分层次排列 , 又称混合螺旋式排列。将各种类型的侧题依难度分成若干不同的层次 , 将同难度水平但不同性质和类型的题目组合在一起 , 再依难度排列 , 如比内─西蒙智力量表。但是 , 在实际编排测题时 , 有时是将上述几种类型混合起来 , 并不一定按照某一单一类型。类型的化分主要是便于实施和计分 , 而对被试测验分数的提高无明显影响 , 真正影响测验分数的是测题本身。因此 , 应更多地注意编题的质量。 书名叫:SPSS统计应用实务。 里面讲了信度分析的方法,效度没有说。 大学英语考试的设计原则 大规模标准化考试 大学英语四、六级考试以《大学英语教学大纲》为基础。八十年代初随着我国政府实行对外开放政策,人们认识到英语作为国际交际工具的重要性,英语教学受到了各级各类学校的高度重视。为了适应新的形势,1982 年国家教委成立了教学大纲修订组。修订组经过两年的社会需要调查、中学生英语水平调查,确定了大学英语教学目标,又在应用语言学理论指导下,通过调查研究确定了词汇表、结构表、功能意念表、和微技能表,具体地规定了大学英语课程的教学内容,《大学英语教学大纲》还把整个大学英语课程分为六级,每级都有定量指标加以规定。其中一至四级为必修课,五至六级为选修课。《大学英语教学大纲》于1985 年由国家教委颁布,是全国高等学校都要执行的重要教学文件。 国家教委在批准实施《大学英语教学大纲》的通知中指出:“《大纲》确定的教学目的和要求反映了当前国家对高等专业人才外语方面的要求,是我委今后检查大学英语教学质量的依据”,“重点院校应达到的级别由各校自定”,“凡执行本大纲的学校,国家教委将……对结束四、六级学习的学生进行统一的标准考试”。这里所说的标准考试就是“大学英语四、六级标准化考试”。 •以教学大纲为依据 <<大学英语教学大纲>>规定,语言测试要“着眼在考核学生的语言能力和交际能力,准确性和流利程度。”教学大纲指出:大学英语教学的目的是培养学生具有较强的阅读能力,一定的听的能力和译的能力,以及初步的写和说的能力,使学生能以英语为工具,获取专业所需要的信息,并为进一步提高英语水平打下较好的基础。为此,大学英语考试主要考核学生运用语言的能力,同时也考核学生对语法结构和词语用法的掌握程度。 •质量要求 <<大学英语教学大纲>>又规定:“语言测试是检查学生语言水平的重要手段,要做到科学、客观、统一和标准化”。为此,大学英语考试在设计时力求做到大规模标准化考试对质量的要求,做到: 1) 评分具有客观性、一致性 2) 对教学具有正确的指导性 3) 分数具有可比性 4) 施考条件对所有考生以及不同考次的考生一律平等 5) 便于施考 •大学英语考试的总体设计流程 大学英语考试的总体设计流程及运作流程如下。 大学英语考试的质量控制 •标准化考试 大学英语考试是一种标准化考试。标准化考试是指采用教育测量技术对学生的英语能力进行测量并符合严格规范要求的大规模考试。 标准化语言测试的目的是提供一种公认的客观标准,通过对学生语言运用的抽样检查来确定学生的实际语言能力。标准化考试通常指跨地区甚至跨国界的大规模考试,往往涉及数十万甚至上百万考生,因此对标准化考试有一系列规范要求,包括内容和形式的标准化、质量的标准化、以及过程的标准化。 1) 内容和形式的标准化 对于标准化考试来说,每次考试的试卷不同,但所考核的内容(语言知识和能力)总体保持不变,试卷形式相对稳定。不同的语言观和考试的不同用途决定考试的内容。 有些考试以考核语言水平(language proficiency)为理论基础,如美国的 TOEFL 考试;有些考试以语言交际需要为基础,如英国的 IELTS 考试;有些则以某一教学大纲为基础,如我国的“大学英语四、六级考试”。不同的语言观又决定不同的考试形式。有的认为语言能力是可以分解的,大量采用孤立的离散题(discrete-point items),以便扩大对语言点的采样,增加覆盖面;有的认为语言是一种综合能力,应大量采用综合能力题(integrative skills items),以便测量学生运用语言进行交际的能力。标准化考试通常不以某一教材为依据。对于英语标准化考试来说应妥善处理知识与能力的关系、领会能力与表达能力的关系、流利与准确的关系、句子水平与语篇水平的关系等。 2) 质量的标准化 (1) 标准化考试的信度与效度:信度和效度是标准化考试最重要的质量指标。信度指的是测量的误差要小、可靠程度要高。大规模标准化考试在公开实施前其内部信度应经过检验,一般应大于 0.85。效度指某一项考试是否考了应该考核的内容。效度只能通过外部的、独立的标准进行评价,例如把学生成绩与教师的评价进行比较、把一项考试与某一公认的大规模标准化考试作相关分析、通过长期观察考生语言能力的变化来验证考试的效度等等。一项考试的效度愈高,对分数的解释愈准确。现代语言测试研究的重点是提高测试的效度; (2) 评分的客观性和一致性:根据评分是否受阅卷员主观判断的影响试题可分为客观性试题和主观性试题。客观性试题的常见形式有多项选择题、简答题、MC-完型填空等。客观性试题的答案是唯一的,因此可用机器阅卷。大规模标准化考试通常采用较多的客观性试题,以保证评分的客观性。主观性试题的常见形式有命题作文、翻译、回答问题等。主观题的阅卷需要采用一系列质量控制措施,包括用计算机进行调整,保证阅卷员本人、阅卷员之间、以及阅卷点之间评分的一致性。也有一些题型如简答题、综合填空等,设计试题时事先规定一定数量的可接受答案,可以称为半客观题,目的是使其尽可能兼具客观题和主观题的优点; (3) 试题设计的质量控制:为了保证质量,试题设计一般要经过“命题--初审--预测--试题项目分析--审题--构卷--施考--阅卷及统计分析--建立题库”等环节。其中命题应有命题要求,命题员要经过专门训练,考核内容要有一定的覆盖率;进行试题项目分析和建立题库要有一定的数学模型,如经典测试理论的真分数模型、试题响应理论模型等,使每道试题都有客观数据作为参数,保证每一试卷在使用前整卷的平均难易度、试题难易度及区分度的分布情况等都能满足预定的质量要求。对于标准化考试来说一切应经过检验,且有实验数据支持。为了保证质量,标准化考试的试题在考前和考后都是保密的。 3) 过程的标准化 (1) 标准化考试要公布考试大纲。标准化考试作为一种大规模考试,应当让广大考生和用户了解考试内容、试卷构成、试题形式、记分体制等。让考生在答题过程中能充分表现自己的实际能力,使考试能保持评份标准的稳定性,并且使用户能了解分数的含义,正确使用考试结果,为此必须事先公布考试大纲。考试大纲应相对稳定,如果要改变题型,同样应经过充分实验研究,经事先公布后才能实施,以保证考试的稳定性; (2) 标准化考试的分数应具有可比性,因此通常要对不同考次的结果进行等值处理。等值处理可以采用线性等值法、等价百分位法或试题响应理论的分数等值处理方法等,把原始分转换成换算分。只有换算分才能对考生成绩以及教学过程提供大量反馈信息。根据参照系的不同,记分体制分为正态分制、等级分制、百分制等。正态分制要求建立考生成绩常模,用考生在考生总体中的位置来表示考生的成绩,通常用均值和标准差表示。以考生成绩的正态分布作为参照系的考试称为常模参照考试。采用正态分制的考生成绩可与考生总体比较、不同考次可以比较、学校与学校可以比较、不同科目也可以比较,因此考试结果能提供大量反馈信息,成为各级用户决策的依据。正态分是间接解释的分数,而等级分则是把语言能力划分为若干等级,每级所表示的语言能力从词汇、语法、读音、交际功能、流利程度、语言复杂程度等方面进行描述,根据考生的实际能力进行判定,等级分是可以直接解释的分数。这种以某种尺度作为参照系的考试称为尺度参照考试。也可以把两者结合起来,大学英语四、六级考试以教学大纲为依据,又参照一定的常模建立记分体制,同时又考虑到我国采用百分制的习惯,以 72 分作为均值,12 分为一个标准差,60 分为及格,因此大学英语四、六级考试是一种尺度相关常模参照考试; (3) 标准化考试还应当定期发布成绩公报,常模参照考试要公布建立常模的依据,提供使用手册等; (4) 过程的标准化还包括施考条件的标准化,如考试时间、考场条件、考场指令等都要标准化,使不同的考生具有相同的考试条件。 •命题过程的质量控制 考试过程是环绕试卷进行的,在考试过程的诸多环节中起关键作用的是试卷的质量。大规模标准化考试要保持评价标准的稳定性,必须从保证试卷质量着手。试卷的设计要解决考什么和怎么考的问题,同时要保持评分的一致性。前者涉及考试的效度,后者涉及考试的信度。 下面分别从命题过程、记分体制、作文分调整及考务管理等方面说明大学英语四、六级考试的质量控制措施。 •命题流程 大规模标准化考试由于规模大,不得不大量采用多项选择题,以便实现机器阅卷并保证评分的客观性和一致性。实验研究证明多项选择题不但可以考核记忆,也可考核判断、分析、推理,甚至可以考核应用。多项选择题虽然形式简单,阅卷方便,但是其命题却是一项专业性极强的工作。 为了保证多项选择题的质量,不但要有一支经过专业训练的命题员队伍,而且整个命题过程包括许多环节,一般来说,用于大规模标准化考试的多项选择题,其命题流程应包含如下环节: 大规模标准化考试中多项选择题的命题流程 •命题要求 大学英语四、六级考试委员会以三个考试中心为基础建立了相当稳定的命题员网络。命题员都经过专门训练,熟悉客观题和主观题的命题原则。命题员送交的客观题在题眼的确定、题干和选择项的设计等方面都要符合多项选择题的基本技术指标。此外,考试委员会还对各部分试题提出了具体的命题要求,从考核什么语言技能到怎么考核有关语言技能,都提出了明确的可以操作的要求,以保证考试的效度。 1) 听力理解部分命题要求 听力理解部分的目的是测试学生获取口头信息的能力,包括理解主旨大意、重要的事实细节、理解隐含的意义、言语的交际功能、理解谈话人的观点态度等。 听力理解部分主要考核语言能力,要避免测验智力、记忆力或背景知识等语言外的能力。 听力理解部分目前分为对话和短篇听力材料两部分,所选材料应当是题材熟悉的对话、讲话、叙述、解说等,语言要口语化,避免采用书面语体太强的材料。所用词语不超出教学大纲词汇表规定的范围。 命题时应考虑能够全面考核教学大纲所规定的各种听力微技能。在构成一张试卷时各种听力微技能都要占一定比例。 2) 阅读理解部分命题要求 阅读理解部分的目的是测试学生通过阅读获取信息的能力。包括掌握所读材料的主旨和大意;了解说明主旨和大意的事实和细节;既理解字面的意思,也能根据所读材料进行一定的判断和推论;既理解个别句子的意义,也理解上下文的逻辑关系,理解文章的深层含义。阅读理解不但要求准确,而且要有一定的速度。 阅读材料的选材原则是: (1) 题材广泛,可以包括人物传记、社会、文化、日常知识、科普常识等,但是所涉及的背景知识应能为学生所理解; (2) 体裁多样,可以包括叙述文、说明文、议论文等,应体现学术英语( English for Academic Purposes )的特点; (3) 语言难度及词汇量符合教学大纲规定的范围。 阅读理解能力包括三个层次:句子层次、语篇层次、以及推理判断层次,命题时应考虑到各个层次的阅读能力要有一定的比例。 3) 词语用法和语法结构部分命题要求 词语用法部分主要测试学生对词和短语的意义、搭配和用法的掌握程度,语法结构部分则主要测试正确使用语法结构的能力。词语用法和语法结构题在四、六级中各占一定比例,但都不应超出教学大纲规定的范围。 4) 完形填空部分命题要求 完形填空部分的目的是测试学生综合运用语言的能力。 完形填空部分的选材原则与阅读理解部分相同,要求学生在全面理解内容的基础上答题。命题时要考虑到要求填入的词项中虚词和实词各占一定比例,并且要包含若干必须在正确理解全文后才可能答对的题项。 5) 综合改错部分命题要求 综合改错部分的目的是测试学生综合运用语言的能力,不但要求学生能够识别错误而且能够写出正确的语言形式,因此是一种对语言表达能力的测试。 综合改错部分的选材要求是题材熟悉、没有背景知识方面的困难、文章难度略浅于阅读理解材料、文章内容要有一定的逻辑展开。命题时在短文中安排 10 个错误(不含拼写错误或标点错误)要求学生改正。错误分三种类型,一种是需要改正某个词,一种是需要增添某个词,一种是需要删除某个词。需要改正的错误有的是局部性的,有的是全局性的,涉及篇章结构;两者有一定比例,要求考生在全面理解内容的基础上改正错误,使短文的意思完整、语言正确。 6) 短文写作部分命题要求 短文写作部分的目的是考核学生运用英语书面表达思想的能力,要求学生在 30 分钟内写出一篇短文,四级不少于 100 词,六级为不少于 120 词。试卷上可能给出题目、或要求看图作文、或根据所给文章(英语或汉语)写成摘要或大意、或给出关键词或提纲要求写成短文等等。短文写作部分的命题原则是要做到使考生要求明确,使考生能够展开思想,学习好的和学习一般的学生都有内容可写,但要避免构思方面的困难,不含有背景知识方面的困难,以便达到考核书面表达能力的目的。评分时主要考虑作文是否切题、能否正确表达思想、意义是否连贯、文理是否基本通顺并无重大语言错误等。 •题库建设 题库建设是一个考试机构的基本建设,为了建设题库,大学英语四、六级考试的试卷在考前考后都严格保密。题库要有一定的数学模型,没有数学模型的试题的集合称为题堆(Item Pool),目前大学英语四、六级考试的题库建设采用经典测验理论(CTT)数学模型,今后拟逐步过渡到采用试题响应理论(IRT)数学模型,并在此基础上逐步开发大学英语四、六级考试自适应计算机考试系统。 大学英语考试的数据处理 大学英语四、六级考试每次考试结束后在发布考试成绩之前,要经过一系列的统计处理,分为数据输入、数据处理、成绩计算及统计分析三部分,其流程如下: 大学英语四、六级考试机器阅卷及统计分析流程图 大学英语四、六级考试每年考生超过一百万,因此只能依靠机器阅卷。为了保证机器阅卷的精度及正确性,在数据输入阶段还要采取大量质量保证措施。 数据输入阶段结束后即开始数据处理阶段,包括 IRT 等值处理、作文分调整、考生成绩正态化处理三个步骤。大学英语四、六级考试为了进行等值处理,每次考试前一周要组织对比考试,建立 IRT 等值处理模型。 在对客观题进行等值处理后,对作文分进行调整。进行作文分调整的目的是滤除阅卷过程中阅卷员评分的主观误差,保证主观题的阅卷信度。这一步骤完成后输出客观题成绩在 25 分以下而作文成绩在 10 分以上的异常考生清单,这种客观题得分极低而主观题得分相当高的异常情况说明必然在某一环节上发生了差错。这时首先检查考生的答题纸,再查作文成绩,检查是否登分错误、或阅卷员评分错误、或因为考生填错 A、B 卷代号而造成错误等等。在以上步骤都确认正确无误后,输出作文分调整模型。 最后进行各种统计,包括全国的、各省市的、各校的成绩统计。作为数据处理的最后一环还要进行试题分析、完成试卷检验报告。 大学英语四、六级考试的数据处理采取如此严格的质量控制措施是为了保证考试的信度,最终也是为了保证考试的效度,因为没有信度就谈不上效度。 •等值处理 大规模标准化考试的重要标志之一是分数的可比性。为此,首先必须根据考试的性质和目的确定记分体制,使分数具有可解释性,能够说明分数所反映的考生实际水平,以便于用户使用;此外还必须通过等值处理,使不同考次的分数做到等值,达到可比的目的,并保持稳定的测量标准,也就是保持记分体制的参照系不变。 大学英语四、六级考试等值处理的方法及其质量控制措施见《大学英语四、六级考试效度研究》一书。 •作文分调整 作文是一种对语言表达能力的考试。学生运用语言的结果,可以直接观察,因此作文是一种直接考试。只要题目出得好,作文对考生语言能力的测量最准确,效度最高。而且作文这种题型最难搞应试培训,也最难搞题海战术。要提高学生的成绩,唯一途径是扎扎实实搞好课堂教学,提高学生实际英语能力。从组织考试的角度来看,采用作文题的困难在于如何保证评分的一致性。 作文题是主观题。所谓主观题只是指在阅卷过程中评分要依靠阅卷员的主观判断的题目。至于命题和答题,当然必然是主观的。这些因素最终都会影响到对作文阅卷的判分。要使作文卷的分数能正确地反映考生的真实能力,如果不考虑考生本身这一因素,则影响最大的主要是命题和阅卷两个因素。 大学英语四、六级考试中安排短文写作这一部分,主要目的是考核学生用英语进行书面表达的能力,也就是说主要是考核语言运用能力,因此大学英语四、六级考试的作文部分不是自由作文,而是有控制的作文,对考生写什么内容有比较明确的要求,用各种明确的方式如提纲、图表、关键词等加以规定;但提纲常用中文给出,以避免考生将提纲中的文字直接抄录进作文。采用有控制的作文也有利于提高评分的一致性。 对作文评分影响最大的是评分过程。同一篇作文,不同的阅卷员可能给出不同的分数。提高作文阅卷的信度就是要保证评分的一致性,包括阅卷员本人的一致性(intra-marker consistency)、阅卷员之间的一致性(inter-marker consistency)、和阅卷点之间的一致性(inter-centre consistency),要采取一定的质量控制措施尽量减少和滤除阅卷员评分的主观性对分数客观性的影响。 近年来在大规模标准化考试中采用作文题的重要性已为大家所接受,对作文评分的研究发展也很快。 作文题的评分通常有两种方法:一种是综合法(holistic approach),一种是分析法(analytic approach)。分析法是把一篇作文分解为若干要点,如内容、结构、文章连贯性(cohesion)、语法、词汇等,不同的要点也可作不同的加权处理,各要点得分的总和即为全篇得分。综合法是凭阅卷员通读一遍的总体印象打分。综合法的优点是能从总体上把握通篇印象,评卷速度比较快。此外,为了提高阅卷的信度也有采用两读的方法,即每篇作文由两名阅卷员分别独立评分,若分数差两档以上,由第三名阅卷员重判。考虑到大学英语四、六级考试规模太大,不可能进行两读,因此,决定采用综合法和一读的评分方法,然后根据考生的客观题得分进行调整,滤除系统误差。大学英语四、六级考试实践和效度研究结果证明,大学英语四、六级考试目前采用的作文分调整方法能保证阅卷信度。 大学英语考试效度研究 大学英语四、六级考试到 92 年 9 月时已实施五年,为了验证大学英语四、六级考试的效度,进一步改革与完善大学英语四、六级考试,自 92 年 10 月起至 95 年 12 月进行了为期三年的大学英语四、六级考试效度研究。 •大学英语考试效度研究的目的 1. 论证大学英语四、六级考试作为一种大规模标准化考试的可靠性、科学性,检验大学英语四、六级考试能否为准确测量学生英语水平提供科学的手段; 2. 改善大学英语考试的后效,推动教学大纲的贯彻执行,使考试更好地为教学服务; 3. 如有必要,改进大学英语考试的设计,采用新题型,完善考试的格式和形式; 4. 验证大学英语四、六级考试的统计分析手段,验证它能否为教学提供必要的动态信息; 5. 推动对语言测试和大规模标准化考试的理论研究。 •大学英语考试效度研究的组织 大学英语四、六级考试效度研究是经国家教委和英国文化委员会批准的中英合作项目,为期三年,其中英方得到了英国政府海外开发署的支持,中方由全国大学英语四、六级考试委员会负责,并成立了专门的效度研究小组;英方由雷丁大学(University of Reading)应用语言学研究中心 ( CALS ) 负责。 •大学英语考试效度研究的内容 大学英语四、六级考试效度研究涉及结构效度(construct validity)、内容效度(content validity)、同期效度(concurrent validity)、预期效度(predictive validity)、表面效度(face validity)等,此外还对题型、记分体制、统计分析软件、考务管理等方面进行了全面的研究检验。在三年研究期间,制定了大学英语四、六级考试内容规范、完成了大学英语四、六级考试范型试卷、组织了各种大规模的对比考试、实验研究、问卷调查、座谈会等,此外还进行了阅读测试过程的内省法心理研究。通过对所得到的大量数据及实验结果进行统计分析,可以得出如下结论: 1) 大学英语四、六级考试是一项信度极高的考试,每次考试客观题的内部信度都达到0.9 以上; 2) 大学英语四、六级考试是一项效度相当高的考试,回收问卷中有 92%的教师认为大学英语四、六级考试能反映学生的实际英语水平; 3) 大学英语四、六级考试是一种尺度相关-常模参照性考试,其设定的及格线与教师对学生是否及格的判断,相关高达 0.82;大学英语考试成绩与教师判断的学生成绩,名次相关高达 0.7,这在大规模标准化考试中是极难做到的; 4) 大学英语四、六级考试的内容设计合理,86%以上的教师认为各部分内容比例适当,内容对各专业学生均公正; 5) 大学英语四、六级考试已建立了一整套完整的制度;在试卷设计方面,从命题、预测、试题项目分析到题库建设等都有严格的质量控制措施,保证了该考试学术水平的稳定性;在统计分析及成绩发布方面,从自动阅卷、IRT 等值处理、作文分调整到成绩正态化处理等都有成熟的措施,保证了成绩报导的科学性和一致性;在考务组织方面有严格的制度,保证了考试的严密性和公正性; 6) 大学英语四、六级考试已开发了一系列计算机软件,为考试的组织、实施、管理和成绩的统计计算提供了条件,实现了考试过程管理的计算机化,每次考试为各级教学行政部门进行决策提供了大量信息; 7) 大学英语四、六级考试实施八年来已建立了一支有相当规模的、老中青结合的专业队伍,并已经具备有一定规模的计算机设备及图书资料,有能力开展语言测试方面的重要研究。 计算机自适应考试 传统的测验,不论考生水平高低全部要接受同一批题目的测验,结果对水平低的考生来说,那些难度大的题目,根本无法作答,反而引起焦虑。对高水平考生来说,那些难度小的题目,又测不出考生的真实水平,徒然浪费精力。理论的分析与实践的经验都证明,当题目难度跟考生水平相适应时,题目所提供的信息量最大,考生的积极性最高,测验效度也就最好。 八十年代中期兴起的机助自适应测验解决了主动适应考生状况的“因人施测”问题。其理论基础题目响应理论(IRT)建立了深刻地、综合地反映考生作答反应与题目质量及能力水平间关系的非线性模型,估出的能力水平不依赖于特定的施测题目样本,而且能明确算出信息量即测量精度,因而,即使两考生各自接受了一批难度变化不同的测验,据此估出的能力水平值也是可以相互比较,处于同一量表上的值。 编制自适应测验,首先要建立大型题库,题库要有一定的教学模型,没有教学模型的试题称为题堆,在测试中没有使用价值。机助自适应考试以题目响应理论(IRT)为教学模型建立题库,这是一项要耗费大量人力和财力的工程。而考试的施测大体分为两个阶段,一是考生能力水平的探查阶段。具体做法可以是,从题库中随机调取一中等难度水平题目施测;若考生能正确作答,则继之以更难的题目;若考生不能正确作答,则继之以较易的题目,到考生既有答对题目又有答错题目时,就可以初步估出其能力值。第二步针对初步估计能力值继续从题库中挑出难度最适当、信息量最大的题目施测,并不断地估计考生能力,逐步向考生的能力真值逼近,直到满足测量精度要求为止,从面对考生的真实能力作出准确的评价。 自九十年代初期开始,全国大学英语四、六级考试委员会一直致力于题目响应理论和“机助自适应测验”的研究和开发。目前 IRT 已成功地用于 CET 分数等值处理过程中,机助自适应测验题库也正在建设和完善过程中,我们希望不久将推出 CET 机助自适应测验系统,为中国英语测验开辟一块新的园地。 大学英语口语考试 为了进一步推动我国大学英语教学,适应国家改革开放的需要,使学生更加重视英语口语学习,获得较强的交际能力,经教育部高等教育司批准,全国大学英语四、六级考试委员会将开始实施口语考试(CET- Spoken English Test),1999 年 5 月起将首先在部分重点院校试行。报考对象暂定为大学英语四、六级考试成绩达到 80 分的在校本科生及在校研究生,符合报考条件者自愿参加。考试每年举行两次。 考试成绩合格者发给证书。证书分为三个等级,A 等表示能用英语就熟悉的题材进行口语交际,基本上没有困难;B 等表示能用英语就熟悉的题材进行口语交际,有些困难,但不影响理解;C 等表示具有初步的英语口语交际能力。 高级英语阅读能力测试 根据全国大学英语教学大纲规定,在基础阶段的英语教学完成以后,大学英语必须继续进行更高一级的专业英语阅读教学。这一课程也被大纲列为全国大学生的必修课,是继基础阶段完成以后的必要阶段。是保证实现教学目标的重要环节。 但是自 1985 年以来,专业英语阅读教学并未受到足够的重视。专业英语阅读的教学与测试的实践仍处于比较“自由化”的状态。不同院校对此课程的认识不同,重视程度不同,采用的教材不同,测试方法也不同。这样,教学大纲中规定的培养“以英语为工具通过阅读获取专业所需信息的能力”这一根本的教学目的就有可能落空。专业英语阅读课程没有受到足够重视的原因是多方面的,如缺乏合适的教材,英语教师缺乏专业知识,专业教师缺乏英语能力等等。其中一个重要原因是没有适当的检查手段。 对于专业英语阅读能力的培养,大多数高等院校还是认识其必要性的,因为这一能力对大学生今后在专业上的提高和发展至关重要。为此,早在 1988 年教育部高教司外语处就提出要“正确理解全面贯彻执行教学大纲”。近年来,在高教司外语处的领导下,全国高校已开始重视专业阅读课程的教学。随着专业英语阅读教学的不断正规化,客观上要求在我国部分重点高校范围内为专业英语阅读教学提供一种测试手段。 因此,高级英语阅读能力测试(AERT)项目的长远目标是通过设计一个有理论基础的、高效度、高信度的高级英语阅读考试来推动全国的大学专业英语阅读的教学,以期最终真正、彻底地实现大学英语教学大纲所规定的目标,使我国大学生真正具备“以英语为工具获取专业所需的信息的能力”,更好地为我国的现代化建设服务。 在基础阶段,英语阅读教学与测试(如 CET 的 reading comprehension test)仍以提高学生的英语语言能力为目标,而在高级英语阅读阶段,教学与测试的重点应转向阅读的各种技能和策略的培养。因此,AERT项目的近期目标是:(1)设计一个高效度、高信度的高级英语阅读考试,使之能最大限度地体现专业英语阅读阶段的教学目标。(2)不断完善 AERT 考试,使之能最有效的测量大学生专业英语阅读的能力。(3)通过AERT 考试的反拨作用来推动大学三、四年级的专业英语阅读教学。 目前 AERT 研究已经完成,已经建立了一套完整的、有理论依据的、有数据支持的、高效度、高信度的检查专业英语阅读教学效果的、衡量学生专业英语阅读能力的考试体系,包括考试的实施细则,命题及选材的要求和原则、阅卷标准,分数调整,数据分析,成绩报道等诸多的标准化考试必备的因素。在此基础上,已经完成了 AERT 范型卷的设计和命题。 为了对范型卷的各项指标进行检测,在上海和山东进行了两次大规模的试测。研究证实了对中国大学生专业英语阅读的理论模式的假设,肯定了阅读能力的可分解性,即除了一个最主要的一般阅读能力因素外,还存在着快速阅读与仔细阅读这两种不同的阅读方式的因素以及在篇章水平上的阅读与在词汇水平上的阅读这两种不同层次上的阅读的因素。 随着对专业英语阅读教学与测试的不断重视,随着这方面的理论研究的不断深入和实践经验的不断积累,专业英语阅读的教学与测试将会与基础阶段的分级教学和测试一样逐步走上正规化的道路。专业英语阅读将会真正成为大学生的一门必修课,中国的大学毕业生将会真正具备“以英语为工具通过阅读获取专业所需的信息”的能力。 AERT“高级英语阅读能力测试”将以一定方式提供给各校使用。 |