保障考试质量的测量学要求

美国:出题100万,测量学100万

一、题目难度与区分度估计

1.1题目质量评价概述

@题目质量中的问题:

*计分方式在设计上有问题(0、3,或0123)

*选择题选项分布

*题目赋分或加权方式不当

*分数合成方式不当

*题目贡献度太小(要么都会、要么都不会)

*题目难度的分布有缺陷

*数据有缺陷

1.2题目作答反应分析

1.2.1 客观题的CTT分析:随不通能力学生段,选项选择的分布变化。

中等水平的学生(平均分)正答率要高于50%,TOP10%学生正答率最高——好题。

高水平正答率高,低水平正答率低

图片发自App

好题目的选项分布特点(选项分布分析):

1.2.2 主观题的CTT分析

0-5,信度0、0.5、1、1.5...

1.3题目参数估计方法

1.3.1经典测量理论

——题目区分度

CTT:

IRT

——题目难度()

1.3.2 客观题的IRT分析

题目反应理论模型

a斜率:区分度,b:难度,c:猜测度

考试目的不同,选择题目不同

图片发自App

二、信度估计与效度证据收集

2.1信度效度的概念

图片发自App

①信度一致,效度不好(偏离-系统误差造成)

④信度和效度都好

控制好系统误差和随机误差

案例:重大考试的测量信度调查——张厚粲、郑日昌《教育研究》1985

试卷题目作答反应分析——好试卷的题目反应类型(天花板定多高,地板定多低)

2.2测量信度的估计(0.8以上)

计算(spss错,有前提条件)

2.2.1信度估计案例:alpha系数

2.2.2 信度估计案例:重测信度(前测、后测)

2.3效度证据的收集

————结构效度的因素分析证据案例(要考哪些知识,是否真的有这些东西)

eg.实证效度举例:WISC-IV(GT/MR)

2.4保障质量的组卷建议

1.能力呈正态分布,题目不能正态分布(均匀分布)

2.题目难度呈均匀分布


三、分数表达与使用的恰当性

3.1原始分数解读

3.1.1 原始分数的局限

*总分排序是不正确的

3.1.2 原始分总分不合理

(高考排序,数学!!!)

3.2 常模参照分数

3.2.2 量表分数的转换前提

3.2.3量表分的应用——曾经的标准分制度

3.2.4 区分度太低导致的麻烦

3.内容参照分数


小结与建议

【小结】测量学三要求

【建议】

你可能感兴趣的:(保障考试质量的测量学要求)