本章目标
区分评价、测量和评估以及各自的功能。
区分常模参照评估和标准参照评估。
了解如何用信度、效度和无偏性来理解和判断评估过程。
描述两种传统的课堂测验以及如何使用真实性评估作为传统测验的补充。
描述分数对学生的影响以及教师与家长沟通学生分数的策略。
解释一些常见的标准测验分数、如百分等级、标准九、年级当量和量表分数。
了解当前标准测验中存在的问题。
第一节教学评估的基本含义
标准化测验是因为它们通过一种标准的方式进行管理、评分和解释——相同的目标、测试时间限制和对所有学生进行评分。课堂评估有许多不同的形式——单元测验、小论文、档案袋、完成项目、动手操作、口头报告等。
一、测量与评估
测量是量化的——用数字对一个事件或特征进行描述。测量在许多课堂决策中确实扮演了非常重要的角色。如果运用恰当的话,测量可以为决策制定提供无偏的数据。
评估的概念比测验或测量的概念都要广泛,因为评估包含了取样和观察学生知识、技能和能力的所有方法。
形成星评估发生在教学之前或教学过程中。形成性评估的目的是指导教师计划和改善教学,同时也帮助学生改善学习。前测能够帮助教师了解学生已经知道了什么。
终结性评估发生在教学之后,目的是让教师和学生知道任务达成的水平。
常模参照测验中,所有参加过该测验的人的成绩沟成了常模,并以此来确定某一个体分数的含义。常模团体或称作比较团体——班级(内部)、学区或全国样本。
将测验成绩与某一给定标准或标准行为进行比较,这就是标准参照测验。标准参照测验测量的是对某些特定目标的掌握程度。在教授基本技巧的时候,很多例子表明,把个人成绩与事前确立的某些标准进行比较比与他人比较更重要。
每一种类型的测验在一定情境中都是有价值的,但每种测验都有其自身的局限性。
二、信度和效度
事实上,没有任何一个测验能够对个体的能力提供完全正确的描述,测验只测量了一小部分行为样本。
测量信度意味着稳定性或者重测信度。所有的信度值都在0.0-1.0之间,就像相关系数一样,超过0.9就认为测验是非常可信的,0.8-0.9之间是良好,低于0.8的信度对于一些标准化测试而言就不是很好了。题目多的测验比题目少的测验信度更高。
当选择学生参加某些特殊的题目时,记住标准误带是很重要的。
效度与某个特殊的用途或目的有关。一个特定的测验对于某个目的可能是有效的,而对于另一个目的可能就没有效了。
评估偏见包含两种形式:不公平和冒犯性。
第二节课堂测验评估
一、使用课本上的测验
如果课本测验的质量很高,与你的测验计划相符合,同时与你的教学目标相一致,那么运用这些测验就是一个不错的选择。
二、客观题
多选题、连线题、判断题]简答题和填空题都是客观测验。客观测验的多样性能够降低学生的焦虑水平,因为测验分数并不依赖于一种类型的问题,而这种类型的题目有的同学可能会感到很困难。
所有的测验题目都需要巧妙的构思,但是编写好的多选题确实是一个挑战。题干是多选题重提出问题的部分。接下来的选择则被称为选项错误选项被称作干扰项,因为他们的目的就是干扰那些对材料一知半解的学生。
三、论述题
论述题的题目为学生提供了清晰明确的任务,同时指明了答案中应该包含的要素。增加论述题测验的频率,要比在一次测验中做多个论述题要好。
论述题的评分有几个策略:首先最好是建立一个评分标准或评分说明,并与学生分享;然后,决定在每个答案中应该包含那种类型的信息。
设计良好的传统测验能够有效地评估学生的知识。为了教授更多的内容,教师需要决定学生到底掌握了多少内容,而传统测验恰好能提供有关内容学习的有效信息。测验对于激发和引领学生的学习,也是很有价值的。
第三节真实课堂评估
一、真实性与表现性评估
真实性评估要求学生在真实生活中运用技能和能力。表现性评估就是为了展现学习效果,要求学生开展一项活动或制作一个物品。对真实性评估的关注,促进了多种基于情景表现目标的测量方法的发展。不是要求学生去寻求那些假设情景中的“事实性”问题的答案,而是去解决真实世界的问题。
二、档案袋和成果展示
档案袋和成果展示是两种需要学生在一定情境中进行表现的评估方式。档案袋就是一个收集作品的系统,常常包括表现工作进步,修改的作品,也包括学生的自我分析,以及对学生所学知识的反思。
成果展示是一种表现性评估,并具有两种额外的特征。首先,它具有公开性,所以学生在准备过程中需要考虑观众的因素,交流和理解是很关键的。其次,展览品需要很长时间的准备,因为这是整个学习项目的最终的经历呈现。
三、评价档案袋和行为表现
由于对行为表现,档案袋和成果展示的评估都是标准参照,而非常模参照。
表现性评估要求教师作出仔细判断,同时需要与学生沟通什么是好的行为,或者什么地方需要改进。
让学生参与制定评分等级和评分准则,对于学生的成长是很有帮助的。
由于教师的个人判断在评价学生行为表现时占有重要作用,因此有关信度、效度和普遍性的问题就是需要重点考虑的因素。
就效度而言,有证据表明,通过档案袋评价被评为“优秀的写作者”的学生,却在标准协作测验中表现得不那么优秀。
公平性是所有评估方式都需要考虑得问题,行为表现评估和档案袋评估也一样。
四、非正式评估
非正式评估是不给出等级得评价,从多种渠道收集信息以帮助教师作出决策。
日记是在非正式评估中较具灵活性且应用非常广泛得一种方式。
让学生参与评估过程,一方面可以让教学和评估过程相联系,另一方面能够跟踪和评价自己得进步,也是提高学生效能感得一种重要方式。
最后需要提醒得是,教师在根据具体得学习目标组织测验题目得基础上,可以为学生准备一个测验分析图,图中应包含有“我得优势”、“快速复习”以及“未来学习”等等三个部分。
第四节评分
一、常模参照评分与标准参照评分
在常模参照评分中,分数主要受到参加这门课程得其他学生表现好坏得影响。在标准参照评分中,分数代表着一系列得成就,如果对课程设置了清晰得目标,分数就代表着目标得达成数量。
二、分数对学生得影响
当教师帮助学生发现了努力学习和成绩改善之间得联系得时候,某种水平得失败对于大多数学生而言反而是有益得。
研究发现,留级生更多是男生,大部分来自弱势群体或贫困家庭、年龄较小。
三、分数与学习动机
作为教师,你可以运用分数来激励学生得学习,最为重要的是,低分一般不会鼓励学生真正参与学习,获得低分的学生会变得更加退缩、责备他人,认为学习是无意义的,或者虽然觉得自己应该为低分负责,但是却不能作出改变。
四、与家长进行沟通
事实上,教师与家长的交流绝不是简单地告诉家长孩子的分数。开家长会是中小学教师经常采取的与家长进行沟通的一种重要方式。很显然,教师的交流技巧越高,在家长会上与家长的沟通就越有效。
一般而言,家长对学生的标准化测验成绩也很感兴趣。
第五节 标准化测验
一、测验分数的类型
标准差测量了分数在多大程度上偏离了平均数。标准差越大,表示分数的分布范围越广;标准差越小,表示围绕在平均数周围的分数就越多。
正态分布是一条钟型曲线,因为它描绘了许多自然发生的物理现象或社会现象,所以它是著名的频数分布,很多分数都落在这条曲线的中间,让这条曲线呈现出钟的形态。
百分等级是报告标准化测验分数中非常有用的一个分数,百分等级的基础是等级。
年级当量一般从各个年级独立的常模样本钟获得。由于年级当量有误导性,并且常常被家长错误解释,所以很多教育工作者和心理学家强烈主张不使用这个分数。
标准分以标准差为基础,最常见的标准分被称之为Z分数。
标准九提供了一种测量学生等级的办法,因为标准九中的每个分数都代表了正态分布中某个具体的百分比范围。
二、解释标准化测验报告
从一个成就测验报告中,教师能够得到什么具体信息呢?测验出版者常常会为每个学生提供一份个人分数剖面图,表示个人在每个具体测验上的得分。
三、测验的责任性和高厉害性
高厉害测验的结果,就是让教师、学校和管理者对学生的行为负责任。对高厉害测验进行的行动研究发现了一些令人困扰的结果,测验让课程变得很狭窄。
一个理想的测验应该符合下列标准:
(1)符合学区的内容标准-这是效度的关键部分。
(2)成为大型评估计划的一部分。没有一个单独的测验能够提供有关学生成就的所有信息。学校要尽量避免根据单一测验结果做出决策。
(3)测验复杂的思维能力,而不仅仅是技能或事实性知识。
(4)对一些已经确认有学习障碍的学生提供其他的测验方式。
(5)如果厉害性太大,提供重复测验的机会。
(6)让所有学生都参与测验,但同时需为测验结果提供信息充分的报告。
(7)如果学生没有通过测验,需要提供适当的补救措施。
(8)确保所有参加测验的学生在测验前都有适当的机会去学习材料。
(9)考虑学生的语言水平。
(10)测验结果的使用应该有利于学生的发展,而不能相反。
五、量化评估对教师的启示
教学和测验的好坏主要取决于教师能否(1)意识到并对学生的差异作出反应(2)制定明确的学习结果(3)使用前侧和形成性评价监控学生的进步(4)采用多样化的教学方式确保每一个学生都能取得进步(5)确保学生知道终结性测验成功的标准,并且这些测验是与既定的学习目标相联系的(6)提供不同的评估方式,确保学生能够有机会、无障碍地展现自己学到的内容。