2022-04-03呼建荣，中原焦点团队，网络初级第33期，坚持分享174天。

阅读书籍《教育心理学》，读书感悟：第14章标准化测验和问责

一、什么是标准化测验以及如何使用？

标准化测验：通常在全国范围内使用的商业化测验，设计的目的是提供准确的、有意义的信息，反映学生相对于同年龄或同年级其他学生水平的表现。

标准化测验的目的通常是提供一个标准以将学生个体或群体之间与之比较，而这样的标准是教师自编测验所无法提供的。

标准化测验的编制通常是非常严谨的，以提供有关学生成绩水平的准确信息。

最后测验的最终版被编制出来，并对全国范围内造取得更大的学生群体施测。

常模：可被用作解释未来受测者分数的标准，这些标准来自于同受测者相似的样本群体。常模代表了中等水平的学生在这项测验上得分情况。

1.选拔和安置

标准化测验常常被用于选拔将要录取或安置到特定教育方案中的学生。

2.诊断：标准化测验常被用于诊断个别学生的学习问题或学习特长。

3.评价和问责

标准化测验最普遍的用途就是评价学生的进步以及学校和教师教学的有效性。

4.学校改善

标准化测验有助于改改善教育进程。一些标准化测验的结果为恰当的安置学生提供了信息，也提供了实施补救时非常重要的诊断性信息。

学校常常借助学业成就测验来评价不同的教育方案和策略的相对有效性。

二、标准化测验有哪些类型？

能力倾向测验：用于评估学生的能力。预测学生学习和完成某种特定任务的能力，而不是测量学生已经掌握了多少。用以测量一般能力并预测未来表现的一种测验。

成就测验：测量在一种特点的背景下学生学到了多少知识的一种标准化测验。

①预测学生在以后的某科学习中的成就

②诊断学生存在的困难，

③作为衡量学生进步的形成性测验，

④作为学生的总结性测验。

常模参照成就测验是对学生在特定内容领域内的知识掌握程度的评估。

标准参照成就测验也对学生掌握的学科内容进行评估，但她不将每个学生的成绩与全国常模进行比较，而是意在考查学生在多大程度上掌握了某种详细界定的技能。

1.能力倾向测验。

一般智力测验。

①智力：一般的学习能力倾向，通常以处理信抽象息和问题解决的能力来测量。

设计智力测验的目的是为了个体在许多领域中的智力机能的能力倾向提供一般性的指标。

②智商测量。

心理年龄：特定年龄的学生所得到的平均测验分数。

实际年龄：个体以年数计的年龄。

③多因子能力倾向成套测验：预测学生学习各种具体技能和一系列类型知识能力的一种测验。

2.常模参照成就测验。

能力倾向测验关注一般的学习潜能以及在校内外获得的各种知识，成就测验则主要关注传统上在学校中教授的技能和能力。

成就测验组：包括一些小测验的标准化测验，主要用来测查特定学科领域的知识。

诊断性测验：通常关注某个具体的内容领域，并强调对重要技能的考察，这些技能对于掌握该领域内容是至关重要的。针对具体技能的测验，经常用来识别学生的需要并对教学提供指导。

3.标准参照成就测验。

采用成就测验组、诊断性测验或单科测验的形式。

4.标准的设定。

临界分数：被认定为对一门学科达到掌握水平所需的最低分数。

三、如何解释标准化测验？

转换分数：根据原始分数计算出来的值，这个值是将学生的成绩与常模团体成绩相比较得来的。

1.百分位数：一种转换分数，它指明了常模团体中取得的原始分低于某个特点分数的学生的百分比。

2.年级当量分数：将学生原始分数与不同年级水平常模团体学生获得的平均分数相联系的标准分数。

3.标准分数。

正态分布：一种钟形的、对称的分数分布，在这样的分布中大部分分数分布于平均数附近，随着离平均数的距离越来越大，出现的分数也越来越少。

标准差：表示分数分布中离散程度的统计量。

标准九分数：一类范围从1到9的标准分数，平均数是5，标准差是2。

正态曲线当量分数：一套范围从1到99的标准分数，平均数是50。标准差约为21。

Z分数：一种平均分数为零，标准差是1的标准分数。

四、标准化测验和课堂测验的使用应当关注哪些问题？

1.测验效度。

效度：对一项测验在多大程度上适合其预期用途的测量指标。指这些推断在多大程度上是合理的。

①效度的内容证据。

内容证据：对测验内容和之前的教学内容匹配程度的测量标准。对所教的或是应该教的内容与所测的内容之间重叠程度的一种评估。

②效度的效标相关证据。

校标相关证据：校度的一种常用证据，当测验分数同相关特质的另一种测量分数之间具有相关时，则表明存在感证据。通过考察该测验分数与其他各种测验分数之间的关系而得来的。

预测证据：校标相关证据的一种，当一个测验分数可以预测另一个与该测验有关特质的测验分数时，就表明存在该证据。可以度量该测验有多大能力预测将来的行为。

同时证据：校标相关证据的一种，当一项测验的分数与相同特质或一种想非常相似的特质的一种测量分数存在相关时，就表明存在该证据。他判定该测验与另一个测验测量的内容领域是否相同。

区别证据：一种效度证据，当教育或心理理论预测某项测验的分数与其他一些特质的测量分数，之间不应该相关，且实际的测验分数同这些特质的一项或多项测量分数之间也确实存在相关的时候，就表明存在证据。

2.测验信度

信度：对同一批学生在不同的时间多次接受测验获得的分数的一次性的测量标准。涉及对技能和知识的测量准确性。

3.测验偏差。

偏差：测验的一个不良特征，主要指测验题项的内容对某些学生存在歧视。

4.计算机测验的实施。

计算机自适应：一种评估途径，在这种评估中，计算机被用来呈现题目，每道题目的呈现都取决于应试者对先前题目的回答。

教育者如何对学生的成绩负责？

让教师、学校和学区对学生的学习负责，这方面的努力近年来还有逐渐增多的趋势。

问责运动的兴起部分源于公众对教育的信心的丧失。

问责测验所依据的标准通常是由不同的利益相关群体确定的，这些群体包括教师、家长、雇主和研究者，他们会表达对应该教什么、学什么的判断。

1.不让一个孩子掉队。（NCLB）

不让一个孩子掉队，法案是布什政府最重要的教育政策。一项联邦法案，该法案要求从三年级到八年级外加高中的学生要进行年度测验，还要求学校取得充足年度进步，并如不能达到标准的学校提供帮助。

①年度测验。

②分解报告分数。

③充足的年度进步。

④不能达到充足年度进步的后果。

对NCLB的批评。

①过度和范围狭窄的测验。

②标准的州际差异。

③对nc lb资金投入不足。

NCLB产生的影响。

①州和学区官员报告州测验的成绩提高了，但是不清楚这是否有意义。

②学校花费更多的时间在阅读和数学上，有时为此而牺牲非测试科目。

③学校在测验分数以及调整一致上集中了更多的注意力。

④表现较差的学校只是在进行改良，而不是大刀阔斧的重组。

⑤教师在展现教学资质方面有所进步。

⑥学生参加了更多的测验，

⑦学校更加关注特定群体的成就。

⑧州“需要改进”清单上的学校百分比相当大。

⑨联邦政府在教育中充当了更为重要的角色。

⑩实施 NCLB，州和学区在卓个学校运作中的职责更大，但缺乏足够的资金来实现他们的新职责。

2.奥巴马政府的教育策政策。

①对于学生的测验分数保持严格问责。

②政府正在推动各种建立区域性或全国性的合作组织，在标准和评估上达成一致，部分或者完全地消除各州在定义成功方面的差异。

③政府正在鼓励各州对长期以来都未能成功的学校进入进行重大改革，比如停办、解雇部分或者全部职员，采用经过验证的转型模式或者允许他们变成特许学校。

④政府非常赞同特许学校，并正推动州政府提高每年开办特许学校数目的上限。

⑤作为奥巴马政府美国再投资和改革法案的一部分，大部分的钱被投入了教育，因此政府有能力促使州和学区跟从政府的工作重点。否则就得不到ARRA的资金。

3.基准评估

基准评估：为了帮助教师知道学生是否正向州标准定义的成功前进而每几个月进行一次阶段的测验。

4.数据驱动改良。

数据启动改良：强调仔细分析数据并对需要加强的领域实施已验证有效的方案的学校改良策略。

5.增效评估系统。

他判定一所学校为他的学生增加了多少知识。

6.为残障学生调整测验。

7.为英语学习者调整测验。

2022-04-03呼建荣，中原焦点团队，网络初级第33期，坚持分享174天。

你可能感兴趣的:(2022-04-03呼建荣，中原焦点团队，网络初级第33期，坚持分享174天。)