(摘自《儿童心理学手册》第六版第四卷<应用儿童心理学>第4章 数学思维与学习)
CLIA模型的评价部分是关于设计、建构和工具的使用,来决定强有力的学习环境是如何使学生容易地获取数学倾向的不同方面。这暗示那些工具应该按照前面讨论过的数学教学的最终目标和数学学习的本质的观点进行排列。
数学学习的评价,既可以是内部的,也可以是外部的。
内部评价是由教师在课堂上组织的、正式的或较不正式的;外部评价是从外面而来的大规模评价,由地区、州、国家甚至国际水平应用标准化测验或调查进行组织。
如同在NRC(2001b)中讨论的,为达到三个目的而开展了课堂评价和大规模评价:帮助学与教、测量每个学生的成绩和评估学校计划。学者们的观点各不相同,Webb(1992)区分了评定数学的下列目的:给老师提供学生应该知道什么和能够做什么的证据;调查学生知道什么、做什么和相信什么是重要的;通知教育系统中的决策者;整体上监控教育系统的职能。
关于课堂评价,我们认为在CLIA框架中,主要目的是使用针对学习的评价,也就是说它给学生和教师提供有用的信息,来鼓励和优化更深入的学习。Sloane和Kelly对照学习评价或者形成的评价,提出使用学习评价的目标是决定学生能够得到什么和他们是否达到了一定的成绩和熟练水平。一个最近经常被讨论的关于2001年的“不让一个儿童落后法案”的话题,他们把这个描述成“高风险测验”。在强调课堂评价之前,我们大规模评价,但大多数不是必然的,采用了高风险测验的方式。
数学学习的大规模评价
在教育中,美国比欧洲更经常使用标准化测验。“不让一个儿童落后法案”和相关的有责任的需求已经提升了这一行为,并且强化了高风险测验的有效性和可持取性。特别是自从20世纪90年代开始,对传统的测验进行了批判。虽然各种研究已经提高了潜在的理论和成绩评价技术,但R. Glaser和Silver认为:“不过,目前这一工作的大部分还在实验之中,目前国内教育系统成绩评价中最普遍使用的练习在过去50年内几乎没有什么变化。”
如前所述,对广泛使用的标准化测验的分析表明,数学能力的新观点和那些测验所涵盖的内容之间不匹配。由于多种选择模式过多地使用,测验集中于评价记忆的事实、死记硬背的知识和低水平的操作能力。它们不能充分地促进学生产生问题解决能力、模式化复杂情境能力、沟通数学观念能力、数学活动和数学倾向的其他更高等级的相关信息和有用的信息。相关的批评指出,针对学生数学学习成绩的倾向测试定位片面,且忽略了那些成绩取得的过程。
这一陈述的一个重要结果是评价经常对课程的执行、课堂气氛、指导练习有负面的影响,且产生了WYTIWYG原则(测验你什么,你就得到什么,What You Test Is What
You Get)(1992)。事实上,测验给学生和教师传递了一个暗示的信息,即只有事实、标准程序和低水平技巧在数学教育中是重要的和有价值的。结果导致教师倾向于“教测验”,即他们对理解、推理和问题解决的教学为代价,调整和减少他们的指导来给予测验所要求的低水平知识和能力的讲授。
大多数传统的评价工具的另一个主要的缺点是,它们与教学相脱节。事实上,因为他们的静态和结果定位的性质,大多数的成绩测量不能提供学生对基本概念的理解、他们的想法和问题解决过程的反馈。因此,它们不能针对学生和教师的进一步学习和指导提供相关的和有用的信息。在这方面,Chudowsky和Pellegrino质疑大规模的评价是否既能测量又能支持学生的学习,他们提出:
我们提出大规模评价能够并且应该做更多的工作来支持学习的主张。但是为了达到这一点,教育领导者需要重新思考一些目前在美国运作大规模评价的基本的假设、价值和信念。支持变化的知识基础是有用的,但是必须被驾驭。
事实上,除了以前对传统标准化成绩测验固有的批评外,主要争论的一点是,他们对高风险测验结果的解释,也就是,他们为了收集学生成绩的数据进行了基础的强制管理,决定包括学生毕业、教师的酬劳以及学校和学区的鉴定资格等。根据“不让一个儿童落后法案”,这一法案的目标是所有学生在阅读和数学方面进步。尽管如此,更重要的是让人怀疑目前的测验项目是否能真正地鼓励和提高教与学的效果。在Amrein和Berliner(2002)包括18个州的研究中,没有任何有力的证据显示出学生学习的提高,也没有达到那些州的高风险测验项目的预期成果。而且,有很多相反结果的报告,比如,中途退学比例的增加,对少数和特殊教育学生的负面影响,教师和学生在测验中的欺骗,教师离开工作岗位等。此外,在破坏了学习更广泛知识的情况下,学生只会学习测验需要的知识。
正如Cudowskey和Pellegrino提出,因为大规模评价能真正地鼓励和提高学生的学习,我们就必须改变当前测量的基本原理,限制目前高风险测验项目的练习。作为例子,我们可以看看目前在比利时的佛兰德地区的发展大规模测验的一个可以选择的方法。
前文中,我们介绍了我们中心的一个研究,在研究中,我们设计了一个数学问题解决的学习环境,按照佛兰德基础教育的新标准,实验从1998年学年开始持续到1999学年。在后来的项目中,受佛兰德教育部门委托,我们发展了(开发了)整个数学课程新标准的国家评价工具。工具被用在学生小学毕业时对课程标准的达标情况作第一手的、大规模的评价。评价目标不是评估学生个体或学校作为高风险决策的基础,而是获得整体数学成绩的陈述。评价工具包括24个测量等级,每个等级代表一组标准和包含关于数字、测量和几何的所有数学课程。
项目反应理论被应用在该测量的建构上。使用分层的样板设计,一个相当有代表性的样本,来自184所学校的5763个六年级学生(12岁)参与了调查。考虑到评价目的,没有必要获得所有学生个别的成绩,人口样本方法能够被使用“在哪个方面不同的学生承担大规模评价的不同部分,然后合并结果来获得学生整体的成绩”。这一方法也考虑到涵盖整个课程标准的宽度。特别需要指出的是,该工具包含10本册子,每本包括40个项目,属于24个测量等级中等两个或三个;册子在某种程度上是变化的,每本册子中的测量等级代表不同的数学内容(比如,第2册中的项目与百分数和问题解决有关)。每本册子包含500多个六年级样本。四个不同的项目公式被使用:简答(67%),包括一些子问题的简答(14%),多项选择答案(11%)以及结果和过程问题(8%)。特别通过询问动机或对答案的解释来考察最后一种较高级的能力。图4.1显示四个项目格式的每一个的例子。
在24个等级的每一个等级上估计三种表现的学生比例:不充分的、充分的和熟练掌握的。这个评价的结果可简要陈述如下。陈述性知识和那些包含低等级数学程序的知识掌握得最好。关于更加复杂的程序(比如,计算百分数,计算周长、面积、体积)和那些包含高级思维能力的知识(问题解决,估算和近似值)掌握得不太好。后一种发现不那么让人吃惊,因为那些与标准有关的等级在佛兰德斯的数学课程中是相对新的。一个有趣的现象是,没有观察到性别差异的表现。
未来佛兰德教育部门的目标是定期进行这样的大规模数学教学的评价。因为目前正在实施评价,所以现在讨论评价对数学教与学的影响还为时过早。虽然如此,潜在的影响是显而易见的。实际上,因为评价包含了整个课程,它的研究结果对于进一步讨论所有教育相关人士(政策决策者、教师、管理者和教育顾问、父母、学生)对标准的反应是个很好的起点。也由于这种评价方法的宽度,揭示了那些没有被充分掌握的标准。在这样做的过程中,评价通过鉴别课程教与学中那些需要特别关注的方面,给从业者(课程设计者、教师、顾问)提供了相关的反馈;研究者也能集中干预在前面章节中讨论的学生能力的薄弱环节。第三个评价和课程安排的优势是,避免了时常听到的、对测验的教与学的抱怨,特别是在结果公布后能提供适当的咨询和跟踪关注。另外,因为教育部门不需要使用教师和学校个体的评价结果,并且因为不公布学生、班级和学校的分数,就避免了高风险测验的结果。
课堂评价
虽然大规模评价和外部评价具有相关性和重要性,但是它们还需要内部课堂测验的补充。大规模测验是一种价值求和的方式:它们在对包含或多或少广泛的学科领域的课程部分相对长时间的指导之后,才来测量成绩。对学习的评价是很明显的,也就是说,帮助和支持课堂学习,需要格式化:教师在指导的过程中,需要不断地收集学生对知识、技能的理解和掌握的评价信息,把评价信息作为进一步指导和支持学习的基础,如果需要,对个别学生或学生小组提供及时正确的帮助和指导。这样的格式化的评价也提供给学生自己信息的反馈,并作为他们管理和规划个人学习的基础。鉴于外部评价对大规模监控数学教学是有用和重要的,课堂评价考虑到班级整体以及学生个体的强项和弱项,课堂评价试图提供每天的信息来提供学生的学习成绩。
考虑到要完成课堂评价在鼓励和支持学习方面预期的作用,课堂评价工具应按学习目标或标准来安排,与大规模测验类似。因为课堂评价更多地集中在对一个特定学习小组的学习和指导(小组也可能是学生个体),它应该提供关于学生的概念理解和思维过程以及问题解决策略甚至比大规模测验更多的信息。这为教师指导进一步的学习和教学,尤其是调整教学来适应学习者的需要,提供了最好的依据。
在我们的研究中,一个非常简单的例子能阐明这一诊断信息的重要性。在儿童数字加减法的解决过程的研究中,一道题______-12=7,主要得出两个错误答案18和5。两个答案都是错的,但是解答过程是完全不同的:第一个错误答案是由于在执行算术运算时的技术错误;第二个错误是对等号理解上的偏差。通过追踪儿童的解题过程和思路,我们能够测查出他们的理解水平,而这一信息对设计个别学生的辅导计划是必要的。
Reasoning 数量的理解:提高学生的成绩和推理能力)。图4.2所示的开放式问题就提供给中学生这样的问题:Yvonne 一周坐8次公共汽车,花费8美元。购买周票要多花费1美元。”课堂上教师认为这是一个简单的问题,期望得到“否”的答案。但是让人吃惊的是,相当一部分学生的答案是“是”,在传统测验中认为这一回答是错误的。然而,那些儿童的解释是,车票会有一个好的折扣,因为Yvonne能在周末的其他旅行中使用,或者用于其他家庭成员。这清楚地表明,要了解学生入门知识和理解能力,不仅要看他们的答案,而且要看他们的思维和推理的过程。
前面的讨论显示使用评价来帮助指导,需要两方面结合,如同NRC预想的那样:“评价应该是完整教学的一部分。它是一个机制,是教师了解学生的数学思维和学生能完成哪些内容的手段。”依据这一观点,Shavelson和Baxter已经直接指出:“一个好的评价产生好的教学活动,一个好的教学活动产生好的评价。”
我们可以将这一观点放到学习者身上,一个好的评价体系能够产生好的学习行为,一个好的学习行为会产生好的评价。考虑到CLIA模型中的学习概念,这也暗示着评价应该包含给学习者分配有意义的任务,提供自我调节和合作的机会——除了个体外——来接近任务和问题的解决。符合建构主义者的学习观,在学生自我调节的学习中,增加的熟练程度会逐渐导致学生需要自我评价他们的数学学习的能力。当然,从这个观点来看,应该让学生清楚标准和期望。
为了收集学生的表现和进步的数据,一个方法是教师使用大量的技术:非正规问题、课堂作业和家庭作业、访谈和正式的工具,比如课堂测验、学习潜能测验和进步图。由Piaget(1952)首创的访谈是当儿童在解决数学问题时,洞察他们的思维和推理过程的非常有效的技术。由于它容易作出反应和得到开放的答案,为分析思维过程提供了可能。
另一个方法是针对头脑结构和认知过程的诊断,被称作学习潜能测验。Vygotsky(1978)提出最近发展区(ZPD)的一个概念。学习潜能测验的目的是对提供儿童学习能力的ZPD进行诊断的评价。这样的测验包含三个步骤:前测、学习阶段和后测。前测评价儿童面对目标问题的入门能力。在学习阶段,经常采用个别访谈的方式,测试者管理仔细设计的任务的这种顺序,代表着增加的困难水平/转换水平的连续统一体;儿童在解决连续任务时需要帮助的数量被作为衡量学习效率的指标。最后,实施后测来衡量在这一过程中学习的数量。这样,学习潜能测验提供了一个很好的指导和评价相结合的例子。
从发展观来看,对课堂评价非常有用的工具,应该是以理论为基础的,是一幅进步图,它描绘了在给定领域发展和获取知识及能力的典型次序。我们以Griffin和Case发展的数字和知识测验为例来介绍。这个测验最早被用来测试作者关于儿童对于整数的中心概念结构常态发展理论的工具。在这点上,他们区分了四个阶段:
1.初始的查数和数量知识:4岁能查一组数并且具有一些数量的知识,当物品排成一列时,让他们回答多或少的问题。但是他们不能正确回答这样的问题,比如“4和5哪个多”?
2.心算数列策略:6岁左右,儿童能够回答后面那种类型的问题(不用借助物品),表明那两个早期的结构被整合成头脑中的数列,Griffin和Case认为这是一种中心概念结构。
3.双重查数结构:到了8岁,儿童一旦懂得了如何心算,他们不停的形成多位数列的描述,比如2倍、5倍、10倍、100倍的查数。
4.理解全部系统:到了10岁,儿童需要对整个数字系统和以10为基础的数字系统的整体理解。
虽然数字知识测验最初被用作一种研究工具,但在北美已经越来越多地被用作一种诊断评价工具,用来帮助算术教学。为了更好地研究4岁儿童对数字的理解,已对测验进行了修订。修订版本见图4.3。
这个数字知识测试对儿童采用口头和个别进行的方式。测验直到儿童不能回答一定数量的问题,不能进入下一个水平测验的时候停止。这样测验能得到儿童理解数字的发展方面非常丰富的数据,前面提到的它内在的理论基础使它作为一种评价工具更有效。虽然教师最初会经常抗拒这样个别的口头测验,但大部分教师在发现它非常有用价值之后都会改变态度。他们报告说,测验揭示了他们以前不知道的儿童不同的思维方式。因此,教师更加积极地听取学生的想法,他们发现这样做的结果对支持和鼓励学生的学习是非常有帮助的。
小结
在过去15年中,理论的研究和实证主义研究让评价的作用发生了重大变化,与建构主义学者的学习观一致。NRC(2001b)总结这些作用如下:
评价,特别是那些在课堂指导情境下的评价,应该把注意力放在“把学生的思维方式呈现给老师和他们自己”上,这样老师能够选择指导策略来支持未来学习的合适的过程……评价最重要的作用之一是,在教与学的过程中向学生提供及时的和有益的反馈,以使他们的技巧的实施和随后的学习是有效的和有效率的。
学习和教学领域的研究者,也包括测验和心理测验学的专家,已经开始努力设计和建构创新的评价手段与建立新的理论和程序,也致力于基于研究对评价和教学进行明确的整合。
虽然如此,我们只进行了第一步,因此我们还需要进行更广泛的长期的研究。对评价新观点的执行首先需要打破在教育行为评估中普遍的传统观点。我们需要说服政策制定者、实践者和公众,目前的高风险测验的教育观以及评估对学习有好处的观点是无效的,甚至是有害的。这很关键,因为大规模评价在通常的标准测验方案中传播并且影响课堂评价。如同Amrein和Berliner(2002)讨论的那样,如果高风险测验不能达到预期的结果或者产生了意料之外的负面结果,那么现在就应该更加全面地商讨高风险测试政策并且努力地改变它们。
一个未来研究的主要的挑战是,把心理测验学理论与目前有成效的学习和有效率的教学结合起来。在这点上,最近已经取得了一些进展,向NRC(2001b)的报告《了解学生们知道什么:教育评价的科学和设计》描述的那样。但是要建构可选择的新的教育评价方法还有许多工作要做。另外一个研究的重要的争论是发展以计算机为基础的评价系统。由于计算机可以表示多种任务和难题的可能性,考虑到学习者以前的知识和能力,计算机有适应测验和提供反馈的潜能,以及储存和处理数据的能力,计算机在实现挑战性的工作和实施评价方法方式来帮助和支持学习和指导上是非常有用的。