2021-08-22

近二十年来，国际教育评价研究的发展走向可以概括为：从注重量化表征到更加注重质性描述；从认为评价与情境无关到更加重视与情境关联；从把评价限定在孤立的过程到评价的主体、客体支持合作的过程；从静态判断到动态生成。这些年来，我国教育评价理论和实践也在进步，但总体上看，对素质教育如何进行评价及指标体系的建立尚在探索之中，更未被实践者所掌握。

对于素质教育评价，我有以下一些不成熟的思考。

素质教育评价不是单一的，它是个评价群，是具有不同主体、不同对象、不同内容、不同方式的评价。

素质教育评价首先应该评价政府。对政府如何进行素质教育的评价呢？这是我们讨论教育公平、素质教育推进时很多学校和校长们提出的问题。我们建议，要健全政府的教育督导制度，评价政府通过公共财政投入、人事制度、管理体制的改革，为学校素质教育提供了怎样的物质、人力和管理保障；同时，政府要通过对学校的评价促进学校均衡发展，政府用什么观念评价学校，用怎样的评价导向来引导学校，这一点应当包含在对政府的评价中。此外，还应有对教师的评价。对教师专业发展的评价应指向有助于学生素质发展的价值方向；政府要用增值评价或发展性评价（增值评价是发展性评价的一种方式）来评价学校，促进学校均衡发展。今后学校之间的竞争，不完全在水平上，应更多地鼓励他们增值和提高发展的幅度。现在，我们对教师的评价流行专业评价，但专业评价与学生的发展究竟是什么关系呢？对教师的专业评价是不是一定对促进学生的发展有帮助呢？这也是需要思考的。比如我们如何能测得教师与学生打交道的能力？如何能测得教师对学生道德发展所做的努力？如何能测得教师在教学中融入情感、态度、价值观及品德的教育？这些都应该设法进入对教师的专业评价，从而保障学生的素质发展。

后，学生的发展是素质教育评价的核心和落脚点。也就是说，通过对政府的评价，通过政府对学校的评价，通过学校对教师的评价，终都是为了保障学生的发展。所以，素质教育评价实质上是以素质发展（或者说是学生素质发展）为导向的教育评价。如果说政府为素质教育提供保障性的条件，那么学校则是实施素质教育的主体，而对学校素质教育的评价主要是对学校教育活动本身的评价。

应再次明晰素质教育评价的目的。

素质教育的评价并非为了建构抽象的理论模式，也不能满足于设计统一的评价标准，而是重在发展具体的运作模式。因为评价是为了改进，而并非为了证明。评价的主要目的不在于考核各实施单位的绩效，更重要的是通过评价对素质教育实施与改革提供某种回馈与检视的系统，以改进素质教育推动的机制与实施品质。因此，所有的素质教育评价都应当更多地考虑以自我评价为主，以自我评价为出发点，逐渐转移至外部评价；或者说，必须以自我评价为基础。各级评价规则与运作机制，都要关切各层级单位对于实施素质教育的自我理解，为各层次改革提供一个评价系统。

评价学校、评价教师、评价学生，实际是评价教育活动本身，必须回到人，回到教育活动特性。

素质教育的活动以人为中心，所以，素质教育评价其实是在评价人，评价以人为中心的教育活动。素质教育评价要考虑：教育是基于儿童生命发展的活动，它一定是有机的，因为生命是有机的，生命是复杂的，是独特的，没有一个生命与别的生命是一样的；教育是生态性明显的整体工作，生态关系强调相互依赖、动态平衡、多样统一、能量流；教育是人文性与道德性强烈的神圣事业，虽然在现有的制度和文化中我们很难或很少光顾神圣这个字眼，但是我们不得不从内心里说，教育实在是太神圣了，因为教育会决定一个儿童被抛到社会中有没有他的社会位置，如果在社会格局中没有他的位置，我们又何谈他的尊严、他的自尊、他的生命的可贵、他的生命的前途？所以它是有价值性的、关系到人的尊严的，必须考虑评价的伦理性后果。

应认识素质和素质教育的内涵。

人的素质是以先天禀赋为基础的，它通过知识、能力及情感、态度和价值观等基本要素在新的环境下不断更新、重组、调整，发展为内在的、相对稳定的身心组织结构；这个过程不是个体自发的，也不是完全受制于客观环境的，而是通过教育的导向性补充和调整加以实现的。个体所具有的素质的总量、类型、呈现方式及和谐度，反映其素质水平的高低和形态，影响其生存状态、成长路径，决定其发展的可持续性。

素质教育所说的素质既指个体素质，更指支撑我国综合国力、民族复兴和国家的全体劳动者的整体素质。不管从哪个角度分析，它都至少包含以下基本素质：认同自己的国家、能与世界对话、热爱学习、学会学习、有创新精神与实践能力；体魄健全、充满活力、心灵丰富、能够尊重与理解、沟通与合作、追求自己的幸福和爱护他人的幸福等。

素质教育不是不要考试，而是把适宜的记诵、必要的训练和考试作为检查、促进和发展学生的手段；也不是不要知识学习，而是更强调知识应用、综合与发现，更重视学习能力、生存能力和热爱学习的情感、态度的培养，强调这一学习过程本身就是学生养成道德习惯、体验道德成长的主要资源。也正是从这个意义上，我们不把素质教育和应试教育置于对立的两端。也就是说，我们还需要考试，但再也不能用应试的模式来进行教育，要努力把道德的学习与学科的学习、知识的学习融整起来。

考虑素质教育评价的特质。

人的素质是多维度、多元素、镶嵌式发展变化、难于分割离析的。人的知识、能力、情感、价值观是没有办法相互分离发展的。离开了过程不可能有真正的知识内化，离开了知识本身也无法说清方法和过程；离开了知识和过程，情感、态度便没有载体；而离开了情感、态度、价值观，知识只能是信息，无法成为能力，更谈不上智慧。素质这种镶嵌式的、难于分割离析的关系体特征恰恰是素质教育评价的难点。人的素质中情感、态度的变化缓慢而内隐，没有办法让其立刻外显出来，如果我们用外显的办法来评价，立刻就失败，因此评价的难度大，做评价设计时，必须谨慎考虑。

评价人的范围是综合的、全方面的、经常的，即结果与过程兼具。

实现素质评价过程与结果的兼顾，就要防止停留于浅显层次的评价、单纯追求结果的认定，必须考虑过程是素质发展更为重要的指标，过程中的评价给学生带来的影响是更为深刻的；理解和忍耐素质教育的长期效果，不能期望过多和过快地出现奇迹。当然，结果的评价也需要兼顾。没有结果就没有办法评量工作的绩效，没有办法进行区分。因此，应当设法保持评价过程与评价结果有适当的张力。

一个简单评价结果的呈现，应“质”、“量”并陈。

应保持素质评价中质与量的适度张力。素质教育评价方法是质与量的并重，并且以质的方法为主，量的方法为辅。只要条件允许，我们应该越来越多地增加质的评价。当然也应该有“量”，而且必须要有“量”，对于那些可能有“量”的标识的，如：体质生理、体育锻炼的指标，学科知识很低限量要求等，都应尽量合理地量化。

对于一些内隐的素质，如情感、态度、品德等具有更大的评价难度。

例如情感发展评价，常用的方法是问卷和访谈，但是由于情感变量的个性化特征，每个学生情感的敏感点不同，情感表达方式不同，有的外显性大，有的内隐性更重，有的人喜欢对这一类情感做表达，有的人喜欢对那一类情感做表达，有的用语言，有的用体态，有的用面部表情，等等，因此带来明显的不确定性。人的情感与认知水平有关系。一般来说，认知的改变总是在情感的改变之前，情感变化是渐进的，晚于认知的变化，所以做评价时应该晚一些收集学生的情感变化结果，有的情感变化在认知改变后几个月甚至更长时间可能都还看不出来。

对思想品德的评价，虽然在理论和实践上已经多有创造，但总体上看目前能够评价的，大部分还是限于知识性的和具有外在行为显示的部分。这给德育及教育工作造成困难。要反对过于技术化的评价方式，更要反对形式主义的评价；回到工作现场，回到素朴的经验直觉、自然主义的范式，可能对我们更有助益。对情感、态度、价值观的评价，对思想品德的评价，仍然是评价研究者需要攻克的难题。

关于基准性评价和区分性评价。

关于区分性评价，指的是必须考虑：根据不同年龄、不同学龄学生的发展的不同水平，制定素质发展的基本目标；适应素质教育实施的地区差异、社会经济文化差异和民族差异；建立区分性评价体系，其核心观念是只有用不同的评价标准和方法去评价不同发展水平的学校和不同发展水平的学生，才有助于学校和学生的素质教育发展，这体现着素质教育评价的深层次机制。现行的某些素质教育评价，在我们看来，本质上还不是评价，它只是对素质教育活动的描述和记录，并没有解，决与价值、与有效性和结果相关的问题。

关于基准性评价。纵观世界，有一个现象，不少发达国家都在建立一个全国性的统一标准。为了提高教育质量，美国自20世纪80年代以来逐步兴起了教育标准运动。在一系列的教育改革措施中，美国前总统克林顿签署了《美国2000年教育目标法》，并通过立法程序建立了“国家教育标准与改进委员会”，国会还成立了“国家教育目标小组”和“全国教育标准与考试委员会”。在建立和实施标准的过程中产生了一系列的问题和挑战。如，标准本身的质量问题；清晰与目标量、严格与是否合理的矛盾问题；如何帮助教师理解标准的问题（70%的教师反映得不到有关标准的培训和使用上的帮助）；如何满足不同学习者的不同需要的问题；如何在同一标准与个体差异之间达成平衡也至关重要，这不仅是一个理论问题，也是一个实践问题，然而至今未找到解，决的方案；考试如何与标准相适应的问题；考试如何与标准要求相称，例如标准可以包含高水平的技能与灵活性知识，但考试做不到；如何恰当评分的问题等；向家长报告评价结果的呈现方式，很难找到一种简洁的方法来阐明标准，以便既可以给家长提供有用而规范的信息，又可实现家长与教师之间的有效沟通。

俄罗斯关于教学质量的评定与监测也值得关注。《2010年前俄罗斯教育现代化构想》指出，为了提高教育质量，必须完善学生成绩评定制度，甚至在某些方面实行重大改革。过去，俄罗斯对某些教学法手段曾做过科学论证，也制定过提高检查学生成绩客观性的组织措施，但收效不显著，而某些措施（平均分数制、学习成绩百分比制）曾导致相反的结果。俄罗斯学者认为，对俄罗斯教育来说，提高检查和评定学生学习成绩的客观性，至少有三个新因素：对教育目标的新理解；实施国家教育标准；实施国家统一考试（争取在2008年实现在全俄实施国家统一考试，以减轻学生负担，提高评价的客观性和公平性）。所以，至今依他们来看，在俄罗斯学校里仅靠主观评定、仅仅根据消极掌握知识的水平来评定成绩的现象还十分普遍。上世纪70年代前苏联曾尝试采用学生对教学内容的不同掌握程度（牢固程度、深度、系统性等）的鉴定来表达对学生成绩的评定要求，但是所制定的各项要求终没有整合成为一个统一体系，没有能在相应规范文件中做出恰当的表述，使之具有可安排作性，因此这项任务至今有待解，决。

真实性学力模式与传统学力模式比较。

2005年，日本文部省将“确实的学力基础”、“健全的体魄”、“丰富的心灵”作为教育质量的总框架，并且近年来在全国逐步开展“学力调查”。京都大学田中耕治认为“学力调查”应采取非常谨慎的态度，因为如果做得不好，就会引起学校之间的恶性竞争，导致不好的方向，使20世纪70年代以来倡导发展个性、宽松的环境等比较积极的东西走向反面。他认为应采用多角度、多层面的分析方法，至少应包括学力水平、学力差异、学力结构、学力兴趣等几个方面。学力水平狭义上指以可测的学力为对象，通过学力调查计算某一群体的学力平均值。学力差异是指学生个体之间的学力差异性。学力结构是指学力的功能和特性。学力兴趣是指构成学习自觉性和能动性的动因。

针对有人将“TIMSS2003”学力模式与“PISA2003”学力模式对立起来，并过度强调后者的优越性，田中耕治指出，二者除了相互区别和对立，还具有交叉性和独特性。其独特性在于前者侧重学力的基础部分，而后者更偏重学力的发展部分。由此看来，评价基础部分和评价发展部分都是需要兼顾的，无非是如何兼顾而已。同时，有人提出需要编制出能够测量真实性的学力评价模式。田中耕治认为，真实性学力模式并不是完全否定传统学力模式，而是倡导在真实性学力模式中吸纳传统学力模式的优点。传统学力模式的评价是采用记忆和理解为主的、简短式问卷答题的方法，它的授课方式是传统的教学模式，老师讲、学生听，遵从老师的指示，不太关注学生的元认知能力，不太组织讨论式学习，比较多地注意知识的记忆和积累。而真实性学力评价模式的授课方式，更加注重高层次的思维训练，提供高层次思维展现的平台，鼓励人的元认知力的发展，组织更多有效的小组讨论，更加注重学力的理解力，评价注重知识的实际表现能力，通过真实性的表现进行评价。

后，还应该注意传统与创新、群体与个人的关系，考虑和把握处在不同的教育发展阶段我们如何适应的问题。我的结论是，教育是很具情境化的；教育很难说好，更重要的是适切，只要适应、适切就是相对比较好的。讲一个小故事。前一段时间我去莫斯科看了941学校，这是受到全世界教育评价专家不同程度关注的学校。我问，你们这里还继续进行达维多夫的发展性教学的数学实验吗？校长说是的，他们还受到普京总统的表彰。我又问，像你们这样实验发展性教学思想的学校在莫斯科有多大的面？校长说大约是15%。我追问下去，既然你们这个实验做得这么好（该实验假设并认为，教育在一定程度上要走在发展的前面，通过数学促进孩子理论思维超前发展），为什么不能更加普及呢？校长说，因为我们没有更多好的老师。我进一步问，适应这个实验的好的老师是什么样的老师呢？校长说，这个实验要求老师能够与学生进行交往，能够非常敏感地发现不同孩子的情感需求、学习需求及其他方面的需求，孩子的特点，能力倾向，等等，而如果没有这样敏感、细腻的教师，我们就没有办法帮助所有的学生更好地发展。

总之，素质教育的评价是一个复杂的理论和实践问题，过去一些成功的探索，给了我们信心，我国素质教育评价将会涌现出越来越多的办法。

2021-08-22

你可能感兴趣的:(2021-08-22)