熟悉或参加过PTE学术英语考试的同学,都会对这项考试充满信任。即便备考奋战的过程要死要活,也会感叹PTE学术英语考试高效、准确和公平。考试所带来的impact也在考生和老师的口口相传中,逐渐扩大。
上月(2019年3月28日),PTE官网上公布了一份完整的《PTE学术英语考试效能报告(PTE Academic Assesment Efficacy Report)》。
有意思的是,文章标题: How PTE Academic Supports its Test Outcomes.
凡教育类的考试,就是建立一套评价体系。想要被广泛接纳,全球认可,必须首要证明其过程公平性和结果正当性。
PTE学术英语考试从2009年推出至今,已被澳大利亚移民局、新西兰移民局,英美加澳及世界多国的数千所高等院校和教育机构认可;考生遍布180多个国家和地区;年考量以约30%速度增长。从各种事实数据来看,PTE学术英语考试获得了考试认可方以及考生的深刻认同,这套评估体系在实践中已获得检验和推广。
那么,返回到原点。
从科学研究的角度,逻辑论证的系统,如何证明PTE学术英语考试的结果是可以被考试本身所支持的呢?****也就大白话所说的,怎么证明成绩就是靠谱的呢?
Pearson在最新公布的这份《效能报告》中,用文本研究和田野调查,论证了PTE Academic作为考试的过程公平性和结果正当性。
《PTE学术英语考试效能报告》的研究目的是,尽可能公开透明地说明PTE学术英语考试如何设计、开发,并评估其产品对学习者的影响。
衡量考试质量:三大测评质量标准
此次研究和分析经理Sarah Hughes帮助共同整理了这份PTE Academic的报告,以下是她列出关于这份报告核心:
"The PTE Academic Assessment Efficacy Report explains how our research relates tothree key indicators of assessment quality: validity, reliability, and fairness."
“PTE学术英语考试效能评估报告解释了:我们的研究如何将PTE Academic与考试质量的三个关键指标相关联——有效性、可靠性、公平性。”
“我们把这三个主要的测评质量标准作为效能评估的依据,应用到PTE Academic的主要目的中去。PTE Academic的主要目的是测量考生在听、读、说写方面的学术英语语言能力。”
这里所讨论的三个主要测评质量标准,是评估在多大程度上允许考试应用者对考生的英语能力(有效性),分数的一致性和准确性(可靠性),以及考试的公平性做出合理解释(AERA, APA and NCME, 2014)。
为什么用这三个测评质量标准?
《教育和心理测验的标准(AERA,APA,NCME,2014)》给出定义,三项用于评估测验效能的基本属性:有效性、可靠性、公平性。
有效性
“证据和理论支持测验使用所需的考分解释的程度(P11)”有效性要求有证据证明考试成绩可以被理解为测试意图或目的,并且在某特定的、明确的目的下被合理使用。
可靠性
“一项测验在重复过程中,所得分数的一致性(P33)。”可靠性要求有证据证明随着时间推移、跨域多种测试形式,和/或多个评分者,考试分数始终如一。
公平性
“分数对于所有适应人群的个体都有同样的含义”(P50).公平性要求有证据证明当测试按预期执行时,各项目不存在针对某一特殊考生群体的系统性偏见,在测试管理流程中,学生不会被不相干的障碍阻碍其展示技能。
考虑到上述三个标准在开发和评估测试中作为最佳实践指引,且该理论体系所起到的长期作用,以及它们在评测的法律辩护方面起到作用,培生采用了这三种属性做评估质量指标(AQI),用于我们公开发布培生考试产品的证明。
评估质量标准I. 有效性
有证据表明,考试成绩可以被用作并理解为考试所定义的目的。对于PTE学术英语考试而言,考试成绩能够有意义的反映一个考生的语言水平,全世界都能理解且帮助考生在未来迈出下一步,这一点很重要。
PTE学术英语考试的主要目的是能够让考试使用者对考生的英语语言能力给出合理的解释。通过考试所提供的精准捕捉能力,和四大沟通技能的相对优劣项概要描述来支持考试使用者判别或做出定位。
PTE学术英语考试的考试成绩可以被解释为英语语言能力的测评,也可以用于学术项目入学或技术移民。(有效性得以验证)
评估质量标准II. 可靠性
可靠性是个度量的概念,意味着无论随着时间、考试形式、抑或多个考试主办方,分数都始终保持如一。任何时候,一名应试者参加考试,他们都应该有同样的机会面对始终一致的评测。
PTE学术英语考试另一个主要目标是通过提供在各种不同考试场合中保持一致的分数,让判断和决策中的错误最小化。
PTE学术PTE学术英语考试考试成绩是一致的,无论经历时间、和/或多个考试主办方。(可靠性得以验证)
评估质量标准III. 公平性
公正性指的是考试不存在系统性的偏见,并且对所有考生而言,考试成绩都可以以同样的方式被解释。PTE学术英语考试关于公正性和自动评分研究保证了考生能有同样的机会来证明其语言水平,不关乎性别、种族、民族等。
PTE学生英语考试还致力于所有考生的成绩都可以以相同的方式被解释,无关性别,种族/族裔或母语。公平意味着当考试按预期执行时,各项目不存在针对某一特殊考生群体的系统性偏见,在考试过程中,考生不会被不相干的障碍阻碍其展示技能。
PTE学术英语考试对各种不同群体的考生来说,考试分数能用同样的方式来解释。(公平性得以验证)
产品调查和研究:多项论据搜集
PTE学术英语考试团队为论证上述三个标准,实施大量的调研,以搜集科学系统的证据。这些证据都被整理公布在技术手册中。其中一些调研是完全内部数据的,有兴趣的学者和研究员可以查阅培生官方技术手册(official technical manual)。
以下是PTE学术英语考试效能评测报告,所使用产品调研项目:
Aligning PTE Academic test scores to the Common European Framework of Reference
Alignment of the Global Scale of English to other scales: the concordance between PTE Academic, IELTS and TOEFL
Standard setting study – concordance with the Canadian Language Benchmarks (CLB)
Automated scoring whitepaper
Differential item functioning and unidimensionality
Item sensitivity review
Field Test I
Field Test II