基于IRT题库建设规划方案

导言

教育数字化已成为国际流行趋势，数字技术正以前所未有的速度介入教育领域，引发了培养目标、教学手段、评价体系的巨大变革，也引起了政府部门、大型企业的高度重视。《国家中长期教育改革和发展规划纲要（2010—2020年）》中提出“加快教育信息化进程”。为全面贯彻落实该纲要，2012年2月，《教育部关于开展教育信息化试点工作的通知》发布，明确了教育信息化试点工作的时间和范围；2014年11月，教育部、财政部等五部门印发《构建利用信息化手段扩大优质教育资源覆盖面有效机制的实施方案》。政策表明国家鼓励出版业开辟数字出版的新领域，催促传统出版单位尽快向数字化转型，从而全面推进教育信息化工作。另一方面，图书市场的发展也在推动数字化的进程。信息化时代，资源的数字化越来越显示其重要性。在我国，教辅图书在整个图书市场占有的份额高达60%～80%，全年的总盘子大约有300亿码洋。目前，已经有很多教辅书开始配套电子化服务——配套网站上提供一些相关资料，如“世纪金榜”“教材全解”系列教辅图书。专业的教学资源网站也很多，如“中学学科网”“全品教学网”等，网站上提供教学需要的各类教案、试卷、课件、练习等，有的网站还提供组卷功能，个别网站还具有“在线测试”功能；许多教辅与移动端的app建立合作，提供搜题、讲解等服务。在众多的教育内容数字化产品中，数字化题库当属拳头产品，已得到了各大出版集团和各方教育出版社的重视。江苏凤凰出版传媒股份有限公司下属的江苏凤凰教育出版社、新纪元教育集团下属的上海伟志文化传播有限公司、安徽的时代出版传媒有限公司、浙江出版联合集团、外语教学与研究出版社等，都开始了数字化题库的建设。

一、传统教辅出版机构建设题库系统的优势与劣势

传统的教辅出版机构建设题库系统主要优势是有丰富的题目编写资源，对于题目内容质量把控较好。

传统的教辅出版机构在建设题库方面也有自己的劣势：

1、技术力量不足。题库系统是基于计算机技术开发建设的，传统教辅出版机构在这方面非常薄弱。

2、教育测量人才匮乏。现代题库系统是在教育测量学的基础上建立的，需要用到非常专业的教育测量学模型。而传统教辅出版机构并不注重教育测量人才的储备，导致题库开发障碍重重。

二、传统教辅出版机构建设题库系统作用

将纸质教辅图书数字化，建设自己的数字化题目资源库，可以极大地支持纸质教辅出版，巩固出版社在出版产业链中不可替代的地位。

1.为纸质教辅图书提供增值服务。这几年教辅同质化现象严重，价格战越演越烈，纸质教辅市场已成一片红海。教辅新政发布之后，作为教材教辅出版大户的教育社要想在竞争中求得生存与发展，必然要另辟蹊径，而这些年来，数字出版技术的长足发展，为纸质教辅图书的出版提供了新的发展空间，为其开拓了新的应用领域。数字化题库随同纸质教辅一同下发，作为补充，可以提升纸质教辅的竞争力。

2.为编辑校对工作提供支撑。例如编校工作中遇到重题，编辑可以不用找作者，自己从题库里调出可用的题目换上；遇到错题，可以到题库里搜索原题进行考证，比如有时作者选用某年的高考题，不知对错，编辑可以利用题库很快找到这道高考题，进行校正。再如，对于简单的纯练习的教辅书，编辑可以自己尝试做“主编”，从题库里选择适当的题目，编成教辅书，然后请优秀的一线教师或教研员审读。

3.直接服务终端用户。例如可以服务于教研员，方便其对各类试卷、题目进行多方面的对比研究，供其编写大规模测试卷时参考；可以服务于一线教师，方便教师备课、组卷等，教师既可以组成每课时的练习题，又可以组成每单元的测试卷，利用网络平台选择合适的题目，既能保证试卷的质量，又减轻了教师的工作负担；还可以服务于学生和家长，学生可以利用网络上的测试平台，进行在线测试，可以根据自己的学习情况选择题目进行练习，巩固所学知识，家长还可以通过题库的“小助手”功能查看孩子的学习情况、知识点的掌握情况等等。

第一章题库建设现状

一、国内外研究现状

题库是以一定的教育测量理论为依据，按照一定测试目标编制、收集的有相当数量和较高质量、附有试题性能参数（属性）、并经过分类编码的考题的有序集合。国际上对题库各项指标（包括建立题库基于的理论、题库结构是怎样的、建立题库的方法等方面）的研究始于８０年代，心理测量学家在建立题库的理论上提出许多模型与参数化的计算方法，探索了各种测量理论上的模型在测试实践中的应用。如1970年，美国、比利时等国家就相继开展了题库建设的活动，1973年，澳大利亚建立了第一个数据库中心。

随着信息化时代的到来，基于计算机化的测试化趋于成熟，对于题库的建立也不断深入。目前的题库己经由早期静态的题目储存发展成为一个由计算机管理的一个动态的质量监测的过程，它不仅是试题本身的管理平台，也是命题考试工作的管理平台。同时，题库建设基于的理论与建设方法化愈加多元化，愈加完善。利用计算机建立题库系统的想法在几十年前就存在，但当时功能较为简单，早期人们对计算机化考试持保留态度，因此最初的利用计算机建立的题库系统只是用于对试题的管理以及试卷的打印等。如今，题库系统已发展成为收集、管理和输出试题集合的软件系统，既可用于存储试题，又可作为命题的工作平台和计算机辅助考试的后台系统。机考、网考的出现说明，题库技术的发展为考试模式的变革奠定了基础，反过来，考试摸式的变革化推动着题库技术的进步。现今，国际上许多主管教育的部门、高校以及各种资格认证机构都采用以某种教育测量理论为指导而建设的题库，以此来编制试卷，进行有关题库建设的研究。

从目前的文献来看题库建设的基本流程框架没有大的变化，只是在题库建设的技术上不断升级，例如运用了现在最新的人工智能技术，知识图谱技术和教育测量中的项目反应理论、认知空间模型等。

二、目前市场上主流题库分析

1、国内题库

（1）国家级题库

目前可查到的国内较大的国家级题库又香港基本能力评价BCA项目，中国台湾中学生基本学力测验试题库、北京市义务教育教学质量监测题库、教育部考试中心开发的教育考试国家题库、北京语言大学开发的中国汉语水平考试HSK题库等。

香港基本能力评价BCA项目是一个网上评估系统，可以给予学生和教师实时回馈。教师可回应学生的学习需要和进度。该系统包括网上中央评估库、网上评估活动和计算机化评卷。

台湾中学生基本学力测验是学生升学的重要依据。其题库建设经过多次修题、审题、预测试与题目分析和等值连接从而得到题目的相关信息，然后将合乎要求的优良试题纳入题库中。

北京市义务教育教学质量监测题库以经典测量理论和项目反应理论为基础，经过方案制定、细目蓝图编制、命题审题、预测分析、指标入库以及组卷策略设计，形成具有自动组卷功能的题库管理系统。

这些国家级题库一般是进行大规模的学业水平测验，不对市场公开。这些题库的建设方法和流程值得我们参考与学习。

（2）企业题库

目前国内主流的互联网教育公司都建立了自己的题库，例如阿凡题、学霸君、学科网等。阿凡题的题库使用了知识图谱技术，借助于阿凡题公司强大的人工智能技术实现了千万级别的题量。但是此题库最大的问题在于教育测量理论的缺失，题目的难度或者题目质量的评判是借助于相似性算法，而不是基于测量和等值技术建立起来的，所以这些题目的质量标签准确性有待进一步优化。其他几家公司的题库与阿凡题比较相似，都是以计算机技术为导向建立的，重在量的积累，忽视了教育测量学在题库中的重要功能。

2、国外题库

国外比较知名的题库有国际学生评价项目（PISA）、国际数学与科学教育成就趋势调查研究项目（TIMSS）、国家教育进步计划（NEAP）、knewton公司开发的自适应学习系统、TOEFEL、ACT考试题库等。这些国家知名的题库一般都是采用了比较先进的教育测量学模型和人工智能技术。例如PISA项的阅读、数学和科学素养测试取自难度覆盖广泛且具有 Rasch模型试题参数的题库，knewton公司使用了知识图谱技术和自适应学习方法。

三、结论

国内外的大型考试题库建设的已经比较完善，有完整的建设流程与方法可以供我们参考。目前市面上的企业建设的题库大多是以计算机技术为导向的题库，重在使用先进的计算机技术，而忽略了题库本身的测量属性。所以综上所述，通过对前文的分析我们可以得出我们题库建设的初步框架，以国家级题库开发方法与流程为蓝本，学习和借鉴企业题库先进的计算机技术，融合教育测量学模型建设属于我们自己的专业题库。

第二章题库建设理论与方法

一、题库的概述

1、题库的概念

国家《教育资源建设技术规范》(CELTS一41.1)的定义，试题库(Item Bank)是按照一定的教育测量理论，在计算机系统中实现的某个学科题目的集合，它是严格遵循教育测量理论，在精确的数学模型基础上建立起来的教育测量工具。

我国教育测量学者漆书青等提出：题库是大量属性明确的合格试题的有序存储，目的是为高效、成批生成具有指定性能的优良试卷而服务。

题库的出现是教育测量技术与计算机技术共同发展的结果，也是教育考试管理与实施走向规范化、专业化、科学化的重要途径与方式。

2、题库的性质

题库的性质取决于测验的性质。在教育测量学中，根据性质可以将测验划分为常模参照测验与标准参照测验。常模参照测验是一种以经典测验理论为基础的测量，主要目的在于把被试同常模比较，从而判断被试在所属团体中的相对位置。早期的教育测验和大部分智力测验基本上就是常模参照测验。标准参照测验又称准则参照测验。一种精心编制的，在一定的行为领域上按照具体的行为标准水平对被试的测验结果作出直接解释的测验。它为人们提供了有关被试是否达到某种行为标准水平或要求的信息，是一种与以经典测验理论为基础的常模参照测验相对的测验类型。

根据对本题库用途的设想，可以确定本题库属于标准参照测验题库。在建设时应该参照标准参照测验题库建设流程来进行题库建设。这种题库的核心要求就是题库中的题目均应与课程标准中的内容标准、学业水平相应的等级标准有明确的对应。

3、题库的功能

题库最基本的功能是有序存储，在此基础上，题库还具有查询、命题辅助、自动组卷、分析反馈等功能。命题辅助功能是指入库试题因其特有的内容属性指标和统计属性指标，为命题专家提供了较多的思路，方便命题人员参考指标进行试题命制。分析反馈属于题库后期进一步开发的功能。

结合本题库建设的目的，确定本题库重在建设存储、查询、命题辅助和自动组卷功能。分析反馈功能可以在题库建设完成后根据需求进行二次开发。

二、题库建设的理论基础

1、教育学理论

（1）教育目标分类学

布鲁姆等人提出的教育目标分类学理论是制定测验方案的理论依据，决定着题库中试题、试卷呈现的内容与结构。教育目标分类学是上一轮国家教育改革的核心理论依据之一，其中的三维目标理论对我们国家的教育与考试有着深远的影响。教育目标分类学在题库建设中的试题命制、内容属性标定等环节有着非常重要的作用。

（2）中国学生核心素养

核心素养是国家新一轮教育改革的核心理论。核心素养理论标志着考试从知识层面考查向素养层面考查的转变，必将是未来考试的最重要的取向。目前国家对核心素养理论怎么考查还差在探索阶段，所以本题库只是兼顾核心素养理论，为将来题库的转型升级提供通道。

2、教育测量学理论

教育测量学中的经典测量理论和项目反应理论是进行本题库建设的基础测量理论。两种测量理论渗透在等值设计、试题分析与校准、标准制定、自动组卷等环节中，两者相辅相成。

3、知识图谱理论

知识图谱，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是『实体-关系-实体』三元组，以及实体及其相关属性-值对，实体之间通过关系相互联结，构成网状的知识结构。相对于传统的层级知识树，知识图谱的知识点之间关系更加复杂，更加符合学生实际的思维和学习习惯。知识图谱能够实现知识推理等功能，为后期题库的二次开发打下基础。

三、题库建设的方法和流程

1、基本流程

（1）在对国内外研究与实践分析的基础上，首先组建专业团队，整体规划题库建设方案，以教育目标分类学理论为指导，基于国家课程标准和测试方案命制试题，并按照科学的测验设计和实施方案实施测试；

（2）开展基于教育测量学理论的试题分析、校准和链接，即通过先验的试题难度和考生能力值将新试题链接到同一量尺上；

（3）进行标准划定，即由专家小组按照严格的科学程序估计达到合格、良好和优秀水平的临界能力值；

（4）试题标定入库，即将试题按照既定的内容属性和统计属性指标遵循固定的规则顺序入库；

（5）自动组卷，进行测试；

（6）做好题库的更新与维护工作。

图1题库建设流程图

2、关键环节

（1）组件题库建设团队

题库建设是一项需要花费大量人力物力财力、环节众多、程序复杂、周期较长的综合工程，需要教育测量技术、学科命题技术与计算机编程技术的有机结合。因此，组件一支由教育测量、学科命题和计算机编程人员组成的建设队伍是题库建设的首要环节。

教育测量组由具有教育测量学理论功底和数据分析处理经验的专业人员组成，主要负责拟定题库建设的整体方案、测验设计方案、数据分析方案、标准制定方案、指标入库方案、组卷方案等。目前在国内这方面的专家有北京师范大学的辛涛、韦小满、刘云红，北京语言大学的谢小庆、王佶旻，华南师范大学的张敏强、黎光明，江西师范大学的俞宗火、戚书清、丁树良，暨南大学的戴海琦等人。我们公司在教育测量方面比较薄弱，需要咨询外部专家才能保证题库的顺利建设。

命题组由具有某测量学科领域教育教学理论背景和实践经验并且掌握命题技术的领域专家、教研员和一线教师组成，主要负责学科领域测试方案、编制细目蓝图、命制试题等。我们公司在这方面资源比较丰富，但是在选取时要注意选择懂得测量学理论的命题专家。

计算机编程组由计算机程序员组成，主要负责题库建设方案的计算机程序开发，形成题库管理系统。我们公司这方面力量比较薄弱，可以进行项目外包，由专业公司进行定制开发。

(2)开展题库试题命制

题库试题的命制，与测验题目的命制基本相同，主要包括依据国家课程标准制定测试方案、编制细目蓝图、命制试题和评分标准、审定试题环节。其中，测试方案是对学科测试内容、结构、范围与标准的具体说明，由学科专家依据国家课程标准相应学段内容与学科教学的实际，经过反复研究、讨论，广泛征求意见后最终形成，是指导学科测试工作的重要基础。编制细目蓝图的主要目的是使试题在内容上具有代表性，在内容领域、难度、区分度分配上具有合理性，从而保证测验工具具有良好的结构。编题细目蓝图包括试题在内容领域、能力领域上的分布，试题描述及与内容标准的对应情况、错误选项的类型，以及试题预计难度、区分度等指标。

然后，根据命题细目蓝图，组织专家分组进行平行试题及评分标准的命制工作。以国家课程标准为依据，遵循命题细目蓝图，结合具体试题类型(如客观题与主观题）的要求进行命制，形成初步的题库试题。此外，制定相应的评分标准也是命题的重要组成部分。其中，客观题的答案具有唯一性，评分标准制定略易。主观题评分标准相对比较复杂。

最后进行试题审定，保证题库中试题内容的科学性和结构的合理性。

（3）题库等值设计与校准

纳入题库的所有试题，必须建立在同一量尺上，否则试题之间无法进行科学参数标定，因此需要进行科学的等值设计。题库的等值设计常用铆题等值方法，即将有一定数量铆题的多分测验给予多组不同考生实施测验。

在科学等值设计方案基础上的试题分析与校准是题库建设的核心环节，一般采用以项目反应理论为基础的等值方法进行试题数据校准。

（4）试题入库指标编码

试题入库指标编码试题库建设的重要环节。试题入库指标编码一般包括试题的内容属性指标和统计参数指标两大类。

内容数型指标是指对题库中试题的基本属性和内容结构的标定。基本属性指标包括编号、命题时间、命题人、预测时间、预测对象、地区、修改时间、入库时间、使用次数、是否是铆题等；内容结构指标包括题型、知识结构、答案、错误答案说明等。

试题统计参数指标，包括基于经典测量理论的统计参数指标（CTT指标）和基于项目反应理论的统计参数指标（IRT指标）。

CTT指标包括难度、区分度。难度是描述试题难易程度的指标。两级计分试题采用通过率来说明难度，多级计分试题则采用该题的平均分与满分的商来表示。区分度指试题对考生某种特质的区分程度或鉴别能力，主要包括题总相关系数(R)和鉴别指数（D)两个指标。

IRT指标主要包括基于各种模型的试题特征曲线、参数指标、信息量曲线：试题特征曲线采用单调增函数来反映考生潜在特质与正确作答概率的关系，此函数曲线确定考生对试题做出正确作答的概率，随考生潜在特质水平的提高而增加; 参数指标包括试题区分度(a)、难度（b)和猜测度（c）；试题信息量曲线反映试题能够为考试提供信息量的程度，好的试题对考生能力水平估计的误差较小，能提供较多的信息量。

四、结论

通过以上分析，本方案基本梳理清楚了本题库建设需要的技术、人员和流程。计算机技术上，本题库倾向于使用知识图谱技术作为题库题目的组织结构，使用B/S架构。教育测量技术方面，本题库倾向于使用经典测量理论和项目反应理论相结合的方式作为测量模型。人员方面，教育测量专家组需聘请目前国内比较知名的几位测量专家作为顾问，学科命题组人员主要从公司现有的作者资源中进行挖掘，计算机程序开发主要将任务外包给其他公司。流程上，本题库的建设按照组建题库团队、规划题库建设方案、知识图谱建设与开展试题命制、测验设计与测试实施、试题分析校准与标准划定、试题入库指标与编码、自动组卷、题库更新与维护、题库设计优化等流程开展。

基于IRT题库建设规划方案

你可能感兴趣的:(基于IRT题库建设规划方案)