面向数据共享的教育数据标准体系研究与建设实践

点击上方蓝字关注我们

面向数据共享的教育数据标准体系研究与建设实践

杨琳1, 王炜1, 诸纪1, 王明政2

1 上海计算机软件技术开发中心,上海 201112

2 上海市教育委员会信息中心,上海 200003

 

摘要在教育信息化加速建设和政务数据逐步开放的背景下,教育数据共享开放成为亟待解决的问题,面向数据共享的教育数据标准体系建设需求应运而生。通过分析教育数据共享需求和标准化建设需求,研究数据共享标准在教育数据标准体系中的定位,明确教育数据共享标准应规范的内容。最后以上海教育数据标准体系建设为例,阐述了具体实践方法和建设特点,以期为其他地区开展教育数据共享工作提供参考。

关键词教育数据 ; 数据共享 ; 标准体系

论文引用格式:

杨琳,王炜,诸纪, 等. 面向数据共享的教育数据标准体系研究与建设实践[J]. 大数据, 2020, 6(6): 3-13.

YANG L, WANG W, ZHU J, et al. Research and practice on education data standard system for data sharing[J]. Big Data Research, 2020, 6(6): 3-13.


1 引言

信息技术更迭和数据规模剧增不断催生出新的治理理念和方法。随着教育信息化的不断推进,建立教育数据标准体系的需求日益迫切。信息标准与技术规范在数据治理中能起到增强数据一致性、促进数据集成、加强数据资产管理以及实现数据资源共享等重要作用,在教育信息系统中可为数据交换与共享、实现本级教育业务管理系统与上级对接提供必要的保障。2014年,教育部发布 《教育管理信息化建设与应用指南》,对核心业务管理信息系统的建设进行顶层设计,明确了统筹制定信息化标准规范体系的要求和内涵,要求在信息标准与数据交换技术规范的基础上实现数据交换与共享体系建设。2018年,教育部制定《教育部机关及直属事业单位教育数据管理办法》,推进数据规范管理、互联互通和共享公开,确保数据安全,也为各地区教育数据的管理提供参考。如今,教育信息化已由1.0时代进入2.0时代,由注重基础设施及配套系统建设向系统与系统、技术与业务之间深度融合迈进,在实践中更需完善信息标准和技术规范,以指导、管理和监督相关项目的建设,为教育数据价值深度挖掘保驾护航。

近年来,各地区、各部门积极响应国务院加快推进政务信息系统整合共享的号召,促进跨地区、跨部门、跨层级政务数据互认共享。在此背景下,教育数据共享建设既能满足教育数据管理和各类应用需求,也可为政务信息系统整合工作助力,数据共享的需求被提高到新的高度。2018年,教育部发布《教育信息化2.0行动计划》,实施行动包括“发布系列技术和功能标准规范,探索资源共享新机制”“完善教育数据标准规范,促进政务数据分级分层有效共享”等,明确提出数据共享标准规范建设的迫切需求。由此,如何在当前教育信息化快速建设中进行数据共享标准建设,保证教育数据顺利且高效地实现融合交换,已成为当下亟须解决的问题。本文提出教育数据标准体系的理论框架,并分析了数据共享标准在其中的定位以及具体的建设内容,最后介绍了上海教育数据标准体系的建设实践。

2 教育数据共享标准需求分析

近几年,教育系统信息化建设成绩显著,但各单位、各部门的信息系统建设基本呈独立开发模式,不同建设时期的系统成本投入、技术选型、服务商选择存在差异,系统运行环境、开发语言、后台数据库等建设标准不一致。教育数据繁杂且碎片化地散落在各部门,既浪费软硬件资源,也不利于各维度信息的相互关联。数据共享和融合作为实现数据治理体系和治理能力现代化的必经之路,在打通教育单位基础数据融合通道、关联多维度数据并集中分析处理、提高教育资源利用率等诸多方面产生需求。数据共享和融合的实现以数据共享标准的研制实施为基础,能够破除数据在部门间流动的技术藩篱和管理屏障,同时保障共享过程的数据安全。

2.1 教育数据共享需求

(1)数据共享促进校园高效管理

在教育信息化全面建设的背景下,学校教育教学部门、行政部门和校园管理部门常需要跨部门使用数据,此时实现数据共享可以减少资料收集、数据采集等重复的劳动时间和费用,将精力重点放在部门业务流程的优化上,可以更充分地使用已有数据资源。例如,为严格控制校园进出人员,学校保卫科需要学生和人事管理部门的数据;为管理学生信息,学生工作处需要教务处和团委提供的数据;为管理教师科研项目经费使用情况,科研处需要财务处提供的数据等。部门间实现业务数据的交换共享,有利于教职工、学生和家长在信息管理系统中实现各类事务的“一网通办”。

(2)数据共享激发数据潜在价值

数据共享能够促进教育数据的深度分析挖掘,充分发挥数据的价值。随着教育信息化的不断推进以及智慧校园和校园云平台的初步建设,各级教育单位在教师课堂教学、学生学习活动、校园数字化运行等方面积累了海量数据。这些数据既包括面向特定教育主题的多类型、多维度、多形态的集合数据,也包括面向教育全过程的数据。教育数据汇聚和融合共享使得数据集更加全面且真实,其通过大数据技术分析挖掘数据的关联性、统计性、趋势性、个体差异性等,为教育决策提供科学指导,提高教学质量和教育水平。

(3)数据共享促进教育公平

教育数据共享还可以改善教育资源分配不均的情况,促进教育公平。不同地区的经济发展程度存在差异,教育发展水平也存在区域不均衡的状况。教育资源共享可以通过数据整合和优化配置增强优质教育资源溢出效应,分享的渠道越多,学习资源发挥的效用越大,受用地域和受用人群也会越来越广,进而形成教育资源的良性流动。

2.2 共享标准建立需求

(1)跨部门融通数据需要

教育单位在信息化建设中积累了大量基础数据,但由于缺少区域主管部门对信息数据的统筹规划,大多数教育单位在建设信息管理系统时往往只考虑本单位的使用情况,或仅满足纵向业务需求,进行烟囱式建设,导致信息管理系统中数据编码、数据格式和数据质量存在差异,数据系统间交互操作困难。为了破除不同数据源间的数据融合障碍和技术藩篱,使数据编码和数据格式在不同部门保持一致,并具备部门间交互融通的条件,需要统筹制定共享标准,以统一的数据规范和系统建设规范为数据共享提供基础。

(2)跨层级使用数据需要

由于管理层级的限制以及不同教育部门信息化水平发展的差异,教育数据管理囿于纵向层级,不同级别的教育系统只掌握本级上报的部分数据,要实现同级部门间的数据交换需经过层层审批,这增加了共享成本,并滋生了安全隐患。因此,应在共享管理中建立标准以优化共享流程,确保“一数一源”和“一源多用”,建立数据共享的使用制度,并明确各部门权责,全方位管理教育数据的使用与交换,实现数据共享管理纵向到底和横向到边。

(3)保障数据安全需要

数据共享是一把双刃剑,教育部门业务需要采集大量学生和教师的个人数据,不合理地使用这些数据可能引发隐私泄露,进而危及个人利益。因此数据共享应遵循 合法、正当、必要、最小化的使用原则,通过标准化管理和规范技术使用来强化对隐私数据、敏感数据的保护,实现数据保护与数据共享的双赢。

3 共享标准定位与建设内容

3.1 数据标准体系及共享标准定位

数据标准体系的建设是教育信息化建设过程中的重要一环,能够有效支撑和保障数据应用。其中,数据共享相关标准能够通过支持数据资源共享交换的顺利实现以及数据交换过程的操作合规化来避免主观因素的影响。本文参考全国信息技术标准化技术委员会大数据标准工作组、上海市公共数据标准化技术委员会的标准体系建设思路,基于政务数据和教育数据标准化需求,构建了教育数据标准体系框架。教育数据标准体系框架及共享标准定位如图1所示。

面向数据共享的教育数据标准体系研究与建设实践_第1张图片

图1   教育数据标准体系及共享标准定位

从数据应用标准化、规范化涉及的技术要求和管理流程出发,确定标准体系中应考虑的标准化维度包括基础共性、数据采集、数据归集、数据治理、数据服务、数据安全和管理保障七大类;再将各维度中应标准化的技术、流程、方法等内容逐项细分,进一步明确具体建设内容和边界,研制形成各项标准规范文件。

作为数据标准体系中的重要组成,共享标准是教育数据价值深度探索的基础,其通过数据融合交换扩充数据分析维度,进而充分传递信息,赋能教育大数据应用程序的开发和深层价值的发掘。数据标准体系中各标准化维度均包含共享标准的建设要素,展示共享标准在其中的定位能够明确层次结构,为建设实践提供引导。

3.2 共享标准分类及规范内容

根据对数据共享实现这一目标的支持程度,可以将标准划分为数据共享实现标准、数据共享支撑标准、数据共享平台标准和数据共享安全标准4个部分。

(1)数据共享实现标准

数据共享实现标准是规范数据提供部门和使用部门数据共享交换行为的相关标准,包括管理类标准和技术类标准。管理类标准即数据服务管理规范和授权管理规范:数据服务管理规范需要规定数据共享服务的申请和使用流程,建立数据应用导向的按需共享机制,同时确定各部门在数据共享全过程的权责,管理约束各部门行为,确保数据共享交换过程的制度化管理和机制稳定运行;授权管理规范对不同等级和类别的数据规定相应的数据共享权限和申请流程,通过授权管理方式优化审核流程、实现按需高效共享。技术类标准即数据集成技术规范,用于实现统一数据共享交换的技术选型、设备要求、接入方式和代码要求等。由于教育数据来源于各级各类教育资源管理系统,信息化程度差异和系统建设差异导致数据格式不一、编码不同、存储结构相异等问题,直接融合将导致数据质量问题。数据集成旨在以统一模式汇聚多源数据,构建标准统一的数据集合,在技术上保证数据共享的可实现。

(2)数据共享支撑标准

数据共享支撑标准是确保数据共享服务实现的基础规范,包括数据标准、数据质量管理和数据资源目录管理。数据标准是实现共享的数据质量基础,数据的标准化程度和质量影响着数据交换融合,因此需要建立数据编码规范和元数据规范,从源头规范数据标准,以便后续存储、管理和共享。数据质量在共享过程中是至关重要的,数据质量规范可确保数据描述准确、标准一致、结构统一,实现各系统无缝对接以及数据实时更新。数据资源目录作为各部门使用数据共享服务的依据,便于共享数据的供需管理,数据资源目录管理通过对教育资源分类、元数据描述和编码排序等进行规定,为数据共享授权管理提供数据索引定位基础。

(3)数据共享平台标准

数据共享平台标准即教育数据资源管理平台相关标准,主要包括平台建设规范、平台运维规范和平台服务管理规范。数据资源共享交换平台是数据交换过程的系统基础,通过技术支撑满足教育信息管理系统间的互操作要求。平台需要基础设施建设和数据存储、治理、安全、处理、服务等系统功能模块,实现对数据的统一收集和管理。平台建设规范确保建设流程、功能架构、服务管理等标准合规,以保证平台作为系统基础能满足数据共享交换要求;平台运维规范保证各功能模块能够稳定安全运行;平台服务管理规范对各部门通过平台进行的数据归集和数据交换等服务准备、数据共享服务应用等进行系统层面的约束规范,保证平台服务功能的持续稳定运行。

(4)数据共享安全标准

教育数据包含大量师生个人隐私,面临诸多潜在安全威胁,作为数据共享的安全保障,数据共享安全标准贯穿于整个管理活动中。数据服务安全规范规定了共享安全技术措施和共享安全管理方案,其中共享安全技术措施规定了数据导入导出和交换中的接口、文件、库表,共享安全管理方案则侧重以制度规则降低人为因素导致的潜在风险。分级分类规范对各教育系统数据集进行分类并划分数据域,再以不同敏感度确定数据域的安全等级,最后得到所有数据集和子集的共享类别,保障共享安全技术措施和管理方案的精细化实施。

4 上海教育数据共享实践案例

为加快推进上海教育数据治理,上海市教育委员会在2019年先后出台《上海教育系统加快推进数据治理和“一网通办”工作实施方案》《上海教育数据管理办法(试行)》,规范了教育数据采集管理,推动了归集整合,保障了数据安全,促进了数据共享开放,发挥了数据价值,并明确了相关单位的职责和权力。作为数据治理国际、国家标准的牵头研制单位,上海计算机软件技术开发中心面向教育领域开展大数据成果转化服务,参与完成《上海教育数据管理办法(试行)》的起草,并于2020年完成上海教育数据标准体系的规划,研制完成覆盖基础、数据、技术、平台/工具、应用服务、管控和安全等不同维度的标准规范;为上海市教育委员会打通教育系统内部各级各类教育部门数据交换共享通道,同时为实现教育数据向上海公共数据开放平台的融合提供了支撑,有力推动了上海教育信息化建设在标准化、规范化道路上的发展。

4.1 标准体系流程架构

作为教育数据管理总则性文件,《上海教育数据管理办法(试行)》明确了各项管理原则,将管理角色分为数据提供部门、数据使用部门、数据管理协调部门和数据技术管理部门,并对各部门职责分工进行了规定。上海教育数据标准体系遵从其各项管理原则和角色划分,以数据服务为目标研究制定各项标准文件,对数据全生命周期过程提供技术指导和管理规范,旨在实现教育数据共享、开放和各类深度应用。上海教育数据标准体系架构如图2所示,从数据全生命周期视角展示了各标准规范的执行流程及规范阶段。

面向数据共享的教育数据标准体系研究与建设实践_第2张图片

图2   上海教育数据标准体系架构

教育基础数据采集自各教育单位的业务系统,基础信息分类与代码作为共享支撑标准,规定了数据的元素构成和元数据结构,数据以标准统一的形态存储在教育单位的数据库中。教育基础数据从各单位数据库以集成标准归入前置库,通过前置节点向教育数据资源管理技术平台归集。其中,数据集成管理规范通过标准化接口、名称、代码的方式保证归集过程的稳定高效进行。

作为上海教育数据共享交换的核心,教育数据资源管理技术平台对接各级平台或应用系统,提供业务系统应用、数据对接报送、公共数据开放、治理决策支持、大数据分析应用等功能,在平台建设指南的指导下进行标准化建设,由平台运维管理规范确定运维管理标准。针对平台提供的共享服务,数据服务管理规范确定了共享服务的使用方式和流程,并界定了使用过程中各部门的权责利,保证数据服务使用符合正当、必要、最小化、合法合规的原则。

数据质量管理规范、安全管理规范和分级分类管理规范作为贯穿数据全生命周期的标准,通过对数据质量管理和安全管理行为进行规范,保证数据共享服务可用、好用和安全使用。

4.2 共享标准体系建设特点

(1)管理角色权责划分

跨部门信息共享的障碍除了技术和业务层面的不兼容因素外,更多的是组织结构、部门间关系、部门利益相关等问题,如缺乏激励、抗拒变革、支持信任缺乏、利益冲突等。上海教育数据标准体系中的各项规范、指南通过界定数据提供部门、数据使用部门、数据管理协调部门和数据技术管理部门的数据使用和管理责任,划清部门管理边界,以避免教育数据共享中的部门利益冲突,并规范各部门管理或技术人员行使职能,实现安全事件追责。

从数据共享交换需求、供给、技术及协调管理4个方面确定各角色,既有利于厘清部门利益和落实部门责任,也简化了共享交换过程中的环节,便于数据共享流程化管理。数据共享管理流程如图3所示。

面向数据共享的教育数据标准体系研究与建设实践_第3张图片

图3   数据共享管理流程

(2)两级共享平台建设

上海教育数据共享采用两级平台建设模式,各级教育数据资源管理技术平台作为数据共享技术载体归集了各级各类教育单位的基础教育数据,两级共享平台层级结构如图4所示。平台具备教育数据的归集、存储、治理、安全、赋能和服务能力,作为各级教育数据共享交换枢纽,实现了数据平台、数据接口、数据通道和数据管理4个维度的功能。一级教育数据资源管理技术平台即上海的市级教育数据资源管理技术平台,向上对接教育部、上海市大数据中心、市级教育单位。二级教育数据资源管理技术平台指区级、高校、中职教育数据资源管理技术平台,汇集了上海各行政区内教育单位、高校和中职的教育数据。通过标准化两级平台建设,实现数据跨部门、跨层级交换共享,避免了以数据网关交换方式实现共享造成的数据接口繁多、效率低、资源消耗大等问题,既保证了集约建设,又保证了共享交换的高效进行。

面向数据共享的教育数据标准体系研究与建设实践_第4张图片

图4   两级共享平台层级结构

时,教育数据资源管理技术平台建设指南规定了各级各类平台的建设标准,在统一各级技术平台的数据标准、基础功能、维护规范、安全要求等基础特性之余,提供了不同的备选服务功能,在共享服务顺利进行的基础上支持技术平台的特色建设。

(3)数据集成技术标准制定

教育系统各部门信息化建设均具有一定基础,但一般情况下原有数据库设计与平台总体设计不符,在数据对接集成时存在技术障碍,上海教育数据标准化建设中利用数据集成技术标准解决了全局共享问题。数据集成技术标准规范了上海教育各类信息系统之间进行信息采集、归集、共享和业务协同的方式和协议,保证交换的信息能够被准确地理解和应用,支撑市级平台和各单位业务系统间的数据采集和共享交换,实现上海教育数据的统一规范采集、统一加工处理和统一应用服务。

(4)分级分类共享管理

上海市教育委员会在国家安全相关法律法规和《上海市公共数据开放分级分类指南(试行)》的基础上,结合上海教育数据管理体系建设工作制定了上海教育数据分级分类规范,设定了各类数据的安全等级确定规则,并且实现了与上海公共数据分级分类规则的对接兼容。数据服务管理规范在此基础上针对不同等级的数据,规定了相应处理方式和共享流程,将数据共享类别划分为为无条件共享、授权共享和非共享,从而精细化控制数据共享安全。

在教育数据向政务数据平台共享的管理中,上海市教育委员会根据法定职责确定可以向其他单位共享的数据责任清单,根据履职需要形成需要其他单位共享的数据需求清单,以及形成法律、法规、规章,明确规定不能共享的数据负面清单,通过清单模式以最小、够用原则实现按需共享。

4.3 标准实施路径与成果

教育数据标准的宣贯和实施工作不是一蹴而就的,需要兼顾信息化建设基础和数据标准基础,以合理的工作推进路径逐步提高整个教育系统的数据标准化。上海市教育委员会以数据平台和工具建设先行,优先完善市级教育数据资源管理技术平台架构和技术工具建设,保障数据传输和系统运行稳定性,随后对接各二级平台,建立全市教育数据资源管理目录,并依此逐步推进数据归集和标准落地。

标准试行近一年来,市级教育数据资源管理技术平台共建立教育数据资源管理目录10 5个,相较标准化工作开展前增加54%,并且归集的教育数据量是原来的3倍,基础库数据归集率达到93%,基本实现教育数据应编尽编。通过市级平台对接实现数据共享的教育部门达到32个,累计提供8万多次数据共享接口使用,接口的月调用频率是原来的1.3倍,有效促进了教育数据互联互通。根据政务数据整合要求,向上海市大数据中心累积归集数据39 GB,共享服务能力达到优良水平,满足了上海市“一网通办”对教育数据的共享应用需求。

5 结束语

数据共享是教育数据治理的重要目标,实现数据共享既有利于教育数据管理现代化,也能激发教育数据深度应用的潜能。作为实现数据共享的重要支撑,数据标准体系建设是一项长期任务,不断完善和修订已有标准、基于环境变化制定新标准将成为不断循环迭代的过程,随着教育业务深化、信息化建设水平的发展,教育数据标准建设任重而道远。与此同时,区块链技术研究热潮给数据共享尚待解决的问题带来曙光,其分布式、透明性、数据可追溯、不可随意篡改等特性确保数据从采集、交易、分配到计算分析均存储在区块链中,数据质量获得了前所未有的强信任背书,数据共享过程中的可信性和安全性将获得更强保证。

作者简介

杨琳(1979-),女,上海计算机软件技术开发中心高级工程师,大数据治理研究所副所长,主要研究方向为数据治理和数据资产等 。

王炜(1994-),男,上海计算机软件技术开发中心助理工程师,大数据治理研究所咨询工程师,主要研究方向为数据治理与数据标准 。

诸纪(1995-),男,上海计算机软件技术开发中心助理工程师,大数据治理研究所咨询工程师,主要研究方向为大数据与数据治理 。

王明政(1974-),男,博士,上海市教育委员会信息中心副教授、主任,主要研究方向为教育信息化。

联系我们:

Tel:010-81055448

       010-81055490

       010-81055534

E-mail:[email protected] 

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

转载、合作:010-81055537

大数据期刊

《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。

关注《大数据》期刊微信公众号,获取更多内容

你可能感兴趣的:(大数据,编程语言,数据分析,人工智能,机器学习)