为什么“晚上9点钟洗澡的大学生成绩更好”?

为什么“晚上9点钟洗澡的大学生成绩更好”?_第1张图片

大数据文摘投稿作品 作者:周涛,电子科技大学教授

教育在中国有着非常特殊的地位。在全世界还在盛行世袭制度和等级制度的时候,中国第一次通过科举制度把受教育转化为沿着社会等级向上攀爬的一种途径,从而使教育开始被赋予提高社会流动性的责任。

在中国有历史记载的绝大多数时间里,教育受到了极度的重视,教育家受到了极大的尊重,《国语》说:“……‘民生于三,事之如一。’父生之,师教之,君食之。非父不生,非食不长,非教不知生之族也,故一事之……”《荀子》讲:“天地者,生之本也;先祖者,类之本也;君师者,治之本也。无天地,恶生?无先祖,恶出?无君师,恶治?三者偏亡,焉无安人。故礼,上事天,下事地,尊先祖,而隆君师,是礼之三本也。”所以我们祭祀的时候同拜“天地君亲师”,从其他古代文明国度来看,这是独特的。

最近几十年,信息技术的发展让优质的教育资源通过互联网覆盖到边远落后地区,教育的多样性和趣味性也大幅度提高了。与此同时,教育过程中积累了大量的数据,使我们第一次有机会应用大数据的技术来理解学生行为、助力学生发展。接下来,举个鲜活的例子来展示大数据的威力。

努力程度和生活规律,影响成绩的两大关键

用大数据分析助力K12教育的例子很多,但我所做的主要是针对大学生的研究,所以我想讲一讲如何通过学生在学校里的行为数据来预测他的考试成绩[1]。

很多因素都会影响一个人的成绩,比如身体状态—特别胖对成绩的影响就是负面的;又比如智商对成绩影响很大—通常智商越高,成绩越好;最近一些研究小组还找到了若干与成绩好坏关联很强的基因;另外,人口统计学属性,比如家庭情况、党团关系、民族、宗教信仰等都会产生或多或少的影响。我们为什么会关注行为呢?因为其他的因素我们改变不了或者不容易改变,比如说把可能导致成绩不好的基因删掉,这个太难了,相比之下,改变行为要容易得多。

以前这方面的研究往往需要发放调查问卷,但这并不是一个很好的方法,一方面样本量太小,另一方面被调查者不一定说真话。现在,通过信息技术可以得到大量非受控数据,例如Wi-Fi、智能手机或者校园一卡通中的数据。

我们在电子科技大学做了一项研究(见图4-1),涉及18960名本科生的匿名数据,覆盖了5个学期,包括3,380,567次洗澡、20,060,881次吃饭、3,466,020次进出图书馆和2,305,311次在教学楼打水的记录。我们利用这些数据来刻画一个学生的行为特征,例如努力程度和生活的规律性,然后再看这些特征能否用来预测他的学习成绩。

为什么“晚上9点钟洗澡的大学生成绩更好”?_第2张图片

我们直接用进出图书馆的次数和在教学楼打水的次数来刻画学生的努力程度,因为这两种行为与上课及上自习紧密相关。刻画生活的规律性要稍微复杂一点,需要用到真实熵。

为什么没有选择香农熵呢?度量洗澡的规律性是可以用香农熵的,因为是看洗澡的时间在24小时中分布得是否集中。但如果要度量吃饭,不仅要看时间分布是否集中,还要看是否有序,比如吃早餐、吃午餐、吃晚餐,第二天再吃早餐、吃午餐、吃晚餐,这是有序的。如果今天吃了早餐不吃午餐,直接吃晚餐,第二天不吃早餐,吃午餐和晚餐,这样就没规律了。香农熵度量不了序列的规律性,只有柯尔莫哥洛夫第二熵能够同时度量这个问题,但柯尔莫洛夫第二熵的计算很复杂,于是我们用真实熵做了一个近似[2]。

从图4-1中可以看到,一个生活很有规律的学生,基本上都在晚上9点钟洗澡。另外一个生活没什么规律的学生,除了凌晨2点半到5点半不洗澡外,其他时间好像随时都可以去洗澡。去食堂吃饭的情况也与之类似,生活有规律的学生在8点左右、11点到12点之间、下午5点到6点之间去食堂刷卡吃饭,可能要吃十几二十分钟,这和学校课堂作息时间是高度一致的。而那个生活没有规律的学生,除了晚上10点到清晨6点(这段时间学校食堂也不开门),其他时间随时都可以去食堂刷卡,不一定是吃饭,可能就是买根烤肠、买杯水,但明显没有什么规律。

充分利用研究得到的数据,包括以前的考试成绩,我们可以很精确地预测一个学生的期末考试成绩。如图4-2所示,学生的努力程度和生活规律性与成绩之间都有着很强的关联。除了吃饭、洗澡的时间,我们还分析了很多特征,包括学生睡觉的时间、睡觉的规律性以及和他行为相似的同学的成绩等,这些都与GPA(GradePointAverage,平均学分绩点)有关系[3]。充分利用这些数据,包括以前的考试成绩,我们就可以很精确地预测一个学生的期末考试成绩排名。

为什么“晚上9点钟洗澡的大学生成绩更好”?_第3张图片

整体性与多样化的两难选择

我们的研究结果有助于人们理解影响学生成绩的主要因素,对于实现个性化教育和学生管理具有重要意义。一方面,基于大规模非干预行为数据得到的生活规律性指数,首次被发现与学生成绩显著相关,这一结果支持了东方教育和文化背景下对于课堂纪律性和生活规律性的特别强调。另一方面,通过分析行为数据和计算学生严谨性指数能够发现行为异常的学生。例如,网络游戏成瘾的学生表现出极不规律的生活作息,抑郁和孤僻的学生更倾向于独来独往。我们的方法有助于教育管理人员及时察觉学生的异常行为和心理问题,及早采取干预和帮助措施,更好地引导学生的校园生活。

举例来说,一个学生上个月去图书馆20次,在教学楼打水30次,这个月只去了2次图书馆,在教学楼打水只打了5次,那么我们就要关注一下他的情况了。在没有这种针对过程数据的分析手段时,如果一个学生沉迷游戏,第一学期考试可能勉强及格,第二学期可能有一两科没及格,这些现象当时没有引起重视,等到一年多、两年后,多科不及格的时候,再想改正就很困难了。行为数据分析的好处是能够及时通过异常变化发现问题,而不会有很长时间的滞后。

数据驱动下的教育革命正在静悄悄地开展,实际上,这场革命将波及包括心理学、社会学、经济学、管理学在内的很多原本是定性或者半定量的科学[4]。当然,这并不是一个一帆风顺的过程,因为教育和每一个对象息息相关,我们必须谨慎考虑隐私和伦理的问题。尽管我们已经通过技术手段避免数据分析人员获知学生的身份信息,而只有辅导员能够了解出现特定异常行为的学生情况,但是这种信息披露的程度是否合理,在不同教育阶段分别应该保护隐私到什么程度,都还是值得探索和充满争议的问题。这种“大数据化”的教育系统在整体提高学生学习水平的同时,是否会减少学生思想行为的多样性,甚至压制创造性,也是需要我们认真对待的问题。

本文摘自由湛庐文化编著出版的《那些比答案更重要的好问题》。

为什么“晚上9点钟洗澡的大学生成绩更好”?_第4张图片

《那些比答案更重要的好问题》

湛庐文化 编著

你可能感兴趣的:(为什么“晚上9点钟洗澡的大学生成绩更好”?)