【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析

前言

  读研期间需要读论文,在此记录一下,一方面记录论文的翻译,一方面记录自己的感想。今天读的是最近新京报报导过的电子科大周涛老师团队做的《生活规律性预测学业表现:校园生活的行为分析》相关研究。

涉及侵权请联系我删除,ღ( ´・ᴗ・` )比心

正文​

​来源:电子科技大学 周涛团队

​字数:1000

阅读耗时:10分钟

本文结构

  • 1.论文摘要

  • 2.数据描述

  • 3.论文框架

  • 4.数据分析

  • 5.算法介绍

  • 6.实验结果


摘要

对学生行为模式与学业表现之间关系的定量理解是迈向个性化教育的重要一步。与以往主要基于问卷调查的研究相比,我们收集了18960名大学生校园卡的行为记录,并提出了一种新的衡量标准,即衡量每个学生的校园日常生活(如:吃饭和淋浴)的规律性。实证分析表明,学业表现(GPA)与规律密切相关。此外,我们还发现,即使在学生的勤奋工作中,“自律性”是预测学业表现的一个重要特征,它也能显著提高预测的准确性。在这些分析的基础上,教育管理人员可在必要的时候引导学生们的校园生活和工作。

一句话总结:将校园卡刷卡记录分成2类:消费记录(吃饭、洗澡)和学习记录(进出图书馆、教学楼打水),对这2类数据计算actual entropy(详见算法RankNet介绍)作为特征融入模型,最后用AUC衡量模型表现


数据

  • 来源:电子科大本科生的校园卡刷卡记录

  • 规模:18,960个学生的行为记录

  • 数据字段:

    记录类目 洗澡 吃饭 进出图书馆 打水(教学楼内) 总计
    记录条数 3,380,567 20,060,881 3,466,020 2,305,311 29,212,779
  • 时间跨度:2009年9月至2015年3月(5年)

  • 数据预览(源数据未公开,试图从论文中还原)

    card_id 行为 地点 时间戳
    esd0324638jfd 吃饭 第2食堂 1539167566.502159
    esd0324638jfd 打水 第1教学楼 1539173338.468858
    …… …… …… ……

分析框架

  • 研究学生每天的行为特性,把1d分为48份,每份0.5h,所以一天内吃饭、洗澡、进出图书馆、打水行为可以时间序列化,用熵衡量其有序性,熵越小,有序性越高

  • 吃饭、洗澡、进出图书馆、打水分为2类:

    • 1-Orderness消费行为:吃饭、洗澡

    • 2-Diligence学习行为:进出图书馆、打水

【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第1张图片


数据分析

  • 图1-orderness.计算实际熵值分布,横轴为S值,纵轴为p(S),学生洗澡(上)和吃饭(下),指出位于分布的5%处(高有序性,S=1.5)和95%处(低有序性,S=2.5)学生的行为在24h内的分布,深色为5%,浅色为95%,由此可见较大的区分度,高自律性学生洗澡、吃饭较集中,低自律性学生则较分散

    实际熵值越小表明学生越自律,计算公式:【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第2张图片

​​​​​​​【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第3张图片

  • 图2.分别计算吃饭、洗澡的熵S值,下图是经过Z-score标准化后的S值分箱后和(标准化后的)GPA大小的变化关系,可见呈现正线性相关关系,同时计算spearman相关系数来衡量相关性强度(对应p值取为0.0001)

    【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第4张图片

  • 图3.-diligence.计算实际熵值分布-进出图书馆(上)和打水(下)

    【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第5张图片

  • 图4.分别计算进出图书馆、打水的熵S值,下图是经过Z-score标准化后的S值分箱后和(标准化后的)GPA大小的变化关系,可见呈现正线性相关关系,同时计算spearman相关系数来衡量相关性强度(对应p值取为0.0001)

    【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第6张图片

  • 图5. orderness-diligence的交叉列联散点图,每个点代表个学生,颜色越深GPA越高,可见orderness类特征和diligence类特征无明显线性相关关系,认为同时使用这两组特征无多重共线性问题。

    【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第7张图片


核心算法

  • 名称:RankNet

  • 作者:Chris Burges [email protected]

  • 地址:http://videolectures.net/icml2015_burges_learning_to_rank/

  • 类型:有监督算法

  • 内核:逻辑回归

  • 优劣评判标准:AUC

  • 训练数据格式

    card_id 吃饭熵值S1 洗澡熵值S2 进出图书馆熵值S3 打水熵值S4 日期 目标变量(学生GPA)
    esd0324638jfd 0.798 1.5 2.3 4.6 20170901 3.45
    dshck34555s3 3.2 0.04 1.5 7.4 20170915 3.67
    …… …… …… …… …… …… ……

实验结果

  • O指orderness类特征,即上述表中的S1、S2

  • D指diligence类特征,即上述表中的S3、S4

  • SEM是semester学期的简称

  • 展示结果表示以上一学期作为训练集,本学期作为测试集,模型的AUC值

【论文研读】1-电子科大-周涛团队-生活规律性预测学业表现:校园生活的行为分析_第8张图片


 

备注:

  • orderness只关注1天内的用户特征,关注的是timestamp的时分秒

  • 多重共线性:LR训练过程中系数不确定,影响模型精度​​​​​​​

你可能感兴趣的:(论文研读)