【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through

【论文阅读】An intelligent system for monitoring students' engagement in large classroom teaching through facial expression recognition

  • 摘要
  • 1.介绍
  • 2.相关工作
  • 4.方法
  • 5.实验和讨论

摘要

本篇博客参考WILEY中Expert System于2021收录的论文An intelligent system for monitoring students’ engagement in large classroom teaching through facial expression recognition,对其主要内容进行总结,以便加深理解和记忆

1.介绍

1)大型线下课堂管理系统可以帮助教师减轻考勤跟踪、收集课堂反馈、学生参与或注意力监控等繁重活动的负担,从而加强最佳教学效果。近年来它已成为一个活跃而富有挑战性的研究领域。

2)学生参与课堂学习是必要的,它提高了整体课堂学习质量和学术进步(De Villiers & Werner, 2016)。目前,由于各种原因,如注意力持续时间短,缺乏师生互动,教学方法不完善,学生的脱离问题日益严重(Bradbury, 2016;Lamba et al, 2014)。大型离线教室(学生人数超过60人)会加剧这个问题。经验丰富的教师可以通过观察学生在小班中的行为和互动来监控学生的参与度。然而,即使是这些经验丰富的教师也面临着困难,因为班级规模的增加,并且由于人工限制而无法扩展到超过学生数量的阈值(Exeter et al, 2010)。此外,许多大学(特别是高等教育机构)并不是所有的教师都是经验丰富的教学专家。他们通常没有或很少接受培训/分配时间来教学和提高教学技能,从而提高学生的参与度和参与度。对于想要改进教学的教师来说,仍然存在一些挑战,包括缺乏对其教学技能的充分反馈机会。目前,这种专业发展最有效的做法是聘请专业的人类专家来观察一个或多个讲座,并向讲师提供个性化的形成性反馈。当然,这是昂贵的,不可扩展的,更重要的是,排除了教师的持续学习反馈循环。因此,本研究中提出的用于学生参与监测的自动化方法可以大规模地支持新手教师的专业发展,也可以潜在地帮助有经验的教师评估和提高学生的参与以及大班教学的整体教学过程。

3)在教育研究文献中,学生的参与被定义为多维度和组成部分。Fredricks等人(2004)以三种方式定义了它:行为、情感和认知参与。行为参与描述了学习过程中的行为行为,如正确的身体姿势和写笔记。情绪投入描述了对学习的积极和消极的情绪反应,如注意力、无聊、沮丧。认知参与导致学习提高认知能力,包括解决问题,知识和创造性思维。根据(Li, Y., & Lerner, R. M. 2013),行为和情感投入是双向相关的。此外,行为参与影响认知参与,这是学习过程的重要结果。这项工作(Sathik & Jonathan, 2013)通过统计证明,学生的面部表情与他们的行为和情绪状态显著相关,这有助于识别他们对讲座的投入程度。

4)Whitehill et al(2014)将学生参与度评估方法分为三类,即手动、半自动和自动方法

①手工方法包括基于纸张或计算机的自我报告(Haddad 2014)、基于调查的方法,如全国学生参与调查(NSSE) (Kuh, G.D. 2003),学生参与工具(SEI) (Appleton等人,2006),观察清单和评分量表(Odiri Amatari, 2015;Dzelzkaleja & Kapenieks, 2016)方法。这些方法仍然是费力的、乏味的、断断续续的,而且容易受到偏见的影响。

②半自动方法包括知识追踪基于生理的方法

  • 在知识追踪中,教师通过评估学生在教学过程中对问题的回答来评估学生的参与度。(Griol, D., et al . 2017;Mogwe, a.w. 2018)用于毫不费力地执行此方法。
  • 在基于生理的方法中,学生的参与度是通过使用健身手环、皮肤电活动传感器等可穿戴设备处理脑信号(脑电图[EEG])、心脏信号(心电图[ECG])等生理信号来估计的(Di Lascio等,2018)。这些半自动方法存在易受人为干预、价格昂贵等局限性。

此外,为了测量生理信号,不同的可穿戴皮肤电活动传感器通过电缆连接在用户身上,这使得长时间佩戴变得困难(Dirican & Göktürk, 2011)。

③自动方法包括基于视觉的方法,通过分析高清(HD)监控摄像头拍摄的视频中的面部表情和头部凝视等非语言线索来衡量学生的参与度。这种自动化的方法是非侵入性的、有效的、简单的、公正的、廉价的方法来衡量学生在任何学习环境中的参与度,比如在线或离线课堂学习

5)人工智能技术的进步,如情感计算、计算机视觉和深度学习,被用于开发自动参与监测系统(AEMS)。AEMS通过分析非语言线索自动监测和报告学生的参与情况,无需人工干预。学生的学术情感状态(例如情绪和情绪)分析有可能创造智能教室,可以实时自主监控和分析学生的参与和行为。在最近的文献中,许多工作被提出利用学生的行为和情感线索来发展教育领域的AEMS。

  • 其中,大多数作品解决了单个视频帧中单个学生的电子学习环境(Bosch等人2016;Krithika, L.& GG 2016;ruipsamurez - valiente等2018;Sharma等人2019;Whitehill et al . 2014;张辉等2019;Mukhopadhyay等2020;Bhardwaj, P.等人2021)。
  • 一些作品在一个视频帧中支持多个学生的离线课堂环境(Zaletelj & Košir, 2017;Klein & Celik, 2017;Thomas & Jayagopi, 2017;Soloviev, 2018;Ashwin & Guddeti, 2019;郑如,等2020;罗忠,等2020;Vanneste et al, 2021;Peng, S., et al . 2021)。

对于大型的离线课堂环境,这些工作中的大多数都存在可扩展性问题,并且无法实时估计学生群体的参与度。此外,这些作品使用快乐、愤怒、恐惧、悲伤和惊讶等基本情绪(Ekman, 1992)作为专注度估计的情绪线索,不适合学术环境。早期的研究已经证明,学术情绪和基本情绪之间存在一些区别(Pekrun, 2000)

6)作者的工作与解决的问题

工作:

①不用基本情绪来表示(Wei, Q., et al . 2017)。本研究使用了六种有意义的学术情感状态,即:“无聊”、“困惑”、“集中”、“沮丧”、“打哈欠”和“困倦”,与学习环境相关(D’ mello, S. 2013;Tonguç & Ozkara, 2020)

②创建了一个面部表情数据集,用于从课堂讲座视频中提取学生面部的学术情感。该数据集添加了来自三个公共数据集的相似面部表情样本:BAUM-1 (Zhalehpour等人,2016),DAiSEE (Gupta等人2016);Kamath et al .2016)和YawDD (Abtahi et al . 2014, March)来增加数据集样本

③如何解决这类工作中要考虑的道德和学生数据隐私问题

解决的问题:

①我们能否在大型离线课堂视频的每一帧图像中检测到每个学生的脸?

②我们能通过面部表情识别学生的学业情感状态吗?

③我们能否为每个视频帧计算单个学生群体参与得分?

④我们能否在有足够计算资源的情况下实时估计学生的总体参与度?

⑤我们能否验证AEMS模型和自我报告估计的学生投入之间的相关性?

2.相关工作

1)单人单帧

  • Whitehill等人(2014)提出了一种基于机器学习的系统,通过分析学生的面部表情和行为模式,对学生在电子学习环境中的参与度进行分类。他们的实验得出结论,具有Gabor特征的SVM在分类学生参与度方面表现最好,曲线下面积(AUC)值为0.729。
  • 这项工作(Bosch等人,2016年)使用计算机视觉和机器学习算法来检测学生在与计算机上的教育游戏互动时面部表情和身体动作的影响。他们为此建立了14种不同的机器学习模型,比如SVM,决策树。根据AUC值测量的每种情感状态分类精度:无聊(0.61),困惑(0.65),高兴(0.87),投入(0.68)和沮丧(0.63)。
  • Krithika, L.& GG(2016)开发了一个系统,可以识别和监控学生在电子学习环境中的情绪,并提供学生注意力集中水平的实时反馈。他们用兴奋、无聊、打哈欠、困倦、头部和眼睛的异常运动模式等情绪来预测注意力的集中程度。
  • 这项工作(Sharma et al 2019)通过分析学生的基本面部表情,提出了一种实时的电子学习环境学生参与度估计系统。他们训练了一个基于cnn的情绪识别模型,验证准确率为70%。
  • Zhang, H.等(2019)在DAiSEE数据集上提出了一种基于膨胀三维卷积网络(I3D)的在线学习环境学生参与识别系统二分类模型。对于二元交战分类,无论是交战还是非交战,准确率均达到0.98%。
  • Mukhopadhyay等人(2020)提出了一种通过组合基本面部表情来评估在线学习中学生情感状态的方法。他们使用FER2013数据集提出并训练了一个基于卷积神经网络(CNN)的模型,并实现了62%的分类准确率。
  • P Bhardwaj等人(2021)通过分析基本面部表情,提出了一种基于深度学习的方法,用于在线学习环境下的实时学生参与度分类。-

上述所有方法都解决了电子学习环境中单个学生在单个视频帧中的自动学生参与监控问题。因此,这些工作对于解决单个视频帧中有多个学生的大型离线教室环境中的学生群体参与度自动估计问题是不可行的。

2)多人

  • Zaletelj和Košir(2017)试图使用非语言线索自动估计学生在离线课堂环境中的注意力。他们利用决策树和k近邻等机器学习算法,从Kinect One相机中提取了2D和3D特征,开发了一个模型。他们的系统达到了0.753%的测试准确率,这是通过比较预测的注意力和人类注释给出的真实注意力来评估的。由于Kinect摄像头的技术限制,分析仅限于6名学生,而不是整个教室。

  • Klein和Celik(2017)开发了wits智能教学系统(wits),这是一种基于cnn的方法,可以帮助教师在大型离线课堂环境中使用积极和消极的行为线索实时反馈学生的参与情况。他们使用创建的学生课堂行为数据集训练了一个基于Alexnet架构(Krizhevsky et al . 2012)的模型,验证准确率达到89.60%。这项研究没有使用情感线索来估计学生的投入程度,此外它还涉及到计算开销。

  • 这项工作(Thomas & Jayagopi, 2017)使用计算机视觉和机器学习算法对学生对非语言面部线索的参与进行分类。他们使用名为OpenFace的开源实时面部分析工具箱(Baltrušaitis等人,2016)创建了一个包含27维特征向量的相关特征的数据集。他们利用SVM、逻辑回归等机器学习算法对数据集进行了模型训练,分类准确率分别达到0.89%和0.76%。此研究未在大型线下课堂环境中进行实验。此外,它没有被测试用于评估整个班级学生群体的实时参与。

  • Soloviev(2018)提出了一个系统,该系统通过将学生的基本面部表情分类为积极或消极情绪,连续分析来自教室摄像机的视觉数据流。他们用两类增强决策树(Adaboost)方法训练了一个模型,其分类准确率达到84.80%。这项研究没有考虑学生的学业情绪来划分他们的投入程度。

  • 这项工作(Ashwin & Guddeti, 2019)开发了一个基于CNN的系统,该系统分析非语言线索,并将学生的参与分为四个级别:“完全不参与”、“名义上参与”、“参与任务”和“非常参与”。他们的系统在一个大型的离线教室环境中对面部、手势和身体姿势进行了训练和测试,参与分类的准确率为71%。该方法需要2153毫秒(2.153秒)来处理单个图像帧,这表明计算开销很大。因此,它不能在实时实现中使用。

  • 这项工作(Zheng, R.et al . 2020)设计了一个智能学生行为监测框架,可以检测学生在课堂环境中的举手、站立和睡觉等行为。他们使用改进的Faster R-CNN目标检测算法训练模型,以57.6%的平均精度(mAP)识别上述行为。由于该模型仅用于检测学生的行为,因此无法使用学术情感线索来预测整体学生群体的参与度。

  • Luo, Z.等人在2020年的研究中提出了一个3D模型,该模型包括分层和条件随机森林算法,以及一个使用头部姿势、面部表情和智能手机来估计学生对课堂环境兴趣的互动平台。该模型的分类准确率达到87.5%。

  • Peng, S.等(2021)提出了面部线索、心率和听觉特征的多模态融合来监测学生的心理状态。

一组机器学习算法SVM,随机森林和多层感知器已经训练使用各种多模态融合技术。上述两项研究需要多种物理设备来测量学生的多模态数据,在大型线下课堂环境中使用成本较高。

  • 这项研究(Vanneste et al, 2021)提出了一种通过识别学生举手和记笔记等行为来评估学生在课堂环境中的参与度的技术。他们训练了一个深度学习模型来识别这些行为,它的召回率和准确率分别达到了63%和45%。该研究没有在大型教室环境中进行实验,以进行实时参与度评估。此外,它没有考虑学生的学术情感状态在其方法。

上述作品均未尝试在大型线下课堂环境下,通过面部表情分析学生的学业情感状态,开发AEMS进行实时学生投入监测。

3)线下课堂学生参与度监测相关工作综述

【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第1张图片
# 3.研究意义与技术背景

1)AEMS

在教育领域实施AEMS可以有广泛的应用:

  • 在远程学习环境中,人类教师可以收到关于学生参与水平(低、中、高)的实时反馈(Whitehill等,2014)
  • 学生对教学视频的反应会自动识别和修改视频内容,导致观众失去兴趣(Whitehill et al ., 2014)
  • 教育分析师可以获得大量数据来挖掘影响学生参与的因素和变量。与自我报告和问卷调查结果相比,这些数据将具有较高的时间分辨率(Whitehill et al ., 2014)
  • 对学生参与度的分析可以作为即时反馈来调整教学策略,以提高学生的学习过程(Ashwin & Guddeti, 2019)
  • 教学策略的日常反馈有利于新手教师快速提高教学体验(Ashwin & Guddeti, 2019)
  • 在智慧校园、智慧大学时代,校园学习环境多种多样,包括课堂、网络研讨会、电子学习环境等
  • 人工监控学生是困难的,可以使用AEMS解决(al - nawaashi等,2017;Ashwin & Guddeti, 2019)

除了用于教育领域,AEMS还可以用于许多其他领域,如娱乐(Wang, S. & Ji,Q.;医疗保健(Singh & Goyal, 2021)、购物(Yolcu et al, 2020)等等。由于AEMS可用于各个领域,因此每个领域需要根据参与维度重新设计一组不同的上下文特征,以获得更好的预测。处理人们的视觉数据是很敏感的。基于情感人工智能和情感计算技术的这种自主系统的开发和使用引入了一系列新的道德问题,这些问题需要负责任的行为,例如系统设计、道德数据使用、透明度和隐私(Gretchen Greene 2020;Robin Murdoch 2020)。

2)情感计算

情感计算(Affective computing, AC)是一个研究开发能够感知、识别和处理人类情感的系统和设备的领域。它是一个跨学科的领域,包括计算机、心理学和认知科学。在人工智能的帮助下,我们可以将计算机器转变为能够理解人类情感并做出相应反应的情感智能机器。AC在教育,医疗保健,智能家居,娱乐等许多领域具有广泛的应用。根据AC研究人员的研究,人类的交流 不仅依赖于语音和文本等语言交流,还依赖于面部表情、眼睛凝视、头部凝视、手势和身体姿势等非语言交流(Poria et al, 2017)。

研究(Sathik & Jonathan, 2013)证明了在课堂上听课的学生更常使用的非语言交流渠道是面部表情。尽管教室的座位安排和大小不同,这些面部表情较少被遮挡的非语言参数。此外,与处理其他非语言参数(如身体姿势估计)相比,处理该参数的计算强度更低。

4.方法

该方法的框架包括离线和在线两个模块,如图3所示。离线模块是基于CNN训练的FER模型,在线模块实时运行,使用离线模块训练的CNN模型来估计学生的参与度。

【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第2张图片

1)隐私保护

2)离线模块

离线模块执行一次以开发基于cnn的FER模型,该模型接受人脸图像作为输入,并预测适当的情感状态标签作为输出。作为离线模块的一部分,还构建了一个数据集来训练CNN架构。

①数据集构造;②学术情感状态定义;③数据收集和参与者;④面部数据标注;

⑥提出的CNN模型

【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第3张图片
【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第4张图片

3)在线模块

包括五个阶段,分别是:视频采集阶段、预处理阶段、学生情感分类阶段、后处理阶段和可视化阶段。

  • 首先采用视频帧的序列并将帧计数器设置为零。当每一帧视频被处理到预处理阶段时,帧计数器加1。预处理阶段返回对齐的正面人脸,其中来自这些人脸图像的情感状态由离线模块中训练的FER模型识别。
  • 一旦帧计数器值等于预定义的阈值,通过应用4.2.4节中所述的识别情感状态标签的后处理步骤(从步骤1到步骤4),绘制处理后的视频片段的实时参与度图。
  • 讲座结束后,返回最大累积的小组参与水平标签,作为学生对整个讲座的整体参与反馈。

①视频采集

②预处理:

  • 帧采样:帧采样步骤每秒采样几个视频帧,以估计学生群体的参与水平。根据(Whitehill et al 2014)的研究,以0.25 s的时间间隔每秒处理4帧视频得到的结果几乎等于每秒处理30帧视频得到的结果。因此,在该帧采样步骤中,每秒仅处理4帧视频帧,时间间隔为0.25 s,从而减少了计算开销;
  • 人脸检测和提取:使用预训练的人脸检测模型从每个视频帧中提取最大数量的人脸。我们使用多任务级联卷积神经网络(MTCNN)作为预训练的人脸检测模型(Zhang, K., et al . 2016)。MTCNN模型在检测更小的面部贴片方面取得了最先进的结果,假阳性结果可以忽略不计(其中非面部贴片被检测为面部贴片)。人脸检测步骤返回一个人脸补丁坐标列表和一个人脸地标坐标列表。每个人脸贴片坐标包含四个值,分别是被检测人脸的右上角、宽度和高度的x和y坐标值。利用这四个值从视频帧中提取人脸图像补丁。面部标志坐标表包括每只眼睛中间的两个标志的坐标值,一个在鼻尖,另外两个在嘴角。
【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第5张图片
  • 头部姿态估计:头部姿态检测步骤从检测到的人脸中去除所有非正面人脸,包括左倾斜、右倾斜、向上和向下。

    由于FER模型不能为这些非正面人脸分配适当的情感状态标签,降低了方法的效率。头部姿态估计涉及使用数字图像计算与相机姿态有关的头部的3D方向。为此,我们实施了(Mallick, 2016)工作中提出的方法。在这项工作中,通过将六个二维面部地标(如图8所示的5个地标和下巴上的第六个地标)与各自的三维位置地标(根据世界坐标计算)相关联,计算出三个与姿态相关的度,即偏航、俯仰和滚转。使用MTCNN模型生成的鼻尖和嘴角面部地标坐标显式计算第六个面部地标坐标。物体在垂直方向上的旋转称为俯仰。物体在水平运动中的旋转称为偏航。物体作圆周(顺时针或逆时针)运动的旋转称为滚动。通过偏航运动程度的阈值来消除左倾斜和右倾斜的脸。同样,上下面被音调移动程度的阈值所消除。

【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第6张图片
  • 人脸对齐和调整大小

在人脸对齐步骤中进一步细化正面人脸补丁。一般来说,不能保证所有正面都精确对齐,如上图所示。一些正面可能向右或向左倾斜。人脸对齐是一种基于平移、缩放和旋转变换的数字图像人脸标准对齐预处理技术。为此,我们实现了(Rosebrock, 2017)工作中提出的一种方法。这一步骤的另一个隐含优势是图像增强;它通过重新定位像素来减少图像模糊。最后,将这些对齐的正面调整为48 × 48(宽度×高度)像素,然后将其作为训练后的FER模型的输入。

③学生情感状态分类

低参与度(EL1):无聊、困倦;中等参与度(EL2):打哈欠、沮丧、困惑;高参与度(EL3):专注

④后处理

  • 将从视频帧中提取的所有预测的学生面部情感标签累积到各自的累加器中(累加器作为每个情感状态标签的计数器)
  • 这些累加器被合并到各自的EL累加器中,EL1(低)、EL2(中)和EL3(高)
  • 重复这个过程,直到帧计数器等于预定义的阈值
  • 一旦帧计数器等于预定义的阈值,输入视频流就被分割成一个视频段(最大EL累加器标签作为该视频片段的组参与级别(GEL)返回)
  • 将每个视频片段的GEL标签累积到各自的GEL累加器中,如GEL1(低)、GEL2(中)、GEL3(高),这些累加器会用到完整讲座的参与反馈(FGEF)
  • 在此处理之后,处理后的视频片段的GEL被绘制在实时图形上
  • 最后,当输入视频流完成时,最大的GEL累加器标签作为整个讲座的FGEF返回。

5.实验和讨论

1)实验设置

为了实现和实验,使用了由第8代英特尔酷睿i5-8300H处理器@2.30GHz, 16gb RAM和4gb NVIDIA GeForce GTX 1050Ti显卡组成的计算系统。

本系智能教室安装了一台200万像素(People Link Elite FHD-1080 20倍光学变焦)网络摄像机,用于录制课堂视频。

2)CNN模型训练和评估

3)计算时间

4)结果与讨论

【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第7张图片
【论文阅读】An intelligent system for monitoring students‘ engagement in large classroom teaching through_第8张图片

5)局限性

这项工作仅限于学生的年龄、文化和上课背景没有很大程度的异质性的情况下。在这种情况下,我们假设表情不会有明显的变化,那么一个模型就足以识别他们的面部表情。因此,所提出的模型的操作在上述上下文中可以在一定程度上起作用,但是当应用于不同年龄、文化和背景的学生时,它可能会有所不同。然而,当系统部署在学生年龄、文化和背景存在很大程度异质性的情况下时,我们建议考虑不同的人群训练多个FER模型,并整合这些模型的输出以获得最终结果。目前的研究主要是通过面部表情来评估学生的群体参与。我们还没有考虑不同的非语言线索的组合,如身体姿势、头部运动和眼睛注视。此外,本研究是通过学生的敬业度测量自我报告进行验证的,而不是通过教师自己的判断、训练过的观察者和学生的学习收获进行外部验证。

你可能感兴趣的:(论文阅读,深度学习)