本篇博客参考WILEY中Expert System于2021收录的论文An intelligent system for monitoring students’ engagement in large classroom teaching through facial expression recognition,对其主要内容进行总结,以便加深理解和记忆
1)大型线下课堂管理系统可以帮助教师减轻考勤跟踪、收集课堂反馈、学生参与或注意力监控等繁重活动的负担,从而加强最佳教学效果。近年来它已成为一个活跃而富有挑战性的研究领域。
2)学生参与课堂学习是必要的,它提高了整体课堂学习质量和学术进步(De Villiers & Werner, 2016)。目前,由于各种原因,如注意力持续时间短,缺乏师生互动,教学方法不完善,学生的脱离问题日益严重(Bradbury, 2016;Lamba et al, 2014)。大型离线教室(学生人数超过60人)会加剧这个问题。经验丰富的教师可以通过观察学生在小班中的行为和互动来监控学生的参与度。然而,即使是这些经验丰富的教师也面临着困难,因为班级规模的增加,并且由于人工限制而无法扩展到超过学生数量的阈值(Exeter et al, 2010)。此外,许多大学(特别是高等教育机构)并不是所有的教师都是经验丰富的教学专家。他们通常没有或很少接受培训/分配时间来教学和提高教学技能,从而提高学生的参与度和参与度。对于想要改进教学的教师来说,仍然存在一些挑战,包括缺乏对其教学技能的充分反馈机会。目前,这种专业发展最有效的做法是聘请专业的人类专家来观察一个或多个讲座,并向讲师提供个性化的形成性反馈。当然,这是昂贵的,不可扩展的,更重要的是,排除了教师的持续学习反馈循环。因此,本研究中提出的用于学生参与监测的自动化方法可以大规模地支持新手教师的专业发展,也可以潜在地帮助有经验的教师评估和提高学生的参与以及大班教学的整体教学过程。
3)在教育研究文献中,学生的参与被定义为多维度和组成部分。Fredricks等人(2004)以三种方式定义了它:行为、情感和认知参与。行为参与描述了学习过程中的行为行为,如正确的身体姿势和写笔记。情绪投入描述了对学习的积极和消极的情绪反应,如注意力、无聊、沮丧。认知参与导致学习提高认知能力,包括解决问题,知识和创造性思维。根据(Li, Y., & Lerner, R. M. 2013),行为和情感投入是双向相关的。此外,行为参与影响认知参与,这是学习过程的重要结果。这项工作(Sathik & Jonathan, 2013)通过统计证明,学生的面部表情与他们的行为和情绪状态显著相关,这有助于识别他们对讲座的投入程度。
4)Whitehill et al(2014)将学生参与度评估方法分为三类,即手动、半自动和自动方法。
①手工方法包括基于纸张或计算机的自我报告(Haddad 2014)、基于调查的方法,如全国学生参与调查(NSSE) (Kuh, G.D. 2003),学生参与工具(SEI) (Appleton等人,2006),观察清单和评分量表(Odiri Amatari, 2015;Dzelzkaleja & Kapenieks, 2016)方法。这些方法仍然是费力的、乏味的、断断续续的,而且容易受到偏见的影响。
②半自动方法包括知识追踪和基于生理的方法
此外,为了测量生理信号,不同的可穿戴皮肤电活动传感器通过电缆连接在用户身上,这使得长时间佩戴变得困难(Dirican & Göktürk, 2011)。
③自动方法包括基于视觉的方法,通过分析高清(HD)监控摄像头拍摄的视频中的面部表情和头部凝视等非语言线索来衡量学生的参与度。这种自动化的方法是非侵入性的、有效的、简单的、公正的、廉价的方法来衡量学生在任何学习环境中的参与度,比如在线或离线课堂学习
5)人工智能技术的进步,如情感计算、计算机视觉和深度学习,被用于开发自动参与监测系统(AEMS)。AEMS通过分析非语言线索自动监测和报告学生的参与情况,无需人工干预。学生的学术情感状态(例如情绪和情绪)分析有可能创造智能教室,可以实时自主监控和分析学生的参与和行为。在最近的文献中,许多工作被提出利用学生的行为和情感线索来发展教育领域的AEMS。
对于大型的离线课堂环境,这些工作中的大多数都存在可扩展性问题,并且无法实时估计学生群体的参与度。此外,这些作品使用快乐、愤怒、恐惧、悲伤和惊讶等基本情绪(Ekman, 1992)作为专注度估计的情绪线索,不适合学术环境。早期的研究已经证明,学术情绪和基本情绪之间存在一些区别(Pekrun, 2000)。
6)作者的工作与解决的问题
工作:
①不用基本情绪来表示(Wei, Q., et al . 2017)。本研究使用了六种有意义的学术情感状态,即:“无聊”、“困惑”、“集中”、“沮丧”、“打哈欠”和“困倦”,与学习环境相关(D’ mello, S. 2013;Tonguç & Ozkara, 2020)
②创建了一个面部表情数据集,用于从课堂讲座视频中提取学生面部的学术情感。该数据集添加了来自三个公共数据集的相似面部表情样本:BAUM-1 (Zhalehpour等人,2016),DAiSEE (Gupta等人2016);Kamath et al .2016)和YawDD (Abtahi et al . 2014, March)来增加数据集样本
③如何解决这类工作中要考虑的道德和学生数据隐私问题
解决的问题:
①我们能否在大型离线课堂视频的每一帧图像中检测到每个学生的脸?
②我们能通过面部表情识别学生的学业情感状态吗?
③我们能否为每个视频帧计算单个学生群体参与得分?
④我们能否在有足够计算资源的情况下实时估计学生的总体参与度?
⑤我们能否验证AEMS模型和自我报告估计的学生投入之间的相关性?
1)单人单帧
上述所有方法都解决了电子学习环境中单个学生在单个视频帧中的自动学生参与监控问题。因此,这些工作对于解决单个视频帧中有多个学生的大型离线教室环境中的学生群体参与度自动估计问题是不可行的。
2)多人
Zaletelj和Košir(2017)试图使用非语言线索自动估计学生在离线课堂环境中的注意力。他们利用决策树和k近邻等机器学习算法,从Kinect One相机中提取了2D和3D特征,开发了一个模型。他们的系统达到了0.753%的测试准确率,这是通过比较预测的注意力和人类注释给出的真实注意力来评估的。由于Kinect摄像头的技术限制,分析仅限于6名学生,而不是整个教室。
Klein和Celik(2017)开发了wits智能教学系统(wits),这是一种基于cnn的方法,可以帮助教师在大型离线课堂环境中使用积极和消极的行为线索实时反馈学生的参与情况。他们使用创建的学生课堂行为数据集训练了一个基于Alexnet架构(Krizhevsky et al . 2012)的模型,验证准确率达到89.60%。这项研究没有使用情感线索来估计学生的投入程度,此外它还涉及到计算开销。
这项工作(Thomas & Jayagopi, 2017)使用计算机视觉和机器学习算法对学生对非语言面部线索的参与进行分类。他们使用名为OpenFace的开源实时面部分析工具箱(Baltrušaitis等人,2016)创建了一个包含27维特征向量的相关特征的数据集。他们利用SVM、逻辑回归等机器学习算法对数据集进行了模型训练,分类准确率分别达到0.89%和0.76%。此研究未在大型线下课堂环境中进行实验。此外,它没有被测试用于评估整个班级学生群体的实时参与。
Soloviev(2018)提出了一个系统,该系统通过将学生的基本面部表情分类为积极或消极情绪,连续分析来自教室摄像机的视觉数据流。他们用两类增强决策树(Adaboost)方法训练了一个模型,其分类准确率达到84.80%。这项研究没有考虑学生的学业情绪来划分他们的投入程度。
这项工作(Ashwin & Guddeti, 2019)开发了一个基于CNN的系统,该系统分析非语言线索,并将学生的参与分为四个级别:“完全不参与”、“名义上参与”、“参与任务”和“非常参与”。他们的系统在一个大型的离线教室环境中对面部、手势和身体姿势进行了训练和测试,参与分类的准确率为71%。该方法需要2153毫秒(2.153秒)来处理单个图像帧,这表明计算开销很大。因此,它不能在实时实现中使用。
这项工作(Zheng, R.et al . 2020)设计了一个智能学生行为监测框架,可以检测学生在课堂环境中的举手、站立和睡觉等行为。他们使用改进的Faster R-CNN目标检测算法训练模型,以57.6%的平均精度(mAP)识别上述行为。由于该模型仅用于检测学生的行为,因此无法使用学术情感线索来预测整体学生群体的参与度。
Luo, Z.等人在2020年的研究中提出了一个3D模型,该模型包括分层和条件随机森林算法,以及一个使用头部姿势、面部表情和智能手机来估计学生对课堂环境兴趣的互动平台。该模型的分类准确率达到87.5%。
Peng, S.等(2021)提出了面部线索、心率和听觉特征的多模态融合来监测学生的心理状态。
一组机器学习算法SVM,随机森林和多层感知器已经训练使用各种多模态融合技术。上述两项研究需要多种物理设备来测量学生的多模态数据,在大型线下课堂环境中使用成本较高。
上述作品均未尝试在大型线下课堂环境下,通过面部表情分析学生的学业情感状态,开发AEMS进行实时学生投入监测。
3)线下课堂学生参与度监测相关工作综述
1)AEMS
在教育领域实施AEMS可以有广泛的应用:
除了用于教育领域,AEMS还可以用于许多其他领域,如娱乐(Wang, S. & Ji,Q.;医疗保健(Singh & Goyal, 2021)、购物(Yolcu et al, 2020)等等。由于AEMS可用于各个领域,因此每个领域需要根据参与维度重新设计一组不同的上下文特征,以获得更好的预测。处理人们的视觉数据是很敏感的。基于情感人工智能和情感计算技术的这种自主系统的开发和使用引入了一系列新的道德问题,这些问题需要负责任的行为,例如系统设计、道德数据使用、透明度和隐私(Gretchen Greene 2020;Robin Murdoch 2020)。
2)情感计算
情感计算(Affective computing, AC)是一个研究开发能够感知、识别和处理人类情感的系统和设备的领域。它是一个跨学科的领域,包括计算机、心理学和认知科学。在人工智能的帮助下,我们可以将计算机器转变为能够理解人类情感并做出相应反应的情感智能机器。AC在教育,医疗保健,智能家居,娱乐等许多领域具有广泛的应用。根据AC研究人员的研究,人类的交流 不仅依赖于语音和文本等语言交流,还依赖于面部表情、眼睛凝视、头部凝视、手势和身体姿势等非语言交流(Poria et al, 2017)。
研究(Sathik & Jonathan, 2013)证明了在课堂上听课的学生更常使用的非语言交流渠道是面部表情。尽管教室的座位安排和大小不同,这些面部表情较少被遮挡的非语言参数。此外,与处理其他非语言参数(如身体姿势估计)相比,处理该参数的计算强度更低。
该方法的框架包括离线和在线两个模块,如图3所示。离线模块是基于CNN训练的FER模型,在线模块实时运行,使用离线模块训练的CNN模型来估计学生的参与度。
1)隐私保护
2)离线模块
离线模块执行一次以开发基于cnn的FER模型,该模型接受人脸图像作为输入,并预测适当的情感状态标签作为输出。作为离线模块的一部分,还构建了一个数据集来训练CNN架构。
①数据集构造;②学术情感状态定义;③数据收集和参与者;④面部数据标注;
⑥提出的CNN模型
3)在线模块
包括五个阶段,分别是:视频采集阶段、预处理阶段、学生情感分类阶段、后处理阶段和可视化阶段。
①视频采集
②预处理:
头部姿态估计:头部姿态检测步骤从检测到的人脸中去除所有非正面人脸,包括左倾斜、右倾斜、向上和向下。
由于FER模型不能为这些非正面人脸分配适当的情感状态标签,降低了方法的效率。头部姿态估计涉及使用数字图像计算与相机姿态有关的头部的3D方向。为此,我们实施了(Mallick, 2016)工作中提出的方法。在这项工作中,通过将六个二维面部地标(如图8所示的5个地标和下巴上的第六个地标)与各自的三维位置地标(根据世界坐标计算)相关联,计算出三个与姿态相关的度,即偏航、俯仰和滚转。使用MTCNN模型生成的鼻尖和嘴角面部地标坐标显式计算第六个面部地标坐标。物体在垂直方向上的旋转称为俯仰。物体在水平运动中的旋转称为偏航。物体作圆周(顺时针或逆时针)运动的旋转称为滚动。通过偏航运动程度的阈值来消除左倾斜和右倾斜的脸。同样,上下面被音调移动程度的阈值所消除。
在人脸对齐步骤中进一步细化正面人脸补丁。一般来说,不能保证所有正面都精确对齐,如上图所示。一些正面可能向右或向左倾斜。人脸对齐是一种基于平移、缩放和旋转变换的数字图像人脸标准对齐预处理技术。为此,我们实现了(Rosebrock, 2017)工作中提出的一种方法。这一步骤的另一个隐含优势是图像增强;它通过重新定位像素来减少图像模糊。最后,将这些对齐的正面调整为48 × 48(宽度×高度)像素,然后将其作为训练后的FER模型的输入。
③学生情感状态分类
低参与度(EL1):无聊、困倦;中等参与度(EL2):打哈欠、沮丧、困惑;高参与度(EL3):专注
④后处理
1)实验设置
为了实现和实验,使用了由第8代英特尔酷睿i5-8300H处理器@2.30GHz, 16gb RAM和4gb NVIDIA GeForce GTX 1050Ti显卡组成的计算系统。
本系智能教室安装了一台200万像素(People Link Elite FHD-1080 20倍光学变焦)网络摄像机,用于录制课堂视频。
2)CNN模型训练和评估
3)计算时间
4)结果与讨论
5)局限性
这项工作仅限于学生的年龄、文化和上课背景没有很大程度的异质性的情况下。在这种情况下,我们假设表情不会有明显的变化,那么一个模型就足以识别他们的面部表情。因此,所提出的模型的操作在上述上下文中可以在一定程度上起作用,但是当应用于不同年龄、文化和背景的学生时,它可能会有所不同。然而,当系统部署在学生年龄、文化和背景存在很大程度异质性的情况下时,我们建议考虑不同的人群训练多个FER模型,并整合这些模型的输出以获得最终结果。目前的研究主要是通过面部表情来评估学生的群体参与。我们还没有考虑不同的非语言线索的组合,如身体姿势、头部运动和眼睛注视。此外,本研究是通过学生的敬业度测量自我报告进行验证的,而不是通过教师自己的判断、训练过的观察者和学生的学习收获进行外部验证。