互联网+ 学生注意力检测系统 毕设 基于深度学习的课堂签到和专注力检测系统

  1. 简单介绍下你的基于深度学习的课堂签到和专注力检测系统。
    感谢老师的提问,学生参与的这个项目主要作用于对学生网课打卡签到及专注时长的检测。
    首先最主要的版块是人脸的识别,学生借助opencv框架,捕获脸部数据,通过计算欧式距离来和预存的人脸特征进行对比,达到人脸识别的目的,通过识别人脸面部是否在Anchor box内来判断学生的注意力状态,如果人脸在Anchor box内即判别为专注状态。
    然后基于人脸在Anchor box内即判别为专注状态的基础之上,通过已录制好的视频提取图片帧进行人工标注(labelme)并训练Faster R-CNN模型,通过调参得到最优的算法训练结果。然后在上课的时候利用监控摄像头对图像进行采集,获得视频流信息,每1秒截取一帧图片数据,利用已训练好的算法模型进行检测识别,结合目标跟踪算法计算学生的专注时长。
    最后使用Faster R.CNN算法以及Anchor box的修改完善学生注意力系统的识别过程并利用其进行分析学生低头抬头行为识别的过程,使得学生注意力系统/专注力检测系统进一步完备。
  2. 创新点是什么?详细说下你训练模型以及人工标注的全过程。
    感谢老师的提问,创新点就是学生通过在识别学生本人的基础上,多出了对学生的专注时长检测,如果学生是比较专注的情况下,即使低头记笔记这样可能检测不到人脸,专注时间时长会有来去,但绝对不可能来去太大,如果一大段时间都没有检测到人脸或者说是非学生本人人脸,那就判定学生不专注。
    学生的深度学习的课堂签到和专注力检测系统是使用的OpenCV框架和Faster R-CNN模型。
    首先借助opencv框架,捕获脸部数据,通过计算欧式距离来和预存的人脸特征进行对比,达到人脸识别的目的,通过识别人脸面部是否在Anchor(安可) box内来判断学生的注意力状态,如果人脸在Anchor box内即判别为专注状态。
    其次通过已录制好的视频提取图片帧进行数据标注,使用labelme标注工具来打标签,然后将标注的xml标签文件转化为txt文本文件,然后进行适当的调参,并放入Faster R-CNN模型进行训练,通过调参得到最优的算法训练结果。
    最后在上课的时候利用监控摄像头对图像进行采集,获得视频流信息,每1秒截取一帧图片数据,利用已训练好的算法模型进行检测识别,结合目标跟踪算法计算学生的专注时长。
  3. anchor boxes size取法不同
    SSD的anchor boxes是算出来的
    Faster-RCNN的是固定的
    YOLO是用数据集的gt boxes 通过kmeans算出来的
  4. Faster-RCNN慢的原因
    Faster-RCNN在特征图提取时每个像素点取9个anchor boxes,所以速度相对较慢,但精确度要更高。
  5. 训练一个标准fast-RCNN要多久?
    模型结构完全用一个标准的fast-rcnn结构,训练样本集100张图片左右,每张50kb左右,两个分类 输出二维坐标的regression,一个AWS GPU p3.16xlarge,大概用时要多久呀?只算训练时间。
    大概几十分钟这样。
  6. 区别下fast-RCNN与YOLO v3:
    fast-RCNN 过程:需要修改Loss函数。
    对整张图送入CNN提取FM
    在FM上使用RPN,在每个像素点设置9个anchor,并用softmax筛选正负anchor
    然后对筛选的anchor做回归分类
    优点:提出RPN网络和anchor机制,解决了SS的问题
    缺点:Two-stage仍然无法达到实时
    YOLO v3采用了称之为Darknet-53的网络结构(含有53个卷积层),它借鉴了残差网络residual network的做法,在一些层之间设置了快捷链路,采用了3个不同尺度的特征图来进行对象检测,9种尺度的先验框。yolo v3训练的coco数据集一般需要4,5个小时,半天这样,1000多张图片。
    YOLO v3更快,而fast-RCNN比较慢。

你可能感兴趣的:(考研复试,深度学习,人工智能)