项目参考AAAI Association for the Advancement of Artificial Intelligence
研究背景与意义
随着教育技术的不断发展,学生在课堂上的注意力和参与度成为了教育工作者关注的重点。课堂抬头率是指学生在课堂上抬头的频率,也可以看作是学生对教师讲解内容的关注程度。高抬头率意味着学生对课堂内容的积极参与,而低抬头率则可能意味着学生的分心或者对课堂内容的不关注。
然而,传统的课堂抬头率检测方法主要依赖于教师的主观观察和评估,存在着主观性强、效率低、容易出现误判等问题。为了解决这些问题,基于深度学习的学生课堂抬头率检测系统应运而生。
深度学习是一种模仿人脑神经网络结构和工作原理的机器学习方法,具有强大的数据处理和模式识别能力。通过深度学习算法,可以对学生在课堂上的行为进行实时监测和分析,从而准确地判断学生的抬头率。
基于深度学习的学生课堂抬头率检测系统的意义在于:
提高教学效果:通过实时监测学生的抬头率,教师可以及时调整教学策略,提高教学效果。例如,当教师发现学生的抬头率较低时,可以采取一些互动性强的教学方法,激发学生的兴趣和参与度。
个性化教育:基于深度学习的学生课堂抬头率检测系统可以对学生的学习行为进行个性化分析,为教师提供有针对性的教学建议。例如,当系统发现某个学生在某个时间段的抬头率较低时,可以提醒教师关注该学生的学习情况,并采取相应的教学措施。
学生行为研究:通过对学生抬头率的监测和分析,可以深入研究学生在课堂上的行为特征和学习习惯。这对于教育研究者来说具有重要意义,可以为教育改革和教学方法的优化提供科学依据。
促进家校合作:基于深度学习的学生课堂抬头率检测系统可以将学生的学习情况实时反馈给家长,促进家校合作。家长可以通过系统了解孩子在课堂上的表现,及时与教师沟通,共同关注孩子的学习进展。
综上所述,基于深度学习的学生课堂抬头率检测系统具有重要的研究背景和意义。它不仅可以提高教学效果,促进个性化教育,还可以为学生行为研究和家校合作提供有力支持。随着深度学习技术的不断发展和普及,相信这一系统将在教育领域发挥越来越重要的作用。
基于深度学习的学生课堂抬头率检测系统_哔哩哔哩_bilibili
首先,我们需要收集所需的图片。这可以通过不同的方式来实现,例如使用现有的公开数据集【dataset 学生课堂行为 8884 YOLO xml nc8】。
0 # 低头写字 dx 72462
1 # 低头看书 dk 58932
2 # 抬头听课 tt 117528
3 # 转头 zt 5339
4 # 举手 js 4183
5 # 站立 zl 4101
6 # 小组讨论 xt 4663
7 # 教师指导 jz 680
labelImg是一个图形化的图像注释工具,支持VOC和YOLO格式。以下是使用labelImg将图片标注为VOC格式的步骤:
(1)下载并安装labelImg。
(2)打开labelImg并选择“Open Dir”来选择你的图片目录。
(3)为你的目标对象设置标签名称。
(4)在图片上绘制矩形框,选择对应的标签。
(5)保存标注信息,这将在图片目录下生成一个与图片同名的XML文件。
(6)重复此过程,直到所有的图片都标注完毕。
由于YOLO使用的是txt格式的标注,我们需要将VOC格式转换为YOLO格式。可以使用各种转换工具或脚本来实现。
下面是一个简单的方法是使用Python脚本,该脚本读取XML文件,然后将其转换为YOLO所需的txt格式。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import xml.etree.ElementTree as ET
import os
classes = [] # 初始化为空列表
CURRENT_DIR = os.path.dirname(os.path.abspath(__file__))
def convert(size, box):
dw = 1. / size[0]
dh = 1. / size[1]
x = (box[0] + box[1]) / 2.0
y = (box[2] + box[3]) / 2.0
w = box[1] - box[0]
h = box[3] - box[2]
x = x * dw
w = w * dw
y = y * dh
h = h * dh
return (x, y, w, h)
def convert_annotation(image_id):
in_file = open('./label_xml\%s.xml' % (image_id), encoding='UTF-8')
out_file = open('./label_txt\%s.txt' % (image_id), 'w') # 生成txt格式文件
tree = ET.parse(in_file)
root = tree.getroot()
size = root.find('size')
w = int(size.find('width').text)
h = int(size.find('height').text)
for obj in root.iter('object'):
cls = obj.find('name').text
if cls not in classes:
classes.append(cls) # 如果类别不存在,添加到classes列表中
cls_id = classes.index(cls)
xmlbox = obj.find('bndbox')
b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
float(xmlbox.find('ymax').text))
bb = convert((w, h), b)
out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')
xml_path = os.path.join(CURRENT_DIR, './label_xml/')
# xml list
img_xmls = os.listdir(xml_path)
for img_xml in img_xmls:
label_name = img_xml.split('.')[0]
print(label_name)
convert_annotation(label_name)
print("Classes:") # 打印最终的classes列表
print(classes) # 打印最终的classes列表
我们需要将数据集整理为以下结构:
-----data
|-----train
| |-----images
| |-----labels
|
|-----valid
| |-----images
| |-----labels
|
|-----test
|-----images
|-----labels
确保以下几点:
所有的训练图片都位于data/train/images目录下,相应的标注文件位于data/train/labels目录下。
所有的验证图片都位于data/valid/images目录下,相应的标注文件位于data/valid/labels目录下。
所有的测试图片都位于data/test/images目录下,相应的标注文件位于data/test/labels目录下。
这样的结构使得数据的管理和模型的训练、验证和测试变得非常方便。
Epoch gpu_mem box obj cls labels img_size
1/200 20.8G 0.01576 0.01955 0.007536 22 1280: 100%|██████████| 849/849 [14:42<00:00, 1.04s/it]
Class Images Labels P R [email protected] [email protected]:.95: 100%|██████████| 213/213 [01:14<00:00, 2.87it/s]
all 3395 17314 0.994 0.957 0.0957 0.0843
Epoch gpu_mem box obj cls labels img_size
2/200 20.8G 0.01578 0.01923 0.007006 22 1280: 100%|██████████| 849/849 [14:44<00:00, 1.04s/it]
Class Images Labels P R [email protected] [email protected]:.95: 100%|██████████| 213/213 [01:12<00:00, 2.95it/s]
all 3395 17314 0.996 0.956 0.0957 0.0845
Epoch gpu_mem box obj cls labels img_size
3/200 20.8G 0.01561 0.0191 0.006895 27 1280: 100%|██████████| 849/849 [10:56<00:00, 1.29it/s]
Class Images Labels P R [email protected] [email protected]:.95: 100%|███████ | 187/213 [00:52<00:00, 4.04it/s]
all 3395 17314 0.996 0.957 0.0957 0.0845
......
def load_model(
weights='./best.pt', # model.pt path(s)
data=ROOT / 'data/coco128.yaml', # dataset.yaml path
device='', # cuda device, i.e. 0 or 0,1,2,3 or cpu
half=False, # use FP16 half-precision inference
dnn=False, # use OpenCV DNN for ONNX inference
):
# Load model
device = select_device(device)
model = DetectMultiBackend(weights, device=device, dnn=dnn, data=data)
stride, names, pt, jit, onnx, engine = model.stride, model.names, model.pt, model.jit, model.onnx, model.engine
# Half
half &= (pt or jit or onnx or engine) and device.type != 'cpu' # FP16 supported on limited backends with CUDA
if pt or jit:
model.model.half() if half else model.model.float()
return model, stride, names, pt, jit, onnx, engine
def run(model, img, stride, pt,
imgsz=(640, 640), # inference size (height, width)
conf_thres=0.15, # confidence threshold
iou_thres=0.15, # NMS IOU threshold
max_det=1000, # maximum detections per image
device='', # cuda device, i.e. 0 or 0,1,2,3 or cpu
classes=None, # filter by class: --class 0, or --class 0 2 3
agnostic_nms=False, # class-agnostic NMS
augment=False, # augmented inference
half=False, # use FP16 half-precision inference
):
cal_detect = []
device = select_device(device)
names = model.module.names if hasattr(model, 'module') else model.names # get class names
# Set Dataloader
im = letterbox(img, imgsz, stride, pt)[0]
# Convert
im = im
......
这个工程是一个课堂抬头情况检测系统,主要包含一个名为ui.py
的文件。该文件的主要功能是使用PyQt5创建一个图形用户界面,实现选择文件、预处理、开始检测和退出系统等功能。具体代码如下:
argparse
、platform
、shutil
、time
、numpy
、cv2
、PyQt5
、os
、sys
、pathlib
、io
、torch
等。MyWidget
的类,继承自QDialog
,用于创建一个提示框。FruitDetector
的类,用于水果检测。load_model
的函数,用于加载模型。run
的函数,用于运行模型进行目标检测。det
的函数,用于进行目标检测。Thread_1
的线程类,用于在后台运行目标检测。Ui_MainWindow
的类,用于创建主窗口界面。在Ui_MainWindow
类中,通过setupUi
方法设置了主窗口的布局和样式,包括标签、文本框、按钮等。通过retranslateUi
方法设置了主窗口的标题和按钮的文本。
整个程序的运行逻辑是,用户点击选择文件按钮选择一张图片,然后点击预处理按钮对图片进行预处理,最后点击开始检测按钮开始检测目标。检测结果会显示在图像上,并在文本框中显示检测结果。用户可以点击退出系统按钮退出程序。
class Conv(nn.Module):
# Standard convolution
def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True): # ch_in, ch_out, kernel, stride, padding, groups
super().__init__()
self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
self.bn = nn.BatchNorm2d(c2)
self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())
def forward(self, x):
return self.act(self.bn(self.conv(x)))
def forward_fuse(self, x):
return self.act(self.conv(x))
class DWConv(Conv):
# Depth-wise convolution class
def __init__(self, c1, c2, k=1, s=1, act=True): # ch_in, ch_out, kernel, stride, padding, groups
super().__init__(c1, c2, k, s, g=math.gcd(c1, c2), act=act)
class TransformerLayer(nn.Module):
# Transformer layer https://arxiv.org/abs/2010.11929 (LayerNorm layers removed for better performance)
def __init__(self, c, num_heads):
super().__init__()
self.q = nn.Linear(c, c, bias=False)
self.k = nn.Linear(c, c, bias=False)
self.v = nn.Linear(c, c, bias=False)
self.ma = nn.MultiheadAttention(embed_dim=c, num_heads=num_heads)
self.fc1 = nn.Linear(c, c, bias=False)
self.fc2 = nn.Linear(c, c, bias=False)
def forward(self, x):
x = self.ma(self.q(x), self.k(x), self.v(x))[0] + x
x = self.fc2(self.fc1(x)) + x
return x
class TransformerBlock(nn.Module):
# Vision Transformer https://arxiv.org/abs/2010.11929
def __init__(self, c1, c2, num_heads, num_layers):
super().__init__()
self.conv = None
if c1 != c2:
self.conv = Conv(c1, c2)
self.linear = nn.Linear(c2, c2) # learnable position embedding
self.tr = nn.Sequential(*(TransformerLayer(c2, num_heads) for _ in range(num_layers)))
self.c2 = c2
def forward(self, x):
if self.conv is not None:
x = self.conv(x)
b, _, w, h = x.shape
p = x.flatten(2).permute(2, 0, 1)
return self.tr(p + self.linear(p)).permute(1, 2, 0).reshape(b, self.c2, w, h)
class Bottleneck(nn.Module):
# Standard bottleneck
def __init__(self, c1, c2, shortcut=True, g=1, e=0.5): # ch_in, ch_out, shortcut, groups, expansion
super().__init__()
c_ = int(c2 * e) # hidden channels
self.cv1 = Conv(c1, c_, 1, 1)
self.cv2 = Conv(c_, c2, 3, 1, g=g)
self.add = shortcut and c1 == c2
def forward(self, x):
return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))
class BottleneckCSP(nn.Module):
# CSP Bottleneck https://github.com/WongKinYiu/CrossStagePartialNetworks
def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5): # ch_in, ch_out, number, shortcut, groups, expansion
super().__init__()
c_ = int(c2 * e) # hidden channels
self.cv1 = Conv(c1, c_, 1, 1)
self.cv2 = nn.Conv2d(c1, c_, 1, 1, bias=False)
self.cv3 = nn.Conv2d(c_, c_, 1, 1, bias=False)
self.cv4 = Conv(2 * c_, c2, 1, 1)
self.bn = nn.BatchNorm2d(2 * c_) # applied to cat(cv2, cv3)
self.act = nn.SiLU()
self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))
def forward(self, x):
y1 = self.cv3(self.m(self.cv1(x)))
y2 = self.cv2(x)
return self.cv4(self.act(self.bn(torch.cat((y1, y2), dim=1))))
class C3(nn.Module):
# CSP Bottleneck with 3 convolutions
def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5): # ch_in, ch_out, number, shortcut, groups, expansion
super().__init__()
c_ = int(c2 * e) # hidden channels
self.cv1 = Conv(c1, c_, 1, 1)
self.cv2 = Conv(c1, c_, 1, 1)
self.cv3 = Conv(2 * c_, c2, 1) # act=FReLU(c2)
self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))
# self.m = nn.Sequential(*[CrossConv(c_, c_, 3, 1, g, 1.0, shortcut) for _ in range(n)])
def forward(self, x):
return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), dim=1))
class C3TR(C3):
# C3 module with TransformerBlock()
def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):
super().__init__(c1, c2, n, shortcut, g, e)
c_ = int(c2 * e)
self.m = TransformerBlock(c_, c_, 4, n)
class C3SPP(C3):
# C3 module with SPP()
def __init__(self, c1, c2, k=(5, 9, 13), n=1, shortcut=True, g=1, e=0.5):
super
这个程序文件是YOLOv5的一个模块,主要包含了一些常用的模块和函数。文件中定义了一些卷积层、残差块、Transformer模块等,用于构建YOLOv5的网络结构。其中还包含了一些辅助函数,用于数据处理、模型保存和加载等。这个文件是YOLOv5模型的基础模块,其他的模块和函数都是基于这个文件进行构建的。
class CrossConv(nn.Module):
# Cross Convolution Downsample
def __init__(self, c1, c2, k=3, s=1, g=1, e=1.0, shortcut=False):
# ch_in, ch_out, kernel, stride, groups, expansion, shortcut
super().__init__()
c_ = int(c2 * e) # hidden channels
self.cv1 = Conv(c1, c_, (1, k), (1, s))
self.cv2 = Conv(c_, c2, (k, 1), (s, 1), g=g)
self.add = shortcut and c1 == c2
def forward(self, x):
return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))
class Sum(nn.Module):
# Weighted sum of 2 or more layers https://arxiv.org/abs/1911.09070
def __init__(self, n, weight=False): # n: number of inputs
super().__init__()
self.weight = weight # apply weights boolean
self.iter = range(n - 1) # iter object
if weight:
self.w = nn.Parameter(-torch.arange(1.0, n) / 2, requires_grad=True) # layer weights
def forward(self, x):
y = x[0] # no weight
if self.weight:
w = torch.sigmoid(self.w) * 2
for i in self.iter:
y = y + x[i + 1] * w[i]
else:
for i in self.iter:
y = y + x[i + 1]
return y
class MixConv2d(nn.Module):
# Mixed Depth-wise Conv https://arxiv.org/abs/1907.09595
def __init__(self, c1, c2, k=(1, 3), s=1, equal_ch=True): # ch_in, ch_out, kernel, stride, ch_strategy
super().__init__()
n = len(k) # number of convolutions
if equal_ch: # equal c_ per group
i = torch.linspace(0, n - 1E-6, c2).floor() # c2 indices
c_ = [(i == g).sum() for g in range(n)] # intermediate channels
else: # equal weight.numel() per group
b = [c2] + [0] * n
a = np.eye(n + 1, n, k=-1)
a -= np.roll(a, 1, axis=1)
a *= np.array(k) ** 2
a[0] = 1
c_ = np.linalg.lstsq(a, b, rcond=None)[0].round() # solve for equal weight indices, ax = b
self.m = nn.ModuleList(
[nn.Conv2d(c1, int(c_), k, s, k // 2, groups=math.gcd(c1, int(c_)), bias=False) for k, c_ in zip(k, c_)])
self.bn = nn.BatchNorm2d(c2)
self.act = nn.SiLU()
def forward(self, x):
return self.act(self.bn(torch.cat([m(x) for m in self.m], 1)))
class Ensemble(nn.ModuleList):
# Ensemble of models
def __init__(self):
super().__init__()
def forward(self, x, augment=False, profile=False, visualize=False):
y = []
for module in self:
y.append(module(x, augment, profile, visualize)[0])
# y = torch.stack(y).max(0)[0] # max ensemble
# y = torch.stack(y).mean(0) # mean ensemble
y = torch.cat(y, 1) # nms ensemble
return y, None # inference, train output
def attempt_load(weights, map_location=None, inplace=True, fuse=True):
from models.yolo import Detect, Model
# Loads an ensemble of models weights=[a,b,c] or a single model weights=[a] or weights=a
model = Ensemble()
for w in weights if isinstance(weights, list) else [weights]:
ckpt = torch.load(attempt_download(w), map_location=map_location) # load
if fuse:
model.append(ckpt['ema' if ckpt.get('ema') else 'model'].float().fuse().eval()) # FP32 model
else:
model.append(ckpt['ema' if ckpt.get('ema') else 'model'].float().eval()) # without layer fuse
# Compatibility updates
for m in model.modules():
if type(m) in [nn.Hardswish, nn.LeakyReLU, nn.ReLU, nn.ReLU6, nn.SiLU, Detect, Model]:
m.inplace = inplace # pytorch 1.7.0 compatibility
if type(m) is Detect:
if not isinstance(m.anchor_grid, list): # new Detect Layer compatibility
delattr(m, 'anchor_grid')
setattr(m, 'anchor_grid', [torch.zeros(1)] * m.nl)
elif type(m) is Conv:
m._non_persistent_buffers_set = set() # pytorch 1.6.0 compatibility
if len(model) == 1:
return model[-1] # return model
else:
print(f'Ensemble created with {weights}\n')
for k in ['names']:
setattr(model, k, getattr(model[-1], k))
model.stride = model[torch.argmax(torch.tensor([m.stride.max() for m in model])).int()].stride # max stride
return model # return ensemble
这个程序文件是YOLOv5的实验模块。它包含了一些实验性的网络层和模型。
文件中定义了以下几个类:
CrossConv
:交叉卷积下采样模块。Sum
:多个层的加权和模块。MixConv2d
:混合深度卷积模块。Ensemble
:模型集合模块。此外,文件还定义了一个辅助函数attempt_load
,用于加载模型权重。
这个程序文件实现了YOLOv5的一些实验性功能,可以用于训练和推理。
class YOLOv5:
def __init__(self, weights, imgsz=(640, 640)):
self.weights = weights
self.imgsz = imgsz
self.model = self._build_model()
def _build_model(self):
# Load the YOLOv5 model
model = ...
return model
def detect(self, image):
# Preprocess the image
image = self._preprocess_image(image)
# Run the image through the model
output = self.model(image)
# Postprocess the output
detections = self._postprocess_output(output)
return detections
def _preprocess_image(self, image):
# Preprocess the image
image = ...
return image
def _postprocess_output(self, output):
# Postprocess the output
detections = ...
return detections
这是一个用于实现YOLOv5的TensorFlow模型文件。它包含了YOLOv5的各个组件,如卷积层、批归一化层、激活函数等。该文件还定义了TFBN、TFPad、TFConv等自定义层,用于在TensorFlow中实现与PyTorch中相同的功能。TFDetect类是YOLOv5的检测层,用于生成检测结果。该文件还包含了一些辅助函数和常量。
该文件可以用于加载和使用YOLOv5的模型权重,并进行推理和导出模型。可以通过命令行参数指定要加载的权重文件,并使用python models/tf.py --weights yolov5s.pt
命令来运行该文件。
导出模型可以使用python path/to/export.py --weights yolov5s.pt --include saved_model pb tflite tfjs
命令来进行。
import argparse
import sys
from copy import deepcopy
from pathlib import Path
FILE = Path(__file__).resolve()
ROOT = FILE.parents[1] # YOLOv5 root directory
if str(ROOT) not in sys.path:
sys.path.append(str(ROOT)) # add ROOT to PATH
# ROOT = ROOT.relative_to(Path.cwd()) # relative
from models.common import *
from models.experimental import *
from utils.autoanchor import check_anchor_order
from utils.general import LOGGER, check_version, check_yaml, make_divisible, print_args
from utils.plots import feature_visualization
from utils.torch_utils import fuse_conv_and_bn, initialize_weights, model_info, scale_img, select_device, time_sync
try:
import thop # for FLOPs computation
except ImportError:
thop = None
class Detect(nn.Module):
stride = None # strides computed during build
onnx_dynamic = False # ONNX export parameter
def __init__(self, nc=80, anchors=(), ch=(), inplace=True): # detection layer
super().__init__()
self.nc = nc # number of classes
self.no = nc + 5 # number of outputs per anchor
self.nl = len(anchors) # number of detection layers
self.na = len(anchors[0]) // 2 # number of anchors
self.grid = [torch.zeros(1)] * self.nl # init grid
self.anchor_grid = [torch.zeros(1)] * self.nl # init anchor grid
self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2)) # shape(nl,na,2)
self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch) # output conv
self.inplace = inplace # use in-place ops (e.g. slice assignment)
def forward(self, x):
z = [] # inference output
for i in range(self.nl):
x[i] = self.m[i](x[i]) # conv
bs, _, ny, nx = x[i].shape # x(bs,255,20,20) to x(bs,3,20,20,85)
x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()
if not self.training: # inference
if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)
y = x[i].sigmoid()
if self.inplace:
y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
else: # for YOLOv5 on AWS Inferentia https://github.com/ultralytics/yolov5/pull/2953
xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i] # xy
wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i] # wh
y = torch.cat((xy, wh, y[..., 4:]), -1)
z.append(y.view(bs, -1, self.no))
return x if self.training else (torch.cat(z, 1), x)
def _make_grid(self, nx=20, ny=20, i=0):
d = self.anchors[i].device
if check_version(torch.__version__, '1.10.0'): # torch>=1.10.0 meshgrid workaround for torch>=0.7 compatibility
yv, xv = torch.meshgrid([torch.arange(ny, device=d), torch.arange(nx, device=d)], indexing='ij')
else:
yv, xv = torch.meshgrid([torch.arange(ny, device=d), torch.arange(nx, device=d)])
grid = torch.stack((xv, yv), 2).expand((1, self.na, ny, nx, 2)).float()
anchor_grid = (self.anchors[i].clone() * self.stride[i]) \
.view((1, self.na, 1, 1, 2)).expand((1, self.na, ny, nx, 2)).float()
return grid, anchor_grid
class Model(nn.Module):
def __init__(self, cfg='yolov5s.yaml', ch=3, nc=None, anchors=None): # model, input channels, number of classes
super().__init__()
if isinstance(cfg, dict):
self.yaml = cfg # model dict
else: # is *.yaml
import yaml # for torch hub
self.yaml_file = Path(cfg).name
with open(cfg, encoding='ascii', errors='ignore') as f:
self.yaml = yaml.safe_load(f) # model dict
# Define model
ch = self.yaml['ch'] = self.yaml.get('ch', ch) # input channels
if nc and nc != self.yaml['nc']:
LOGGER.info(f"Overriding model.yaml nc={self.yaml['nc']} with nc={nc}")
self.yaml['nc'] = nc # override yaml value
if anchors:
LOGGER.info(f'Overriding model.yaml anchors with anchors={anchors}')
self.yaml['anchors'] = round(anchors) # override yaml value
self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch]) # model, savelist
self.names = [str(i) for i in range(self.yaml['nc'])] # default names
self.inplace = self.yaml.get('inplace', True)
# Build strides, anchors
m = self.model[-1] # Detect()
if isinstance(m, Detect):
s = 256 # 2x min stride
m.inplace = self.inplace
m.stride = torch.tensor([s / x.shape[-2] for x in self.forward(torch.zeros(1, ch, s, s))]) # forward
m.anchors /= m.stride.view(-1, 1, 1)
check_anchor_order(m)
self.stride = m.stride
self._initialize_biases() # only run once
# Init weights, biases
initialize_weights(self)
self.info()
LOGGER.info('')
def forward(self, x, augment=False, profile=False, visualize=False):
if augment:
return self._forward_augment(x) # augmented inference, None
return self._forward_once(x, profile, visualize) # single-scale inference, train
def _forward_augment(self, x):
img_size = x.shape[-2:] # height, width
s = [1, 0.83, 0.67] # scales
f = [None, 3, None] # flips (2-ud, 3-lr)
y = [] # outputs
for si, fi in zip(s, f):
xi = scale_img(x.flip(fi) if fi else x, si, gs=int(self.stride.max()))
yi = self._forward_once(xi)[0] # forward
# cv2.imwrite(f'img_{si}.jpg', 255 * xi[0].cpu().numpy().transpose((1, 2, 0))[:, :, ::-1]) # save
yi = self._descale_pred(yi, fi, si, img_size)
y.append(yi)
y = self._clip_augmented(y) # clip augmented tails
return torch.cat(y, 1), None # augmented inference, train
def _forward_once(self, x, profile=False, visualize=False):
y, dt = [], [] # outputs
for m in self.model:
if m.f != -1: # if not from previous layer
x = y[m.f] if isinstance(m.f, int) else [x if j == -1 else y[j] for j in m.f] # from earlier layers
if profile:
self._profile_one_layer(m, x, dt)
x = m(x) # run
y.append(x if m.i in self.save else None) # save output
if visualize:
feature_visualization(x, m.type, m.i, save_dir=visualize)
return x
def _descale_pred(self, p,
这个程序文件是YOLOv5的一个实现,用于目标检测任务。程序中包含了YOLOv5的模型定义和相关的辅助函数。
程序文件中的主要内容包括:
Detect
类,用于进行目标检测。Model
类,用于构建YOLOv5模型。整个程序文件的功能是构建和运行YOLOv5模型,用于目标检测任务。
根据以上分析,该程序是一个基于深度学习的学生课堂抬头率检测系统。它的整体功能是使用YOLOv5模型进行目标检测,通过识别学生是否抬头来评估课堂参与度。
下面是每个文件的功能概述:
文件路径 | 功能 |
---|---|
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\ui.py | 创建图形用户界面,实现选择文件、预处理、开始检测和退出系统等功能 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\models\common.py | 包含YOLOv5的一些常用模块和函数,用于构建网络结构 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\models\experimental.py | 包含YOLOv5的一些实验性网络层和模型 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\models\tf.py | 实现YOLOv5的TensorFlow模型 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\models\yolo.py | 实现YOLOv5的模型定义和相关辅助函数 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\models_init_.py | 包的初始化文件,定义包的结构和初始化操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\activations.py | 包含激活函数的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\augmentations.py | 包含数据增强的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\autoanchor.py | 包含自动锚框生成的相关函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\autobatch.py | 包含自动批次大小调整的相关函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\callbacks.py | 包含回调函数的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\datasets.py | 包含数据集的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\downloads.py | 包含下载数据集和模型权重的相关函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\general.py | 包含一些通用的函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loss.py | 包含损失函数的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\metrics.py | 包含评估指标的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\plots.py | 包含绘图函数的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\torch_utils.py | 包含与PyTorch相关的辅助函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools_init_.py | 包的初始化文件,定义包的结构和初始化操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\aws\resume.py | 包含AWS平台上的模型恢复函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\aws_init_.py | 包的初始化文件,定义包的结构和初始化操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\flask_rest_api\example_request.py | 包含Flask REST API的示例请求函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\flask_rest_api\restapi.py | 包含Flask REST API的定义和相关操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loggers_init_.py | 包的初始化文件,定义包的结构和初始化操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loggers\wandb\log_dataset.py | 包含使用WandB记录数据集的相关函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loggers\wandb\sweep.py | 包含使用WandB进行超参数搜索的相关函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loggers\wandb\wandb_utils.py | 包含与WandB相关的辅助函数和操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\tools\loggers\wandb_init_.py | 包的初始化文件,定义包的结构和初始化操作 |
E:\视觉项目\shop\基于深度学习的学生课堂抬头率检测系统\code\utils\activations.py | 包含激活函数的定义和相关操作 |
视频数据处理模块主要针对单个教室的视频数据做处理。本模块通过视频数据采集模块可以实时获取到一个教室里学生上课的视频数据,通过对视频中每帧或者跳帧的方式进行处理来达到实时效果。本模块是整个系统的关键所在,模块中包含人脸检测算法,学生抬头状态识别算法和教室内学生人数动态统计算法,其中人脸检测算法通过对输入的图像做人脸检测,获取到课堂中学生的位置信息。由于捕捉到的学生并不都是处于抬头听课状态,抬头状态识别算法需要在学生人脸位置信息的基础上,通过每个学生的头部图像信息来判别学生的抬头状态,以此来统计出当前课堂中学生抬头听课的人数。同时由于上课过程中学生的动态变化,包括学生迟到早退,同时教室中也存在学生之间相互遮挡的情况,会导致人脸检测算法的不稳定,针对以上情况,系统中的课堂人数统计算法主要通过结合多帧图像数据中的学生人脸位置信息,统计当前课堂中的人数,并且通过定期重置的方式来减少统计过程中的误差积累,期望得到一个比较稳定准确的课堂人数统计信息。三个模块的关联性如图所示。
考虑到实际教室场景中,学生姿态变化较大,同时在大教室课堂中,后排学生在视频中占用的图像信息过小,传统的基于Adaboost方法的人脸检测算法难以适应教室中学生人脸检测的场景,存在过多的人脸漏检和误检情况,本系统将采用现在流行的深度学习方法,借鉴Adaboost级联的思想,通过利用大量复杂的人脸和非人脸图像来训练这个卷积神经网络,既保证了网络的检测效果,又可以通过GPU设备加速网络的运算而保证数据处理的实时性。人脸检测算法的开发和训练将在下一章中详细描述。
算法采用卷积神经网络作为识别模型,设置网络的输入图像大小为32x32,人眼在这个尺寸下可以比较准确地识别出学生的抬头低头状态,所以我们认为这个大小的输入比较合适。网络结构如图4.11所示,具体网络的设计和参数配置如表4.6所示。我们将这个抬头识别的网络命名为HeadNet 网络,网络一共使用到了3个卷积层、3个最大池化层和2个全连接层,最后网络输出正负类别的概率值。在网络设计中,给每个卷积层加入了填充操作,这样经过卷积操作后,特征图的大小可以保持不变,方便给网络加入更多的层来加深网络。整个网络参数规模为155k 个参数。
网络根据前面人脸检测算法得到的课堂中每个学生的人脸位置,从图像中取出每个学生的人脸图,并统一缩放到32x32的大小,通过网络计算每个学生抬头状态的概率值,并通过最后阈值的设定来过滤掉低头的学生,最终可以计算得到课堂中学生的抬头人数及其在教室中位置。
近年来,以YOLO系列为代表的目标检测算法在目标检测领域流行,在举办的国际目标识别比赛中一直处于领先地位,多次获得多个目标识别冠军。YOLO算法主干网络采用Darknet网络结构,相比于之前算法的网络结构更适合进行目标检测与目标识别,此后产生的YOLOv2和YOLOv3则分别使用darknet-19和 darknet-53作为主干网络。
YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。主要的改进思路如下所示:
输入端:在模型训练阶段,提出了一些改进思路,主要包括Mosaic数据增强、自适应锚框计算、自适应图片缩放;
基准网络:融合其它检测算法中的一些新思路,主要包括:Focus结构与CSP结构;
Neck网络:目标检测网络在BackBone与最后的Head输出层之间往往会插入一些层,Yolov5中添加了FPN+PAN结构;
Head输出层:输出层的锚框机制与YOLOv4相同,主要改进的是训练时的损失函数GIOU_Loss,以及预测框筛选的DIOU_nms。
上图展示了YOLOv5目标检测算法的整体框图。对于一个目标检测算法而言,我们通常可以将其划分为4个通用的模块,具体包括:输入端、基准网络、Neck网络与Head输出端,对应于上图中的4个红色模块。YOLOv5算法具有4个版本,具体包括:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四种,本文重点讲解YOLOv5s,其它的版本都在该版本的基础上对网络进行加深与加宽。
输入端-输入端表示输入的图片。该网络的输入图像大小为608*608,该阶段通常包含一个图像预处理阶段,即将输入图像缩放到网络的输入大小,并进行归一化等操作。在网络训练阶段,YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络的精度;并提出了一种自适应锚框计算与自适应图片缩放方法。
基准网络-基准网络通常是一些性能优异的分类器种的网络,该模块用来提取一些通用的特征表示。YOLOv5中不仅使用了CSPDarknet53结构,而且使用了Focus结构作为基准网络。
Neck网络-Neck网络通常位于基准网络和头网络的中间位置,利用它可以进一步提升特征的多样性及鲁棒性。虽然YOLOv5同样用到了SPP模块、FPN+PAN模块,但是实现的细节有些不同。
Head输出端-Head用来完成目标检测结果的输出。针对不同的检测算法,输出端的分支个数不尽相同,通常包含一个分类分支和一个回归分支。YOLOv4利用GIOU_Loss来代替Smooth L1 Loss函数,从而进一步提升算法的检测精度。
train损失:train/box_loss, train/obj_loss,train/cls_loss
精确率和召回率指标:metrics/precision,metrics/recall
平均精度 (mAP) : metrics/mAP_0.5,metrics/mAP_0.5:0.95
验证损失: val/box_loss, val/obj_loss,val/cls_loss
学习率: x/lr0, x/lr1,x/lr2
训练损失:第一个图显示训练损失(框损失、对象损失和类损失)随着时间的推移而减少,这是一个积极的信号,表明模型正在有效地学习。损失值的稳定下降通常表明训练过程收敛良好。
精确率和召回率:这些指标对于评估模型的性能至关重要。精度衡量的是阳性预测的准确性,而召回率衡量的是模型正确识别的实际阳性的百分比。理想情况下,两者都应随着时间的推移而增加,表明模型准确性及其检测相关特征的能力得到提高。
平均精度 (mAP):mAP 是对象检测模型中使用的综合指标。它结合了精度和召回率,并针对不同的 IoU(并集交集)阈值进行计算。[email protected] 和 [email protected]:0.95 值概述了模型在这些阈值上的准确性。这些值的增长趋势是可取的,这表明模型在准确检测和分类对象方面越来越熟练。
验证损失:与训练损失类似,理想情况下验证损失应该减少。然而,它们可以让我们深入了解模型对未见过的数据的推广效果。训练和验证损失之间的显着差距可能表明过度拟合。
学习率:学习率(LR0、LR1、LR2)的变化可能是训练期间使用的学习率计划或自适应学习率方法的一部分。调整学习率是提高训练效率和收敛性的常用技术。
训练和验证指标之间的任何差异都可以提供对潜在过度拟合或欠拟合的洞察。学习率图提供了有关如何根据自适应学习策略管理训练过程的见解。
下图完整源码&数据集&环境部署视频教程&自定义UI界面
参考博客《基于深度学习的学生课堂抬头率检测系统》
[1]林迎镇.视频监控智能分析应用[J].江西通信科技.2017,(2).23-27.
[2]李彬,谢翟,段渭军,等.基于Kinect的课堂教学状态监测系统[J].传感器与微系统.2017,(1).DOI:10.13873/J.1000-9787(2017)01-0067-04 .
[3]梅林.视频结构化描述(VSD)技术及在安检中的应用[J].中国安防.2014,(20).98-102.DOI:10.3969/j.issn.1673-7873.2014.20.024 .
[4]黄腾,阮宗才.基于运动轨迹分析的头部行为识别[J].计算机工程.2012,(17).DOI:10.3969/j.issn.1000-3428.2012.17.059 .
[5]钱鹤庆,陈刚,申瑞民.基于人脸检测的人数统计系统[J].计算机工程.2012,(13).DOI:10.3969/j.issn.1000-3428.2012.13.056 .
[6]韩亚伟,张有志,李庆涛,等.动态场景监控系统中人数统计算法的研究[J].计算机应用与软件.2011,(2).DOI:10.3969/j.issn.1000-386X.2011.02.077 .
[7]邱炯,李伟生.结合图像增强和肤色分割的人脸检测新方法[J].计算机工程与应用.2011,(26).DOI:10.3778/j.issn.1002-8331.2011.26.053 .
[8]刘喜荣,田启川.基于肤色模型和模板匹配的人脸检测方法研究[J].太原科技大学学报.2010,(5).DOI:10.3969/j.issn.1673-2057.2010.05.006 .
[9]王洪群,彭嘉雄,强赞霞.基于边缘和纹理特征相结合的快速人脸精确定位方法[J].计算机工程与应用.2004,(7).DOI:10.3321/j.issn:1002-8331.2004.07.009 .
[10]陈卫东,叶新东,张际平.智能教室研究现状与未来展望[J].远程教育杂志.2011,(4).DOI:10.3969/j.issn.1672-0008.2011.04.006 .