3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition

A 3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition

  • Abstract:
  • 1. Introduction
  • 2. The Proposed Spatio-Temporal Knowledge Distillation Framework
    • 2.1. Proposed Teacher-Student 3DCNN Architectures
    • 2.2. Offline Knowledge Distillation Paradigm
    • 2.3. Spatio-Temporal Knowledge Distillation from Teacher to Student Model
  • 3. Experimental Results and Discussion

Abstract:

本文提出了一个知识蒸馏框架,该框架使用离线知识蒸馏技术从大型教师模型中提取时空知识到轻量级学生模型。

所提出的离线知识蒸馏框架采用两个模型:大型预训练 3DCNN(三维卷积神经网络)教师模型和轻量级 3DCNN 学生模型(即教师模型在同一数据集上进行预训练,学生模型要训练)。

在离线知识蒸馏训练过程中,蒸馏算法只训练学生模型,帮助学生模型达到与教师模型相同的预测精度水平。

短推理时间和高精度使得我们提出的框架适用于实时应用中的人类活动识别。

1. Introduction

知识蒸馏方法是自我监督学习的一种特殊变体,它提供了模型压缩和知识转移。范式知识蒸馏由两个网络架构组成,即教师和学生,其中学生在训练期间通过最小化称为蒸馏损失的相互损失来学习。

基于特征的知识蒸馏通过最小化教师和学生模型之间的特征级差异,将特征表示级别的知识从教师转移到学生模型。

本文提出了一个3D卷积神经网络(3DCNN)驱动的知识蒸馏框架,该框架由两个3DCNN网络组成,即3DCNN教师和3DCNN学生。为了有效地进行知识转移,提出了一种离线知识蒸馏策略。

2. The Proposed Spatio-Temporal Knowledge Distillation Framework

所提出的时空知识蒸馏框架基于三个主要组件,包括师生 3DCNN 架构、离线知识蒸馏范式和时空知识蒸馏过程的工作流程。

所提出框架的第一个核心组件是一对师生 3DCNN 网络,该网络被开发用于从输入视频帧中捕获时空特征。该框架的第二个主要组成部分是离线知识蒸馏范式,它使用预训练模型作为教师或源模型,并将知识转移到学生或目标模型。在这项工作中,我们使用了离线知识蒸馏,我们使用预训练的3DCNN 作为教师模型,使用未经训练的 3DCNN,计算复杂度降低为学生模型。该框架的第三个也是最后一个组成部分是时空知识蒸馏过程,它将空间和时间知识从 3DCNN 教师转移到 3DCNN 学生模型。

2.1. Proposed Teacher-Student 3DCNN Architectures

3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition_第1张图片
从表 1 和表 2 可以看出,教师和学生网络中的层数是相同的,但是学生模型中每层的核数小于教师模型的核数。在网络(即教师和学生 3DCNN)中,每个卷积和池化层的填充和步幅都是相同的。此外,3DCNN学生模型的全连接层(具有帧的潜在表示)的大小小于 3DCNN 教师模型的大小。
3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition_第2张图片

2.2. Offline Knowledge Distillation Paradigm

在知识转移方面,知识蒸馏范式可以分为两类:在线知识蒸馏和离线知识蒸馏。

在在线知识蒸馏中,教师和学生模型在端到端训练过程中同时训练和更新。教师和学生模型都以对等学习的方式在同一输入数据上相互协作学习。在这个知识蒸馏范式中,教师和学生从彼此的预测中学习,以提高其预测精度。然而,教师和学生的预测在训练阶段的任何时候都可能有所不同,其中教师和学生模型的输出可以相互冲突。在教师和学生的预测在训练阶段变化的情况下,在线知识蒸馏可以极大地损害蒸馏学生模型的性能。

而在离线知识蒸馏范式中,学生模型从单个预训练的教师模型中学习,如图 3 所示。
3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition_第3张图片
使用离线知识蒸馏是因为,繁琐的预训练教师模型的知识可以极大地帮助学生模型以相似的精度执行预测。在训练阶段,教师模型由于其深度架构通常在非常早期的时期收敛,而学生模型需要时间落在全局最小值上,以确保模型的收敛性。因此,教师模型(就预测而言)的性能强制学生模型在训练阶段的预测中获得更好的预测。通常,在前向传递中每个 epoch 结束时,蒸馏损失(交叉熵损失)计算教师的预测与学生预测之间的差异,这有助于学生在后向传递中调整其权重并提高其预测精度性能。因此,使用离线知识蒸馏方法使我们能够获得计算效率高但稳健的模型,该模型提供与教师模型相同的性能水平。

2.3. Spatio-Temporal Knowledge Distillation from Teacher to Student Model

最终的损失函数是蒸馏损失和学生损失的加权和:
在这里插入图片描述
其中Student_Loss和Distillation_Loss分别表示教师和学生模型的学生损失和相互蒸馏损失,变量α是定义学生贡献的最终损失的权重因子和最终损失中的蒸馏损失。
3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition_第4张图片

3. Experimental Results and Discussion

3DCNN-Based Knowledge Distillation Framework for Human Activity Recognition_第5张图片

你可能感兴趣的:(论文阅读,cnn,人工智能,神经网络,知识蒸馏)