读Lipreading Model Based On Whole-Part Collaborative Learning论文

标题:基于整体-部分协作学习的唇读模型

论文:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9747052

代码:无


关键词:整体部分协作学习(whole-part collaborative learning,WPCL)、自适应部分特征融合模块(adaptive part feature fusion module,APFF)、双分支结构(two-branch architecture of collaborative learning,TBCL)


摘要:

        唇读是一项从说话人嘴唇运动的视觉信息中识别言语内容的任务。近年来,一些研究更多地集中在如何充分提取时间信息,以及提取后空间信息的简单利用上。本文主要研究唇读任务中空间信息的充分利用问题。整个唇形代表全局空间信息,唇形部分包含细粒度空间信息。提出了基于整体-部分协同学习(WPCL)的唇读模型,该模型能够充分利用唇读的全局和细粒度空间信息。WPCL包含两个分支,分别处理整体特征和局部特征,通过协作学习进行联合训练。进一步,为了突出部分特征在融合时的不同重要性,我们提出了一种自适应部分特征融合模块(APFF)来融合部分特征。最后,我们通过实验验证了我们的观点并评估了我们的WPCL。在LRW和CAS-VSR-W1k数据集上的实验表明,我们的方法达到了最先进的性能。

1 介绍:

        与语音识别不同,唇读主要利用视觉信息。视觉信息包含单个帧的空间信息和视频流的时间信息。一些模型倾向于使用时态信息。例子包括使用光流[3],动态流[1],时间转移模块[2]等。但是所有这些模型仅仅利用了空间信息。空间信息作为视觉信息的重要组成部分,在唇读任务中应该受到重视。

        当使用空间信息时,大多数模型[4–6]倾向于提取整个嘴唇的特征用于建模。对整个嘴唇建模允许模型学习整个嘴唇的全局空间信息。然而,由于整个嘴唇的大感受野,这可能导致模型忽略一些细粒度的空间信息。如图1所示,当说话人读“ABOUT”时,嘴唇中间的变化比嘴角更明显。“GREAT”这个词的发音是嘴角有明显的变化,嘴唇中间有平滑的变化。当我们对整体进行建模时,由于感受野较大,所描述的这种精细空间信息可能会被忽略。因此,我们想到了通过分块嘴唇来减小感受野来解决上述问题。此外,通过查看图1,我们发现将模型分块会丢失整个嘴唇的感知,并且还会丢失嘴唇各部分的空间位置信息。PBL的方法[7]使用了一个集中于嘴唇各部分变化的部分层次模型。但是PBL失去了全局空间信息的知识,使得模型只能捕捉嘴唇每个部分的细粒度空间信息。充分利用嘴唇整体所代表的全局空间信息,以及嵌入在嘴唇部分的细粒度空间信息,有利于唇读。

        为了帮助模型充分利用lip的全局和细粒度的空间信息,我们设计了一个名为WPCL的双分支结构。这两个分支对前端编码特征进行整体和部分建模,以使用嘴唇的全局和细粒度空间信息。两个分支通过协作学习相互影响[9–11]。因此,每个分支使用另一个分支的预测作为额外的监控信号来加强其自身的学习能力。

        在最后阶段融合部分特征以产生联合预测。为了在特征融合过程中测量每个部分的重要性,我们提出了APFF,它根据每个部分特征与整个特征之间的亲和力差异为每个部分特征分配融合权重。

总之,我们的贡献如下:

(1)WPCL拥有一个双分支协作学习架构,该架构允许充分利用lip的全局和细粒度空间信息

(2)为了有效融合部分特征,我们提出了APFF模块

(3)我们证明WPCL在LRW和CAS-VSR-W1k数据集上实现了最先进的性能

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第1张图片

图1所示。举两个例子,在发ABOUT和GREA T这两个单词时,嘴角和嘴唇中间部分的变化。

 

2 拟议工作:

2.1 基于整体-部分协作学习的唇读模型:

        嘴唇是唇读的主要对象。整个嘴唇包含全局和空间位置信息,而嘴唇的各个部分则突出细节。将整体和部分结合起来,可以提供足够的口腔信息,实现高质量的唇读。如图2所示,我们使用WPCL对整体特征和部分特征分别建模。

        唇读模型一般由一个特征编码前端和一个特征解码后端组成。在本文中,我们使用一个双分支特征解码后端,并保持特征编码前端不变。视频序列经过预处理后被送入由单层C3D和Resnet-18组成的特征编码前端[8]。这个前端的作用是捕捉短期的时间动态并提取单帧图像的空间特征。双分支特征解码后端由两个结构相同的MS-TCN组成。根据其不同的功能,这两个分支分别被命名为整体分支和部分分支。

2.1.1 整体分支:

        整个分支将从前端提取的特征直接作为输入,用于对整个嘴唇进行建模。整个分支的预测结果可以表示为:

2.1.2 部分分支:

        对于部分分支,我们根据嘴唇的实际空间分布,将整个特征分为三个部分,即两个嘴角和嘴唇中间,然后依次输入网络。需要注意的是,同一嘴唇的多个部分特征共享部分分支,这提高了部分分支的泛化能力。这是我们的WPCL与[7]的一个重要区别。部分分支的预测结果如下。

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第2张图片

下一小节将详细描述自适应部分特征融合模块。

2.1.3 协作学习的双分支结构:

        协作学习可以为每个分支提供额外的监督信号。协作学习的双分支结构(TBCL)允许两个分支在一个阶段内作为两个分类器头被协作训练。与传统的两阶段知识蒸馏相比[13,14],TBCL在训练时间上有很大优势。因为对于协作学习来说,不需要有一个预先训练好的模型作为老师。

        WPCL使用上述协作学习的两分支架构。这样一来,WPCL的每个分支都可以学习整体和部分唇语。因此,WPCL的总损失函数如下:

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第3张图片

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第4张图片

2.2 自适应特征融合模块:

        我们在部分分支中插入一个特征融合模块,将各部分特征结合起来进行联合预测。在按空间位置划分整体特征后,各部分信息的重要程度是不同的。部分特征虽然包含细粒度的空间信息,但其信息量比整体小。因此,我们根据部分特征和整体特征之间的亲和力来给部分特征分配权重。不同的部分被自适应地分配了各自的融合权重。融合后的特征被用作FC层的输入。值得注意的是,该模块不包含任何参数,其计算成本可以忽略不计。整个分支的特征表示为:

图2. WPCL的流水线。G1是特征编码的前端,Gw2是整体分支,Gp 2是部分分支。

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第5张图片

 

3 实验:

3.1 数据集:

        我们在英语和普通话的词级读唇数据集上评估了我们的模型。

        LRW[15]:这是一个非常具有挑战性的数据集。该数据集包含500个英语单词,每个单词有800-1000个训练样本,50个验证样本和50个测试样本。

每个样本由29帧组成,目标词出现在样本镜头的中间。

        CAS-VSR-W1k[16]:该数据集原名为LRW-1000,是目前公开的最大的普通话词汇级唇语数据集。有1000个词类和超过700,000个样本。与LRW不同的是,它的样本长度不是恒定的,而且它没有样本的统一分辨率。

 

3.2 数据预处理:

        对于LRW和CAS-VSR-W1k数据集,我们将每个样本裁剪为96×96固定像素大小的ROI。所有的图像都改为灰度,以减少计算量。在训练过程中,每一帧样本被随机裁剪成88×88像素的大小,并使用概率为0.5的水平翻转和权重为0.4的Mixup[17]来进行数据增强。对于CAS-VSR-W1k数据集,我们使用与[6]中相同的数据预处理方法。我们将每个样本的视频帧数固定为29,目标词在每个样本镜头的中间。

 

3.3 训练细节:

        我们使用AdamW优化器[18],初始学习率为3e-4,重量衰减为1e-2。余弦退火算法被用来减弱学习率。模型从头到尾训练了80个epochs,使用32个mini-batch。我们使用[5]中的模型初始化方法,以加快模型的收敛速度。此外,我们还使用了[5]中的变长增强策略,以增强模型对时间序列的鲁棒性。

3.4 协作学习的双分支结构评估:

        在这个实验中,我们评估了协作学习的双分支结构的有效性。基线是MSTCN[5],它使用整个嘴唇作为输入。TBCL的两个分支( branch1, branch2 )都采用了与MSTCN相同的结构,并且也使用整个嘴唇作为输入。从表1可以看出,每个分支的预测精度都比基线有较大的提高,两分支联合预测在两个数据集上比基线分别提高了2.3%(LRW)和7.3%(CAS-VSR-W1k)。

实验结果还表明,拥有相同结构的两个分支有不同的表现。这应该是由它们不同的初始参数造成的。

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第6张图片

3.5 基于整体-部分协作学习的唇读模型评估:

        在这一部分,我们评估了WPCL的有效性。这里,TBCL的一个分支学习整体特征,另一个分支学习部分特征。部分分支使用简单的求和法进行特征融合。从表2中我们可以发现,这两个分支在LRW数据集上达到了87.6%,87.6%,它们的联合预测达到了88.1%。这两个分支在CAS-VSR-W1k数据集上的准确率分别达到47.7%和47.9%,其联合预测达到48.9%。这个实验表明,当两个分支分别对整体和部分进行建模时,模型可以充分利用全局空间信息和细粒度的空间信息。

        当使用APFF来融合特征时,性能得到进一步提高。部分分支的精度提高了0.3%(LRW)和0.6%(CAS-VSR-W1k),它们的联合预测结果在LRW和CAS-VSRW1k中分别达到88.3%和49.4%。原因在于,部分特征的简单相加往往忽略了各部分的不同重要性,而APFF是根据部分特征与整体特征的相似度来分配权重的。部分特征可以捕捉到精细的空间信息,结合APFF方法可以实现高效的唇读。从表2中我们可以发现,充分利用嘴唇的全局和细粒度的空间信息有利于唇语阅读,我们的方法取得了最先进的性能。

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第7张图片

3.6 本模型与SOTA模型的计算复杂度评估:

        MSTCN多阶段蒸馏法(MSTCN-MSD[19])使用与[14, 20]相同的策略。它的缺点是,实现一个好的学生需要多个知识蒸馏过程。MSTCN-MSD在两个数据集上分别经历了4次和2次迭代,这对训练时间是一种巨大的浪费。相比之下,我们的双分支模型只在一个阶段进行协同训练,这两个分支能够实现并行计算[11]。如表2和表3所示,我们模型的每个分支与MSTCN-MSD的参数和FLOPs数量几乎相同。在LRW数据集上,每个分支都达到了与MSTCN-MSD相同的精度。令人振奋的是,在CAS-VSR-W1k数据集上,每个分支都比MSTCN-MSD有明显的提高,分别为2.8%和3.2%。与MSTCN-Ensemble相比,我们的双分支联合预测在LRW上的准确率下降了0.2%,而需要的参数减少了2.4倍,FLOPs减少了3倍。对于CAS-VSR-W1k,我们的双分支联合预测精度比MSTCN-Ensemble提高了2.8%,而参数和FLOPs的数量却减少了。与其他工作相比,我们的模型的每个分支在参数和FLOPs略高的情况下都实现了准确率的大幅提高。

读Lipreading Model Based On Whole-Part Collaborative Learning论文_第8张图片

4 结论:

        在本文中,我们提出了一种新型的WPCL模型,它利用协作学习来充分利用嘴唇的全局和细粒度空间信息。在WPCL中,我们采用了一个APFF来融合部分特征,这可以进一步提高我们模型的准确性。我们的模型在训练时间、模型参数和FLOPs方面也超过了现有的最先进水平。我们的模型实现了最先进的性能。

你可能感兴趣的:(读论文,深度学习,人工智能,唇语识别)