时间卷积网络(TCN)在唇语识别中的应用

目录

  • 前言
  • 一、TCN的发展与应用
  • 二、TCN详解
  • 三、MS-TCN用于唇语识别
  • 四、DC-TCN用于唇语识别
  • 总结


前言

唇语识别是深度学习领域极具挑战性的课题,主要表现在两方面:一是技术的复杂性,例如, 前期对唇部的识别和特征提取涉及到目标检测算法,后期对语义的分析又用到时序性神经网络甚至NLP技术;二是唇语识别的实用较为困难,由于其数据受光照、距离、角度、唇形等多种条件影响,给特征提取带来了很多挑战。
随着人工智能的发展,唇语识别的算法模型也从原来的机器学习算法HMM(隐马尔科夫模型)发展到RNN,再到后来的LSTM、GRU、Bi-LSTM、Bi-GRU等RNN的多个变种,而最新的成果(SOTA)则采用了表现优异的新的时序处理算法:Temporal Convolutional Network(TCN)。可见,唇语识别的发展对时序性算法十分依赖。
本文着眼于2020年两篇采用TCN算法的最新唇语识别论文,以此为目标对TCN的内容及其应用进行了详细分析


一、TCN的发展与应用

TCN最早由Colin Lea在2016年提出,文章题为:《Temporal Convolutional Networks for Action Segmentation and Detecton》Colin等人表明TCN的设计期初用于视频中人物行为的识别和分割。2018年,Shaojie Bai等在此基础上更进一步,在《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》中对TCN进行了进一步的完善和创新,至此TCN技术已完全成熟。
随后,2020年TCN算法即被运用在唇语识别中《LIPREADING USING TEMPORAL CONVOLUTIONAL NETWORKS》,Brais Martinez在文中表明用MS-TCN取代了Bi-GRU,实现了SOTA的效果。不久Pingchuan Ma等在2020年年底再次刷新唇语识别成绩(《Lip-reading with Densely Connected Temporal Convolutional Networks》),其在文中提出一种DC-TCN,是当前词级别(以词为单位)唇语识别领域的最好成绩。

二、TCN详解

三、MS-TCN用于唇语识别

四、DC-TCN用于唇语识别

总结

你可能感兴趣的:(【Note】,神经网络,人工智能,深度学习)