论文阅读:《 Lip Reading Sentences in the Wild》

论文:https://arxiv.org/abs/1611.05358
原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html

唇语翻译

将视频处理为以嘴唇为中心的图片序列,给或不给语音,预测正在讲的话。

论文阅读:《 Lip Reading Sentences in the Wild》_第1张图片

这些数据可能来自新闻直播:

论文阅读:《 Lip Reading Sentences in the Wild》_第2张图片

动画演示:

这里唇语和语音的识别、卡拉OK效果式的对齐,都是模型自动完成的。

架构

论文阅读:《 Lip Reading Sentences in the Wild》_第3张图片

视觉和听觉两个模块或者混合交火或者单独使用,每次输出一个字母。

视觉

取嘴唇时序上的sliding window,先喂给CNN,再喂给LSTM,生成一个output vector$s$:

论文阅读:《 Lip Reading Sentences in the Wild》_第4张图片

听觉

类似地,取音频上的窗口分片:

论文阅读:《 Lip Reading Sentences in the Wild》_第5张图片

Attention与Spell

将上述两个LSTM输出的output states送入一个带两个attention拓展的LSTM:

论文阅读:《 Lip Reading Sentences in the Wild》_第6张图片

Curriculum Learning

论文阅读:《 Lip Reading Sentences in the Wild》_第7张图片

通常训练seq2seq模型时喂进去的是完整的句子,但Curriculum Learning的手法是,一次只喂几个单词,逐步增长。这样可以加快收敛速度,降低过拟合。

Scheduled Sampling

论文阅读:《 Lip Reading Sentences in the Wild》_第8张图片

通常训练递归模型的时候,使用的是前一个时刻的“标准答案”的one-hot向量,而这里根据前一个时刻的预测结果采样,让训练和测试统一起来。

数据集

论文阅读:《 Lip Reading Sentences in the Wild》_第9张图片

来自BBC新闻的五千个小时的视频,对齐字幕,做了嘴唇位置等预处理。

结果

论文阅读:《 Lip Reading Sentences in the Wild》_第10张图片

有趣之处在于,他们将模型效果与专业做唇语翻译的公司做了对比,发现比专业人士还要准,而且错误率低了20个百分点。(竟然还有公司专门做这个)

在同时输入语音和唇语的情况下,错误可以做到更低。

你可能感兴趣的:(深度学习,自然语言处理,计算机视觉)