学习笔记:“一种对于序列模型的卷积与循环网络的通用性评价”

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 相关信息
  • 一、引言
  • 二、工作内容
        • 实验内容概述
        • 主要更进点
        • TCN 结构
    • 讨论
      • TCN的优点
      • TCN的缺点
  • 总结
  • 知识点补充
    • 膨胀卷积
    • 转置卷积


相关信息

论文标题: An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
作者: Shaojie Bai , J. Zico Kolter , Vladlen Koltun
链接: https://arxiv.org/abs/1803.01271
论文中相关代码: https://github.com/locuslab/TCN


一、引言

对于大多数深度学习从业者而言,序列建模就是循环网络的同义词。但是,最近的研究结果表明,在音频合成和机器翻译等任务上,卷积架构的表现优于循环网络。为此,作者针对该点提出:对于新的给定的序列建模任务,应该使用何种体系结构,这个问题应该进一步思考。在本篇文章中,作者在多个任务中进行了两者性能上的评估,结果表明,一个简单的卷积体系结构在不同范围的任务和数据集上优于规范的循环网络,比如LSTMs, 同时展现了更长的有效内存。 最后的结论是:序列建模和循环网络之间的共同关联应该重新被考虑,卷积网络应该被视为序列建模任务的自然起点。

二、工作内容

实验内容概述

作者通过使用卷积和循环体系结构对一系列序列建模任务进行了评估。特别以一组全面的任务为目标,这些任务已经被反复使用来比较不同的循环网络架构的有效性。这些任务包括复调音乐建模、单词和字符级语言建模,以及有意设计并经常用于RNN基准测试的综合压力测试。 因此,作者的评估是为了在循环网络的“大本营”上比较卷积和循环方法的序列建模。

主要更进点

为了表示卷积网络,作者描述了一个通用的时间卷积网络体系结构(TCN),它适用于所有任务。该体系结构参考了最近的研究,但有意保持简单,并结合了现代卷积体系结构的一些最佳实践。它与LSTMs和GRUs等规范的循环体系结构进行了比较。

TCN 结构

学习笔记:“一种对于序列模型的卷积与循环网络的通用性评价”_第1张图片
其中,想要更改感受野,可以通过更改卷积核大小或者膨胀系数。当膨胀系数等于1时,与普通的卷积一样。在使用多层膨胀卷积时,每层的膨胀系数有所讲究,这这里作者采用的膨胀系数成指数形式(可以去看看这篇文章Understanding Convolution for Semantic Segmentation,文中对膨胀卷积的膨胀系数进行了讲解)。
结果

讨论

TCN的优点

1、并行化处理:
与RNN不同之处在于TCN本质上是CNN的变体,卷积核之间可以并行运算,无需等待前面的时间步。

2、灵活的感受野大小:
TCN可以通过多种方式改变感受野,如:叠加更多的膨胀卷积层、使用更大的膨胀因子或者增加卷积核大小。

3、稳定的梯度:
与循环神经网络不同,TCN避免了梯度消失和梯度爆炸。

4、对训练的内存要求低:
在长序列输入的情况下,LSTM和GRU会使用较多内存来储存多个单元门的一些结果。而TCN中,卷积核是共享的,反向传播路径仅取决于网络深度。因此,在实践中,门控RNNs可能比TCN使用更多的乘法因子。

5、可变长度输入:
和RNNs以循环的方式对可变长度的输入进行建模一样,TCN可以通过滑动一维卷积核来接收任意长度的输入。这意味着,对于任意长度的序列数据,可以采用TCN作为RNNs的替换。

TCN的缺点

1、在测试阶段:
以生成预测为例,RNNs至于要当前xt和一个隐藏状态即可。而对于TCN,需要接收原始序列直到有效历史长度,因此在测试阶段可能需要更多的内存。

2、参数需要改变,当迁移至不同的域时
不同的领域可能对模型预测所需记录量有不同的要求。因此,当将一个模型从只需要很小的感受野,转到需要更大的感受野时,TCN可能会因为没有足够大的感受野而表现不佳。

总结

作者针对自己想法,提出了一个TCN结构,在多个序列任务上进行了测试,结果表明卷积网络应该视为序列建模的自然起点和强大工具包。

知识点补充

膨胀卷积

学习笔记:“一种对于序列模型的卷积与循环网络的通用性评价”_第2张图片

转置卷积

学习笔记:“一种对于序列模型的卷积与循环网络的通用性评价”_第3张图片

你可能感兴趣的:(学习,网络,深度学习)