【论文阅读】TCN-时间卷积网络

参考论文:An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

参考链接:

序列建模之时间卷积网络TCN - 杨镒铭的文章 - 知乎 https://zhuanlan.zhihu.com/p/41987775

TCN时间卷积网络 - 剪水作花飞的文章 - 知乎 https://zhuanlan.zhihu.com/p/51246745

TCN论文阅读 - 陈见耸的文章 - 知乎 https://zhuanlan.zhihu.com/p/52477665

时间卷积网络(TCN) 总结:时序模型不再是递归网络(RNN) 的天下,但作为信息粗暴提取的一种方法,请不要神话CNN !

问题定义:

给定输入序列 ,预测 。但是在预测 时,只能使用已经观测到的 。这个约束使得提出的模型只能在自回归的场景下是成立的,在机器翻译等里面不成立,因为机器翻译里预测的时候可以使用整个输入序列的信息

涉及概念:

【论文阅读】TCN-时间卷积网络_第1张图片

一维卷积

【论文阅读】TCN-时间卷积网络_第2张图片

一维卷积也类似于加权求和

因果卷积

【论文阅读】TCN-时间卷积网络_第3张图片

时序预测要求对时刻t 的预测yt只能通过t时刻之前的输入x1到xt-1来判别(像隐马尔科夫链)。这在CNN里面就叫做因果卷积(causalconvolutions)。本质上,David 9认为就是通过限制卷积窗口滑动做到的。

扩张卷积

【论文阅读】TCN-时间卷积网络_第4张图片

例如下图是扩张卷积,卷积核的感受野为7×7=49

【论文阅读】TCN-时间卷积网络_第5张图片

残差卷积的跳层连接

【论文阅读】TCN-时间卷积网络_第6张图片

深层网络容易出现梯度消失和梯度爆炸的问题(主要是因为链式求导过程中对激活函数的导数多次累乘,如果导数<1则梯度消失,>1则梯度爆炸),目前可以使用BN、正则化等方式进行改善,但是还是无法支持过深的网络。针对深层网络出现的层数失效甚至越深结果越差的现象,使用残差网络结构来进行优化。(https://www.zhihu.com/question/53224378)

残差链接被证明是训练深层网络的有效方法,它使得网络可以以跨层的方式传递信息。本文构建了一个残差块来代替一层的卷积。如上图所示,一个残差块包含两层的卷积和非线性映射,在每层中还加入了WeightNorm和Dropout来正则化网络。

全卷积网络

【论文阅读】TCN-时间卷积网络_第7张图片

【论文阅读】TCN-时间卷积网络_第8张图片

特点总结

总结一下TCN的优点和缺点。

【优点】

(1)并行性。当给定一个句子时,TCN可以将句子并行的处理,而不需要像RNN那样顺序的处理。

(2)灵活的感受野。TCN的感受野的大小受层数、卷积核大小、扩张系数等决定。可以根据不同的任务不同的特性灵活定制。

(3)稳定的梯度。RNN经常存在梯度消失和梯度爆炸的问题,这主要是由不同时间段上共用参数导致的,和传统卷积神经网络一样,TCN不太存在梯度消失和爆炸问题。这里主要针对更深的网络

(4)内存更低。RNN在使用时需要将每步的信息都保存下来,这会占据大量的内存,TCN在一层里面卷积核是共享的,内存使用更低。

【缺点】:

(1)TCN 在迁移学习方面可能没有那么强的适应能力。这是因为在不同的领域,模型预测所需要的历史信息量可能是不同的。因此,在将一个模型从一个对记忆信息需求量少的问题迁移到一个需要更长记忆的问题上时,TCN 可能会表现得很差,因为其感受野不够大。

(2)论文中描述的TCN还是一种单向的结构,在语音识别和语音合成等任务上,纯单向的结构还是相当有用的。但是在文本中大多使用双向的结构,当然将TCN也很容易扩展成双向的结构,不使用因果卷积,使用传统的卷积结构即可。

(3)TCN毕竟是卷积神经网络的变种,虽然使用扩展卷积可以扩大感受野,但是仍然受到限制,相比于Transformer那种可以任意长度的相关信息都可以抓取到的特性还是差了点。TCN在文本中的应用还有待检验。

【论文阅读】TCN-时间卷积网络_第9张图片

你可能感兴趣的:(神经网络相关)