DPCNN分类模型

        论文 Deep Pyramid Convolutional Neural Networks for Text Categorization 提出深层金字塔卷积网(DPCNN)是 word-level 的广泛有效的深层文本分类卷积神经网络,比 TextCNN(浅层CNN)性能明显提高。

        TextCNN 不能通过卷积获得文本的长距离关系依赖,DPCNN 通过加深网络,可以抽取长距离的文本依赖关系,

DPCNN分类模型_第1张图片

region embedding:包含多尺寸卷积滤波器的卷积层的卷积结果,类似word embedding;对一个文本区域/片段(比如3gram)进行一组卷积操作后生成的embedding,即向通过embedding层将文本转为向量,该向量中每行对应一个词,再通过 region embedding (tex-cnn) 构建如 3-gram,4-gram,5-gram 的向量。

        对 n-gram 卷积操作时有两种选择,一种是保留词序,即设置一组size=n*D 的二维卷积核对n-gram 卷积(D是word embedding维度),另一种是不保留词序(即词袋模型),即先对n-gram中n个词的embedding取均值得到一个size=D的向量,设置一组size=D的一维卷积核对该n-gram进行卷积。TextCNN 使用了保留词序的做法,而DPCNN使用的是词袋模型的做法,DPCNN作者认为前者容易造成过拟合,后者的性能却跟前者差不多。

等长卷积:为捕获长距离信息,需要深层CNN,如果直接使用等长卷积堆等长卷积,会让每个词位包含越来越多,越来越长的上下文信息,但效率很低,但会让每个词位的embedding描述语义描述的更加丰富准确,这样可以适当的堆两层来提高词位embedding的表示的丰富性。

三类卷积:

设序列长度为n,卷积核大小为m,步长为s,输入序列两端各填补p个零(zero padding),卷积层输出的序列为(n - m + 2p) / s + 1,

(1) 窄卷积:步长s=1,两端不补0,即p=0,卷积后输出长度为n-m+1

(2)宽卷积:步长s=1,两端补零p= m -1,卷积后输出长度为 n + m -1

(3) 等长卷积:步长s = 1,两端补零 p = (m-1)/2,卷积后输出长度为 n

池化:捕捉长距离依赖的,选用两层等长卷积提高embdding 的丰富性,然后使用downsampling(池化),在每一个卷积块(两层的等长卷积)后,使用一个 size=3 和 stride=2 的 maxpooling 池化,序列的长度就被压缩为原来的一半,感知的文本片段就比之前长了一倍。

固定filters数量:增加 filters 数量会导致总计算复杂度增加。DPCNN 通过对 filters 的数量修正,发现增加 filters 数量只会增加计算时间,没有提高精度。

        在表示好每个词位的语义后,很多邻接词或者邻接n-gram的词义是可以合并的,例如“小娟 姐姐 人 不要 太好”中的“不要”和“太好”虽然语义本来离得很远,但是作为邻接词“不要太好”出现时其语义基本等价为“很好”,这样完全可以把“不要”和“太好”的语义进行合并。合并的过程可以在原始的embedding space中进行的,毕竟原文中直接把“不要太好”合并为“很好”是很可以的哇,完全没有必要动整个语义空间。
        实际上,相比图像中这种从“点、线、弧”这种low-level特征到“眼睛、鼻子、嘴”这种high-level特征的明显层次性的特征区分,文本中的特征进阶明显要扁平的多,即从单词(1gram)到短语再到3gram、4gram的升级,很大程度上均满足“语义取代”的特性。而图像中就很难发生这种”语义取代“现象(例如“鼻子”的语义可以被”弧线“的语义取代嘛?)。
        因此DPCNN与ResNet 的区别是,DPCNN 固定了 filters 的数量,即固定了embedding space的维度,使得网络有可能让整个邻接词(邻接ngram)的合并操作在原始空间或与原始空间相似的空间中进行(实际中会不会这样做不一定,只是提供了一种条件),整个网络虽然形状上来看是深层的,但是从语义空间上来看完全可以是扁平的。而ResNet则是不断的改变语义空间,使得图像的语义随着网络层的加深不断的跳向更高 level 的语义空间。

1/2池化层:文本序列的长度会随着block数量的增加呈指数级减少,

DPCNN分类模型_第2张图片

残差连接:初始化深度CNN时,各层权重都是初始化为一个很小的值,导致最开始的网络中,后续几乎每层的输入都是接近0,网络输出没意义,小权重也阻碍了梯度的传播,使得网络的初始训练阶段往往要迭代好久才能启动。
        同时就算网络启动完成,由于深度网络中仿射矩阵(每两层间的连接边)近似连乘,训练过程中网络也非常容易发生梯度爆炸或弥散问题(权重非共享,深度CNN比RNN要好些)。

        ResNet 中提出的残差连接是一种非常简单、合理、有效的解决方案。既然每个block的输入在初始阶段容易是0而无法激活,直接用一条线把region embedding层连接到每个block的输入乃至最终的池化层/输出层,这时 shortcut connection 由于连接到了各个block的输入(当然为了匹配输入维度,要事先经过对应次数的1/2池化操作),这时就相当于一个短路连接,即region embedding直接短路连接到了最终的池化层或输出层,DPCNN 就退化成了TextCNN,深度网络不好训练,就一层的TextCNN可是异常容易训练的,模型的起步阶段就是从TextCNN起步了,避免了深度CNN网络的冷启动问题了。
        有了shortcut后,梯度就可以忽略卷积层权重的削弱,从shortcut一路无损的传递到各个block手里,直至网络前端,缓解了梯度消失问题。
 

参考:

Pytorch实现中文文本分类任务(Bert,ERNIE,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention, DPCNN, Transformer) - 知乎

DPCNN 模型详解 - 知乎

从经典文本分类模型TextCNN到深度模型DPCNN - 知乎

你可能感兴趣的:(nlp,深度学习)