文本分类经典模型复现--TextCNN（基于PyTorch）

前言

复现经典论文，可以回顾深度学习和自然语言处理基础，强化对常用模型的理解，体会经典模型中蕴含的设计哲学，为后续实现自己的模型打下良好基础。如果不深入了解深度学习原理，对基本的模型都不能实现，只会拿开源代码抄抄改改，就会陷入盲目调参的误区，最终浪费时间又一无所获。因此，我们要避免成为调包侠、调参侠，强化对模型的主人翁意识，做到调参有的放矢，方能事半功倍。自己动手实现一个模型并达到或接近原论文效果，正是锻炼动手能力，提升深度学习基本功的好方法。

TextCNN

TextCNN(论文Arxiv地址)是CNN用于文本分类的开山之作。据Google Scholar统计，目前该论文引用量已达9000多次，足见其影响之深远。学习深度学习自然语言处理的人一定都听说过它的大名，也在初入NLP大门的时候运行过相关代码。但是一般都是简单看一下论文，跑一下示例代码，得出个差不多的结果就可以了，没有进一步深究细节。毕竟，在如此内卷的今天，大家时间都很宝贵，没有那么多心思花费在基本模型上。
殊不知，由于篇幅所限，论文中不能把模型的每一个细节都解释清楚，很多地方只有在代码里才能完美呈现。因此，使用作者的源代码才能真正实现复现论文模型的全貌。而原始论文的代码是基于Theano，这个框架几乎已经没人使用，因此我们使用新的框架PyTtorch来复现论文，争取通过这样的方式理解论文的每一个细节，对论文源代码进行原汁原味的还原。

言归正传,本篇论文提出了基于卷积神经网络(Convolutional neural network)进行文本分类的模型。

编码
该模型首先使用词向量对句子进行编码，词向量矩阵为，和分别是词表大小和词向量的维度；句子长度为，经过词向量编码后，句子的表示为，表示个单词，每个单词是长度为的向量
词向量定义：

self.embeddings = nn.Embedding(alphabet.size(), config.emb_dim) # l x e

词向量编码：

input = self.embeddings(input).unsqueeze(1)

这里需要注意，input的输入维度是(batch_size, seq_length)，而输出维度是(batch_size, seq_length, emb_size)。标准的CNN模型针对的是图片，图片的维度是batch_size x channel_size x width x height，其中channel_size代表通道数，可以理解为RGB三原色，每个像素点都有在RGB三个图层上的数值。
因此，为了使用原始的CNN模块的接口，我们也需要将输入改为四个维度，unsqueeze(1)代表在第一维上作扩展，这样，输出的维度就变成了(batch_size, 1, seq_length, emb_size)，和普通图片的维度一致，就可以使用CNN接口进行卷积了。

卷积
使用一个宽度等于词向量维度，长度可变的卷积核对矩阵进行扫描，每一次扫描得到一个的向量，使用个卷积核扫描，得到结果向量的维度为，在行方向使用Max-Pooling得到每一行的最大值，输出维向量。

Text CNN model
分类
得到每条文本对应向量表示，经过线性变换进行二分类即可：

y = Wx + b

其中，的维度是。

代码实现

在仔细阅读之后，我动手实现了该论文的完整代码，代码位于https://github.com/unikcc/SentenceClassifcation。深度学习框架实用PyTorch，因为PyTorch1.5以上不能完全保证两次结果一致，影响控制变量，因此我使用1.4版本的PyTorch。在实现过程中我参考了以下代码和教程：

TextCNN论文作者原版，使用Theano框架，地址：https://github.com/yoonkim/CNN_sentence
Tensorflow版，地址：https://github.com/dennybritz/cnn-text-classification-tf
Torch版，来自Harvard NLP，地址：https://github.com/harvardnlp/sent-conv-torch，lua语言
数据预处理参考Diaobo的范式，地址：https://github.com/DianboWork/Graph4CNER

数据预处理

这里重点说明一下数据处理的细节
之前有句流传很广的话“数据决定了模型的上限, 而调参只不过是在逼近这个上限而已”，可见数据在深度学习与自然语言处理领域中的重要性。本文用到了MR,SST,SST2,SUBJ,TREC,TR,MPQA共7个数据集来进行文本分类，大多都是情感二分类。下面说几个需要注意的点：

字符串预处理
拿到原始数据集的文本后，在tokenize化之前，需要对字符串做出初步的处理，这里我们参考了论文原文作者的实现方式，即SST数据集、MR以及其他数据集分别使用不同的处理方式，具体代码见https://github.com/yoonkim/CNN_sentence/blob/master/process_data.py的97和117行。
数据集划分
已经分好的train,test和valid的数据集，直接使用原始的切分方式即可，最终的评价方式就是模型在测试集上的得分。对于未做切分的数据集，则进行10折交叉验证，10份测试结果的均值作为最终得分
构建Embedding
原论文使用Google原版的word2vec，权重数据下载地址https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit。对于没有在词典中的词语，采用随机初始化的方式，这里随机初始化不是随便初始化，而使用均匀分布效果更好。论文作者使用了[-0.25,0.25]的均匀分布，我使用的是[-0.1,0.1]的均匀分布，相比之前使用的正态分布随机初始化可以至少提高1个百分点。
np.random.uniform_(-0.1,0.1,300)
使用预训练词向量时，训练、测试、验证集的词都加入词表，加载其对应的词向量，效果会更好。

复现结果

目前在SST-2和MR数据集上测试了复现效果，结果如下表所示。源代码中实际上记录了两个最优值，分别是测试集全局的最优和验证集最优时测试集的结果，一般来说应该取后者，我们这里记录的是前者，当然，在我们的测试结果中这两个差别不大，一般不超过1个百分点，甚至完全一致。可以发现，尽管我们已经取了全局的最优，仍然无法完全复现或超越原论文的结果。路漫漫其修远兮，吾将上下而求索。
以SST2为例，CNN-static和原论文效果最接近，相差约1个百分点，而CNN-rand和CNN-fine-tuned则和原论文相差2个百分点左右；复现效果基本满意，还有提升空间。
复现结果（括号内为复现结果）

模型选项	SST-2	MR
CNN-rand	82.7 (80.78)	76.1 (77.10)
CNN-static	86.8 (85.83)	81.0 (80.49)
CNN-fine-tuned	87.2 (84.68)	81.5 (79.88)
Bert-base-cased	93.5 (90.57)

文本分类经典模型复现--TextCNN（基于PyTorch）

前言

TextCNN

代码实现

数据预处理

复现结果

你可能感兴趣的:(文本分类经典模型复现--TextCNN（基于PyTorch）)