短文本分类的 ResLCNN 模型

收稿时间: 2017-06-30; 采用时间: 2017-10-20

Journal of Software

在 He 等人研究中,34 层的 CNN 比 18 层的 CNN 效果差.同样,在 Donahue 等人研究中也提到,双层的 LSTM 模型效果是最好的,多层的 LSTM 效果出现退化现象.为解决此退化问题,He 等人[8]提出了残差网络.受此启发,为了提高模型性能。

ResLCNN模型以word2vec和Glove词向量构成的句子矩阵作为输入。第1层根据隐藏层和记忆单元获取文本时序特征,随后

用残差层包含两层LSTM,接着CNN使用多个卷积核进行进行卷积运算,提取最优卷积特征,通过softmax分类,

类.ResLCNN 模型为了获取更复杂的特征,将 3 层 LSTM 结合 CNN 构建深层网络,同时在第 1 层 LSTM 输出与 CNN 层输入之间添加恒等映射,构建残差层缓解训练模型阶段低网络层梯度消失问题.

模型结构图:


数据集:影评数据集MR

该数据集包括相同数量的正面和负面评论,共 10 662 条,每条评论都是一条短句.实验中训练集、验证集和测试集的比例是 8:1:1.

模型参数:

LSTM大小均为300,CNN卷积核大小为3,数量100,relu和sigmoid,使用bn和dropout操作,

利用adadelta梯度下降法。


论文思路不错所以整理一下,利用到了ResNet的思想,并将LSTM与CNN结合起来,将LSTM的输出输入到CNN。

你可能感兴趣的:(NLP)