论文阅读笔记:Transformation Networks for Target-Oriented Sentiment Classification

原文链接
本文是香港中文大学和腾讯AI实验室2018年在ACL上发表的论文

摘要

  本文模型为三层结构,最下面一层为双向LSTM,最上一层为CNN,替代基于注意机制的RNN 去提取最重要的分类特征,由于 CNN 很难捕捉目标实体信息,所以本文提出了一个特征变换组件来将实体信息引入到单词的语义表示当中。但这个特征变换过程可能会使上下文信息丢失。所以本文又提出了一种“上下文保留”机制,可将带有上下文信息的特征和变换之后的特征结合起来,即中间层本文提出的CPT(Context-Preserving Transformation)结构。本文提出的模型T-net整体结构如左图所示。
论文阅读笔记:Transformation Networks for Target-Oriented Sentiment Classification_第1张图片论文阅读笔记:Transformation Networks for Target-Oriented Sentiment Classification_第2张图片

模型介绍

1)Bi-directional LSTM Layer

  最下层为双向LSTM层,在这一层输入目标句子的词向量表示,输出具有上下文信息的词向量表示。

2)Context-Preserving Transformation

  这部分完成的功能有两个,一是将具有上下文信息的词向量结合特定目标信息,一是保存上下文信息。
2.1)Target-Specific Transformation
  在这一层首先用另一个LSTM生成目标向量的词表示(右图中绿色部分),计算每一个目标词向量和每一个输入词向量的关联度,然后通过关联度生成基于上下文的目标词向量,然后将由第一层得到的词表示与本层得到的词向量表示进行全连接(fully-connected),得到结合目标信息的词向量表示
2.2)Context-Preserving Mechanism
  将2.1得到的结合了目标信息的词向量表示与第一层得到的具有上下文信息的词向量进行结合,本文提出了两种结合方法LF和AS。
Lossless Forwarding(无损转发):将上下文信息直接加到2.1得到的词向量表示上;
Adaptive Scaling(自适应缩放):将上下文信息以不同的权重加到2.1得到的词向量表示上;

2.3) Convolutional Feature Extractor

  第三层为结合位置信息的CNN层用来抽取来自2.2得到的特征信息并进行分类。

实验部分

  本文在三个数据集上进行了四部分实验内容(1)与常用的情感分类方法进行对比(2)将本文提出的CPT结构用注意力机制以及全连接进行替换,对比本文提出的结构CPT的效果(3)对比深度转换、上下文保存机制、位置相关性对本文提出的模型效果的影响(4)对比两种保存上下文信息方法的效果
论文阅读笔记:Transformation Networks for Target-Oriented Sentiment Classification_第3张图片

你可能感兴趣的:(论文)