Interactive Attention Networks for Aspect-Level Sentiment Classification

文章目录

    • Motivation
    • 方法概述
    • 方法详述
      • 模型结构
    • 模型细节
    • 不足

Motivation

在神经网络应用到属性级情感分析表现更佳的前提下,作者发现当时之前的方法虽然注重了联系 target 来对 context 建模,但是没有单独地建模 target(特别是没有借助 context 对其建模)。

具体要怎么理解呢?

  1. 我们用一个例子来解释:对于这句话 “The picture quality is clear-cut but the battery life is too short”,其中 target 是 “picture quality” 和 “battery life”,剩余部分为 context -> 很显然 “picture quality” 与 “clear-cut” 是很有联系的,且这种联系是相互的(即提到“照片质量”,我们当然会认为“清晰的”与之有关;同理,提到“清晰的”,我们也会觉得”照片质量“能和这个修饰词联系到一起)。之前的工作都是对 context 建模,然后将 target 考虑进去帮助其建模,而因为这种联系是相互的,所以同样可以通过 context 来帮助 target 做一些工作。
  2. 我们的常识是,context 是由许多单词组成的,而 target 往往是一个词(这也是我认为之前的方法建模 context 但没有建模 target 的一个原因,毕竟对一个词建模直观上感觉意义不大)。 事实上,目标也不局限于一个词。
  3. 无论 target 还是 context,不同的词对最终表示可能有不同的贡献。例如,很容易知道,“图片”在目标“图片质量”的表示中起着更重要的作用,而目标“图片质量”是用“清晰的”来描述的”。

方法概述

首先该方法的核心是基于作者的一种思路:即协调 target 及其 context 才能真正提高情感分类的性能(即这种协调是双向的,具体一点就是对 target 和 context 都进行建模,建模一个时要联系另一个)。

根据 Moitvation,作者的相应的解决思路如下:

  • 对 target 和 context 分别建模,并让二者交互。
    1. 单独建模 target 本身是可以实施的。
    2. target 存在许多含多个词的情况,情况也比较复杂,如果不建模,那么对所有 target 都实行同一种人为的控制,那么显然会流失掉其中可以帮助任务的一部分信息。
    3. 之前 target 帮助 context 主要是帮助了针对 context 部分的模型,且效果不错。同理,现在希望可以让 context 帮助 target,那么也可以试着尝试对 target 建模。
  • 在 target 和 context 部分均引入 attention 机制。

基于上述两点,作者提出了一种基于长短期记忆网络(LSTM)和注意机制的交互注意网络(IAN)模型。

IAN分别对 target 和 context 建模,并且其中都加入 attention。 之后,IAN再让二者交互,最后再建模得到结果。

方法详述

模型结构

  1. 首先将 sequence 分为 target、context 两部分,然后将两部分分别放入 LSTM 中,得到二者的隐藏表示。
  2. 因为二者中每一个 word 都会得到自己对应的隐层表示,所以为了交互,二者各自将自己的隐藏表示求和取平均(各自得到一个向量,代表了各自整个的隐藏表示),然后各自把得到的这个向量同对方的隐藏表示一同计算注意力权重。
  3. 用各自的注意力权重向量算出 target representation 和 context representation,并把二者拼接在一起作为最终的 representation 作为 softmax 分类的 input 。

示意图如下。

因为这个模型确实比较简单,就是将几个简单的模块合起来,所以也不做过多的介绍了。

模型细节

较简单,就是将几个简单的模块合起来,所以也不做过多的介绍了。

不足

  • 模型的表示能力还是有不足的,虽然选出了 target 和 context 中比较重要的词,但是仅从内容的角度选择,其实挺难处理复杂结构的句子(比如反义句,并列句之类的)

你可能感兴趣的:(#,ABSC,深度学习,自然语言处理)