《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记

论文来源:AAAI 2018

本文增加了modeling word-aspect之间的关系,模型采用了循环卷积和循环相关性(circular convolution and circular correlation)来model aspect和词之间的关系,并且将其融入到可微的attention模型中。

ATAE-LSTM有以下缺点:

1. attention层用于学习aspect和context词之间的关系,而不是允许attention层学习上下文词之间的重要性关系。

2. 必须要学习aspect和words之间的关系,整个序列被aspect embedding控制了,这会使得模型更难训练。

3. 简单的将word embedding和aspect embedding连接起来作为LSTM的输出,这种导致的问题有内存的占用,计算复杂度和过拟合的风险。

本文的contributions:

1. 简单并且有效的attention机制的神经网络模型来解决ABSA问题

2. 本文首次增加了a novel association layer,在这一层中,应用了circular convolution of vectors用于word-aspect fusion,学习句子中aspect和word之间的关系。

3. Aspect Fusion LSTM(AF-LSTM)的得到了state-of-the-art的结果。



《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记_第1张图片
模型架构

Word-Aspect Fusion Attention Layer:

associative memory operators:计算lstm的每个时刻的隐状态与aspect embedding之间的关系的方法有两种,circular correlation和circular convolution

circular correlation

其中h是每个时刻的隐状态,s是aspect embedding,感觉看下面这个图可能更清楚点,该例子中d=3,那么蓝色的三维向量是隐状态,红色的是aspect embedding,通过快速傅里叶变换会简便些。

《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记_第2张图片
curcular convolution和circular correlation
circular correlation的符号


F是Fast Fourier Transform(FFT)

Fast Fourier Transform快速傅里叶变换

傅里叶变换的物理意义:

傅里叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。有些信号在时域上是很难看出什么特征的,但是如果变换到频域之后,就很容易看出特征了。(之前可能学过,但是完全没有印象,在网上搜了下,这篇博客很详尽。https://www.cnblogs.com/liujin472/articles/5989303.html。讲真还是不太懂)

其他层很容易理解,跟ATAE-LSTM一样。

Connections to Holographic Memory Models

本文的模型与associative memory models和holographic reduced representations高度相关,感觉要完全理解还得再看一篇论文(Plate, T. A. 1995. Holographic reduced representations. IEEE Trans. Neural Networks 6(3):623–641)

本文方法的优势:

学习到更丰富的word和aspect之间的关系;并且参数更少;与其它层关联少,比如与LSTM和attention层没有糅合。


我的问题:其实本文让我最疑惑的地方在于ATAE-LSTM方法的结果,文章中的aspect term classification和aspect category classification应该分别是aspect term级别和aspect category级别的情感分类,文章中应该有使用和ATAE-LSTM同样的数据集,但是结果和ATAE-LSTM论文里的结果不一样。我之前的理解是,要引用别人的论文就把别人论文里的结果引用了,这个结果不同显然是作者自己实现了别人的模型的实验结果,难道可以这样吗?我也不确定,但是毕竟这是一篇顶会论文,质量还是有保证的,读了论文还是收益匪浅,不得不感叹一句,明明是同样的课题,别人都能发顶会,我呢。。。心塞

你可能感兴趣的:(《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记)