《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记

论文来源：AAAI 2018

本文增加了modeling word-aspect之间的关系，模型采用了循环卷积和循环相关性(circular convolution and circular correlation)来model aspect和词之间的关系，并且将其融入到可微的attention模型中。

ATAE-LSTM有以下缺点：

1. attention层用于学习aspect和context词之间的关系，而不是允许attention层学习上下文词之间的重要性关系。

2. 必须要学习aspect和words之间的关系，整个序列被aspect embedding控制了，这会使得模型更难训练。

3. 简单的将word embedding和aspect embedding连接起来作为LSTM的输出，这种导致的问题有内存的占用，计算复杂度和过拟合的风险。

本文的contributions:

1. 简单并且有效的attention机制的神经网络模型来解决ABSA问题

2. 本文首次增加了a novel association layer，在这一层中，应用了circular convolution of vectors用于word-aspect fusion，学习句子中aspect和word之间的关系。

3. Aspect Fusion LSTM(AF-LSTM)的得到了state-of-the-art的结果。

《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记_第1张图片

模型架构

Word-Aspect Fusion Attention Layer：

associative memory operators：计算lstm的每个时刻的隐状态与aspect embedding之间的关系的方法有两种，circular correlation和circular convolution

circular correlation

其中h是每个时刻的隐状态，s是aspect embedding，感觉看下面这个图可能更清楚点，该例子中d=3，那么蓝色的三维向量是隐状态，红色的是aspect embedding，通过快速傅里叶变换会简便些。

《Learning to Attend via Word-Aspect Associative Fusion for Aspect-based Sentiment Analysis》阅读笔记_第2张图片

curcular convolution和circular correlation

circular correlation的符号

F是Fast Fourier Transform(FFT)

Fast Fourier Transform快速傅里叶变换

傅里叶变换的物理意义：

傅里叶原理表明：任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加。有些信号在时域上是很难看出什么特征的，但是如果变换到频域之后，就很容易看出特征了。（之前可能学过，但是完全没有印象，在网上搜了下，这篇博客很详尽。https://www.cnblogs.com/liujin472/articles/5989303.html。讲真还是不太懂）

其他层很容易理解，跟ATAE-LSTM一样。

Connections to Holographic Memory Models

本文的模型与associative memory models和holographic reduced representations高度相关，感觉要完全理解还得再看一篇论文（Plate, T. A. 1995. Holographic reduced representations. IEEE Trans. Neural Networks 6(3):623–641）

本文方法的优势：

学习到更丰富的word和aspect之间的关系；并且参数更少；与其它层关联少，比如与LSTM和attention层没有糅合。

我的问题：其实本文让我最疑惑的地方在于ATAE-LSTM方法的结果，文章中的aspect term classification和aspect category classification应该分别是aspect term级别和aspect category级别的情感分类，文章中应该有使用和ATAE-LSTM同样的数据集，但是结果和ATAE-LSTM论文里的结果不一样。我之前的理解是，要引用别人的论文就把别人论文里的结果引用了，这个结果不同显然是作者自己实现了别人的模型的实验结果，难道可以这样吗？我也不确定，但是毕竟这是一篇顶会论文，质量还是有保证的，读了论文还是收益匪浅，不得不感叹一句，明明是同样的课题，别人都能发顶会，我呢。。。心塞