Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记

1.Introduction

本文是2021年ACL会议中的一篇利用GCN模型来对方面级情感分析进行研究的一篇文章。文章中作者提出了一种DualGCN模型来分析一个给定句子的语义和句法结构。还提出一种正交正则化以及差分正则化来获得更好的语义表示。

2.Model

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记_第1张图片

 DualGCN模型图

在这里我们分成SynGCN和SemGCN两个部分来对DualGCN模型进行一个介绍。

2.1 SynGCN

SynGCN这个部分主要是对给定句子的语法结构(句法结构)进行一个分析。这里我门可以看到,我们先将句子以训练好的词向量的形式进行一个输入,将其输入到一个Dependency Parser(依赖分析器),以依赖概率矩阵的形式作为输出(原文中提到依赖概率矩阵相比于分析器的离散输出更能捕获丰富的句子信息)。

Tips:个人觉得这里的依赖概率矩阵类似于邻接矩阵。具体的对应关系可以看矩阵中的颜色的深浅以及句子中箭头的指向。

而SynGCN初始的隐藏状态则是来自于BiLSTM的最后的一个输出。这里的BiLSTM的输入相同于SynGCN和SemGCN,从而可以输出一个较合适的初始的隐藏状态提供给SynGCN和SemGCN。

2.2 SemGCN

SynGCN这个部分主要是对给定句子的语义结构进行一个分析。SynGCN也分为两个部分,一个是作者自己设计的self-attention with Orthogonal Regularizer,另一个则是普通的GCN层。在这个部分作者将获得额度注意力矩阵作为邻接矩阵作为一个输入。 Orthogonal Regularizer的作用在于将词的概率分布正交化,减少注意力分数分布的重叠。

Orthogonal Regularizer 公式图

另外这边还有一个作者设计的Differential Regularizer。作用是将从SynGCN和SemGCN模块中学习到的两种类型的特征表示分别表示语法依赖树和语义相关性中所包含的不同信息。

 Differential Regularizer公式图

再利用平均池化和整合操作得到对应的结果,最后再经过softmax层得到最后的一个分类结果。

2.3 BiAffifine Module

BiAffifine 模块的用途在于将SynGCN和SemGCN两个部分的输出进行一个有效的特征交换(To effectively exchange relevant features between the SynGCN and SemGCN modules, we adopt a mutual BiAffifine transformation as a bridge.

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记_第2张图片

BiAffifine Module 公式图

3.Experiments

实验部分主要分为两个部分一个是在同一数据集上与其他模型的一个对比,另一个是消融研究的对比。

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记_第3张图片

不同模型结果的对比

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记_第4张图片

消融实验结果 

4.Conclusion

在本文中,作者提出了一个DualGCN模型。模型涉及的两个主要方面:SynGCN和SemGCN。而本文的创新点:1.使用了一个全新的不同的Dependency Paser。 2.提出了正交正则化和差分正则化,并在损失函数时对两个正则化得以运用。

 损失函数公式

3.提出了BiAffifine Module,即采用了一个 mutual BiAffifine transformation。用来进行特征的交换。

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis阅读笔记_第5张图片

BiAffifine transformation公式图

你可能感兴趣的:(自然语言处理,人工智能,nlp)