【论文阅读】【基于方面的情感分析】 Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis

文章目录

  • Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis
    • 一、该论文关注的是解决ABSA问题的哪个方面?驱动是什么?具体目标是解决什么问题?
    • 二、该论文采用的方法是什么,方法的核心原理是什么?
    • 三、该方法是如何提出的,是开创性的方法还是对已有方法进行的改进,创新点是什么?
    • 四、该论文展示的结果如何?使用的是什么数据集?
    • 五、该论文是否提出还有需要改进的地方,即future work?
    • 六、该论文的实际应用点在于什么?

Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis

一、该论文关注的是解决ABSA问题的哪个方面?驱动是什么?具体目标是解决什么问题?

方面:改进模型(GCN/GAT+依赖树方向)
驱动
①2016-2018左右,ABSA问题的主要解决方法是基于注意力机制的RNN方法,这种方法的缺点是:注意机制本身存在缺陷,容易受到语句噪声的影响;
②2019-2020左右,出现方法是:基于依赖树的图卷积网络(GCNs)和图注意网络(GATs),它们明确地利用了句子的句法结构。但是依赖关系树就是一种根据句法依存关系建立的句子中单词之间的联系,所以句子本身语法应该是对的。所以这种方法的缺点是:

  • 如何保证依赖关系树的依存关系的准确性;
  • 由于非正式的表达和在线评论的复杂性,在一些语法并不是很标准的数据集上,表现不是很好。

具体目标
改进目前GCN/GAT+依赖树上存在的问题,提出一种新的模型,解决ABSA问题。

二、该论文采用的方法是什么,方法的核心原理是什么?

方法的提出

  • 解决问题1)——使用依赖解析器中所有依赖弧的概率矩阵来构建一个基于语法的图卷积网络:a syntax-based graph convolutional network (SynGCN);
  • 解决问题2)——使用依赖解析器中所有依赖弧的概率矩阵来构建一个基于语义的图卷积网络:a semantic correlation-based graph convolutional network (SemGCN)。
  • 同时:
    ①利用BiAffine模块在SynGCN和SemGCN模块之间搭建相关信息的桥梁;
    ②正交正则化器:每个词的语义相关术语不应该重叠,鼓励单词上的注意力概率分布是正交的。
    ③差分正则化器:鼓励SemGCN模块能够学习不同于SynGCN的语法表示的语义表示。

综上
采用的方法为 DualGCN:即SynGCN+SemGCN的双图卷积网络,再加上两个正则器,一个正交正则器,一个为差分正则器。
【论文阅读】【基于方面的情感分析】 Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis_第1张图片

核心原理

  1. SynGCN【保证依赖关系解析的准确性】
    SynGCN这部分主要分析给定句子的语法结构(句法结构)。这里可以看到,我们首先以训练好的词向量的形式输入一个句子,输入依存解析器,以依存概率矩阵的形式输出。通过句法编码的邻接矩阵,可以利用GCN的基本框架聚合得到句法表征Hsyn。
    核心思想是:相对于依赖分析器的最终离散输出,依赖概率矩阵可以通过提供所有潜在的句法结构来捕获丰富的结构信息。

  2. SemGCN【语法不标准的句子如何解析】
    为学习与句法信息不同的隐藏信息,文章还构建了基于语义信息的模型,通过自注意力矩阵对初始化的隐藏向量H进行加权从而得到语义表征Hsem。

  3. BiAffine Module 【连接两个模块】
    得到上述两个GCN输出的表征后,文章采用双向映射的方法,将synGCN向量投影到SemGcn空间,SemGcn投影到synGcn空间,交叉引用,递归收敛。
    【论文阅读】【基于方面的情感分析】 Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis_第2张图片

    而后,将两类表征进行拼接,得到最终的方面表征向量r:
    【论文阅读】【基于方面的情感分析】 Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis_第3张图片
    f(·)是平均池函数。

  4. 正交正则化【约束所有单词的注意力分数向量之间为正交关系】
    在这里插入图片描述

    这个公式就是希望Asem(SemGCN模块的注意力矩阵)正交。

  5. 差异正则化【约束SynGCN和SemGCN的邻接矩阵尽可能不同】
    在这里插入图片描述

    这个公式其实就是希望两个向量空间也是正交的。

  6. 损失函数
    得到上述概率分布后,可以构建子损失函数为:
    在这里插入图片描述
    其中D包含所有句子-方面对,C是不同情感极性的集合。而最终的损失函数由多个部分构成:其中第二项和第三项分别是正交正则化和差异正则化,第四项则是模型中出现的所有参数。

三、该方法是如何提出的,是开创性的方法还是对已有方法进行的改进,创新点是什么?

参考的模型

  • ①SynGCN:使用的依赖解析模型:LAL-Parser (Mrini等人,2019);
  • ②SemGCN:自我注意机制:(V aswani et al., 2017);

创新点:

  • ①提出DualGCN这个双图模型,同时考虑了给定句子中的句法结构和语义关联。通过一个相互的BiAffine模块集成了SynGCN和SemGCN网络(mutual BiAffifine transformation)。
  • ②提出正交和微分正则化,并在损失函数中两个正则化得以通用。

四、该论文展示的结果如何?使用的是什么数据集?

使用的数据集:
【论文阅读】【基于方面的情感分析】 Dual Graph Convolutional Networks for Aspect-based Sentiment Analysis_第4张图片

实验指标
以准确性和宏观平均f1得分作为主要评价指标

实验结果
①不同模型在同一数据集上的表现:

  • DualGCN模型在三个数据集上一贯优于所有基于注意力和基于语法的方法。
  • 在BERT的基础上,DualGCN+BERT模型具有更好的性能(但是其实不比BERT强多少,这是一个普遍的结论)。

②消融实验结果

  • 研究的是模型中各个模块起到的作用,结论是两个正则化器能使DualGCN更准确地捕捉语义关联。

五、该论文是否提出还有需要改进的地方,即future work?

六、该论文的实际应用点在于什么?

①该论文是提出一个优秀的解决ABSA问题的模型,本质即使用模型解决一个三分类问题。
②第一个创新点:使用一个相互的BiAffine模块集成了SynGCN和SemGCN网络(mutual BiAffifine transformation),这一点可以应用于许多语法和语义相结合的模型中。
③第二个创新点:两个正则化,这两个正则化各自的目的——每个单词的相关项应当分布在语句中的不同区域,即注意力分数分布很少重叠和鼓励语义信息与语法信息不同,这可以在自然语言处理中给我们启示。

你可能感兴趣的:(论文阅读,深度学习,自然语言处理,神经网络)