这里的模型结构与论文1《EMNLP2019-Aspect-based Sentiment Classification with Aspect-specific Graph》的模型结构类似,不同的是去除了Attention机制,加入了平均池化。(相关模型结构在论文1中进行了详细的阐述,有兴趣的可以看一下:论文1)
1.CDT始于一个双向长短期记忆网络(LSTM)层,用于捕获关于词序的上下文信息。
2.为了获得特定于方面的特征,在LSTM输出之上实现了多层GCN结构。
3.随后是仅对方面向量(可以理解为上述论文的Mask机制之后进行平均池化)进行平均池化,然后用于预测基于方面的情感。
(CDT通过仅聚集方面向量来提取ABSA分类任务的最终表示。我们认为这就足够了,因为GCN复合体可以被解释为一个沿着边缘传播信息的消息传递网络。因此,连续的GCN操作允许信息在网络上传播,所以用来自观点词的信息对方面向量进行编码,这对于监督来说应该是足够的。具体来说,BiLSTM允许任意一个句子的方面词被语境化,而GCN发现了方面词汇在句法依存树中的局部位置,依存关系树中的本地位置编码单词相对于其邻居的具有依存关系信息,因此,Bi-LSTM和GCN允许方面词的嵌入具有区别特征,为分类任务提供监督信息。)
(1)对于一个句子S={W1,W2,Wa1,Wa2,W5}经过词嵌入(Glove),加入词性嵌入和位置嵌入整合后作为Bi-LSTM的输入,其中Wa1,Wa2是方面词汇
(2)经过Bi-LSTM后输出为H0=,作为GCN层的输入
(1)根据句子构建依赖树,根据依赖树构建邻接矩阵A(此处的依赖树是有向图,有自循环)
(2)来自LSTM的输出H0作为GCN的输入,经过多层之后得到Hk,其公式计算如下:
选取HK中的方面向量(仅选取方面向量对非方面向量进行Mask)进行平均池化:
注:本文选择仅聚合方面向量,因为我们相信这些向量分别由于BiLSTM和GCN而编码上下文和依赖性信息。
最小化的目标函数是交叉熵误差,定义如下:
其中,s为一个句子,a为s的方面词汇。
四种数据集:TWITTER,LAP14,REST14,REST16,与论文1相比少了REST15
(1)使用Glove进行词嵌入(300维),30维词性嵌入(POS),30维位置嵌入(其用于识别每个单词相对于句子中的方面的相对位置) ,对这三个维度进行整合为50维作为Bi-LSTM的输入。
(2)Adam优化器
(3)学习率0.001
(4)GCN每层去掉10%的神经元,在输入层去掉0.7,GCN训练100个周期,批量为32
(1)CNN+Position ,LSTM+Position (加入位置信息),CNN+ATT (加入attention机制) (这些模型通过使用平均池聚集所有学习到的嵌入来提取最终嵌入)
(2)TNet (Li et al., 2018a)
(3)PRET+MULT (He et al., 2018b)
(4)SA-LSTM-P (Wang and Lu, 2018)
(5)LSTM+SynATT+TarRep (He et al., 2018a)
(6)MGAN (Fan et al., 2018b)
(7)MGAN (Li et al., 2018b)
(8)HSCN (Li et al., 2018b)
(9)ASP-BiLSTM(模型的受限版本,只利用BiLSTM来对特定方面表达式的上下文信息进行建模,只捕获上下文信息)
(10)ASP-GCN(模型的受限版本,利用GCN来对单词之间的依赖关系进行建模,只捕获依赖信息,这两种模型都在方面向量上提取最终的嵌入)
(11)CDT
1.特定方面屏蔽对模型表现来说很重要
2.GCN层数为2时,CDT模型表现较好
3.实验发现BiLSTM可以在特定方面的上下文中识别意见词。然而,在一些复杂的环境中,它可能表现不佳。但是GCN可以在Bi-LSTM的基础上,通过利用单词之间的相关性来关注正确的观点单词。
4.基于方面的情感分类的建模表示通常需要捕获表示在目标方面推断的情感的信息词。基于BiLSTM的模型已经成功地在以前的工作中捕获了上下文信息。在本文中,我们将GCN模型与一个简单的BiLSTM模型相结合,旨在捕捉句子的结构和语境信息。我们已经展示了GCN成功地在依赖树上执行卷积来改进BiLSTM嵌入。可视化的实验结果支持我们关于仅基于方面向量提取最终嵌入的论点。事实上,我们提出的模型很简单,并且优于解决相同问题的更复杂和最新的模型。