论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案...

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。


论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案..._第1张图片

链接:https://arxiv.org/abs/1911.01616

 

动机

基于目标的情感分析或基于方面的情感分析(ABSA)是指在细粒度的层次上解决各种情感分析任务,包括但不限于方面提取、方面情感分类和意见提取。上述单个子任务或两个子任务的组合都有许多求解器,但是以前ABSA的研究都没有完整的解决方案。在本文中,我们介绍了ABSA下的一个新子任务,称为方面情感三元组抽取(ASTE),此任务的求解需要从输入中提取三元组(what,how,why),以显示目标方面是什么,其情感极性如何,以及为什么具有这种极性(即观点的原因)。

论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案..._第2张图片

亮点

我们提出了一个两阶段的框架来解决这个任务。第一阶段预测统一模型中的what、how和why,然后第二阶段将预测的what(how)和why配对。在实验中,我们的框架为这项新颖的方面情感三元组抽取任务设定了基准性能,同时它的性能优于一些采用最新技术的强基准。


模型框架

对于给定的句子x,我们的目标是抽取到情感三元组(what,how,why)。我们采用两阶段的训练过程。第一阶段包括2个序列标注子任务,分别用来标注句中的方面、情感提及词和观点词语。第二阶段中我们使用第一阶段标注得到的方面词与观点词配对,使用距离嵌入的方式捕获正确配对的三元组信息。示意图见下图:

两段训练过程

具体模型两段阶段示意图如下:

论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案..._第3张图片

 

第一阶段:我们首先将句子通过BLSTM编码,之后使用BIESO标注句中方面词边界,训练损失为 。如此训练的隐藏层再经过第二层的BLSTM层以及门控机制标注词方面情感极性词(SC),同时使用边界保证模块(BG)保证对应的边界词正确标注,此时得到的标注为 ;同时整合另一条分之中下情感标注词的特征表示,经过线性变换后softmax层后也可以得到标注 。则最终的统一方面词语标注结果为: ,其中为两者的调和系数,训练损失为 。另一分之中对于观点词语抽取我们使用GCN抽取句子结构信息与经过BLSTM抽取的句子信息拼接一起后经过softmax做情感词语标注(TG),此阶段训练损失为。经过GCN后的编码信息再经过一次BLSTM层做情感词序列标注,此阶段损失为 。最终模型训练损失为:

第二阶段:从第一阶段得到的方面词和情感词两两组合可以得到所有的情感方面三元组。我们利用方面词和情感词的绝对距离编码为它们之间的位置相对关系信息。再使用二分类判断当前三元组是否正确。示意图可以见表1。

实验

我们使用SemEval2014数据集,具体实验数据如下表所示:

论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案..._第4张图片

我们分别验证了第一阶段和第二阶段的结果,来证明我们每一阶段设计的有效性。每段实验结果如下图所示。

论文浅尝 - ICLR2020 | 知道什么、如何以及为什么:基于方面的情感分析的近乎完整的解决方案..._第5张图片

总结                        

我们引入情感三元组抽取任务,通过在两个阶段的框架中结合方面提取、方面项情感分类和意见项提取,来回答方面是什么、情感如何以及为什么是这样的感觉。第一阶段通过利用方面和观点术语之间的相互影响,生成具有情感极性和观点术语的候选词语。第二阶段将正确的方面和观点配对。实验验证了我们模型的可行性和有效性,并为此任务设定了基准性能。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

你可能感兴趣的:(深度学习,人工智能,机器学习,自然语言处理,算法)