【2021】基于多通道CNN与多头注意力机制的短文本情感分析

文章目录

  • 摘要
  • 引言
  • 相关工作
    • *A情感分析*
  • 情感分析模型
    • 特征构建
    • 多通道卷积神经网络
    • 多头注意力层
    • 情感分类输出层
  • 实验
    • 数据集
    • 数据预处理和模型参数
    • 比较模型
    • MCNN-MA模型分析
  • 结论和未来工作

Short Text Sentiment Analysis Based on Multi-Channel CNN With Multi-Head Attention Mechanism

摘要

由于短文本的文本特征有限,需要从多个角度挖掘短文本的特征,利用多种情感特征组合来学习隐藏的情感信息。提出了一种基于多通道卷积神经网络与多头注意机制的情感分析模型。该模型将单词特征与部分词性特征、位置特征和依赖语法特征分别组合成三个新的组合特征,输入到多通道卷积神经网络中,并集成了多头注意机制,以更充分地学习文本中的情感信息。最后,在两个中文短文本数据集上进行了实验。实验结果表明,与其他基准模型相比,MCNN-MA模型具有较高的分类精度和较低的训练时间成本。
关键词:情感分析,短文本,多通道,卷积神经网络,多头注意机制。

引言

文本情感分析是对具有情感色彩的主观文本[1]进行分析、加工、总结和判断的过程。它旨在挖掘文本信息中的情感极性,是近年来自然语言处理领域的一个热点问题。随着社交网络的蓬勃发展,越来越多的用户以短文的形式在互联网上表达自己的观点。微博、电商买家评论和当前新闻评论是主要的软文本。对主观短文本进行情感分类的过程称为短文本情感分析。
短文本情感分析是文本情感分析的一种。目前,深度学习技术广泛应用于文本情感分析任务。Kim[2]将卷积神经网络(CNN)应用于短文本建模和句子级别的文本情感分析任务。Kalchbrenner等人[3]提出了动态卷积网络,介绍广义卷积和k-Max Pooling的概念。Chen等人[4]提出了结合单词情感特征的卷积神经网络(Convolutional Neural Network, WFCNN)。Conneau等人[5]提出了深度卷积神经网络(Deep Convolutional Neural Network, VDCNN),该网络将多个卷积层级联。级联深度越大,模型的性能越好。Wang等人将长短期记忆网络(Long - short Memory Network, LSTM)应用于推特情感分析任务。上述深度学习方法避免了人工提取特征的繁琐过程,可以获得比传统分类器更好的分类性能。然而,上述方法仅考虑文本中的单一特征。考虑到基于短文本的文本特征是有限的,在短文本情感分析中,我们应该尝试挖掘出文本各个角度的特征,并使用多种情感特征组合来学习隐藏在短文本中的情感信息来完成情感分析任务。
针对上述问题,本文提出了基于多通道卷积和多头注意力机制的文本情感分析方法来解决短文本情感分析问题。该方法首先对文本中的单词进行词性标注,并将词性标注映射到多维连续值向量,从而将单词的词性特征添加到模型中。由于单词的位置影响句子的语义表达,将每个单词的位置值映射为一个位置特征向量;句子结构和单词之间的依赖关系包含了隐藏的情感信息,因此对文本进行依赖句法分析,并对每个单词对应的依赖句法特征向量进行分析。这样,该模型可以在训练过程中从多个角度学习文本的情感特征信息,并获得更准确的分类效果。其次,将词向量分别与词性特征向量、位置特征向量和依赖句法特征向量相结合,生成三个输入通道,并利用多通道卷积神经网络学习句子中的情感特征信息。同时,在模型中引入了多注意力机制,从多个子空间中学习到更丰富的情感信息,进一步提高了情感分类的准确性。
本文的模型结构是在Li和Qi[7]工作的基础上的改进。李的工作提出使用一个多通道双向长、短期记忆网络来完成文本情感分析。基于李的多通道思想,本文模型采用多通道卷积神经网络和多头注意机制完成文本情感分析。与Li提出的模型相比,本文模型保证了情感分类的准确性,大大优化了模型的训练时间。
本文提出的模型和八个比较模型之间的对比实验在两个中文数据集上完成,中国酒店评论Tan Songbo编纂的数据集和淘宝中国审查数据集。实验结果表明,本文提出的模型MCNNMA取得更好的分类结果的比较模型的两个中国获得的数据集和训练时间相对较低。
本文的主要贡献如下:

  • 提出了一种结合特征形成不同特征通道的MCNN-MA模型,并利用多通道卷积神经网络从不同角度学习情感特征。与lstm相关模型相比,该模型大大减少了模型的训练时间。
  • 引入了多头注意机制。多头注意机制可以通过多重线性变换从不同维度和不同表征子空间中学习相关信息,提高情感分类的准确性。
  • 在两个中文数据集上验证了MCNN-MA模型的有效性。

相关工作

A情感分析

目前,针对文本情感分析的研究方法有三种:基于情感词典的方法、基于传统机器学习的方法和基于深度学习的方法。
基于情感词典的方法[8]分配一个极性分数每个单词在字典里人气字典建立之后,然后匹配的单词在句子中的字典来获取相应的极性分数,和finallyaggregatesthepolarityscoresofall词(如平均)最后文本的情感极性。这种方法依赖于情感词典和人工规则,具有普遍的效果。[10]方法基于传统机器学习[9],[10]需要人工标记数据和人工设计特征。在提取文本情感特征的过程后,机器学习模型中的代表性分类器(如朴素贝叶斯、最大熵、支持向量机等)完成情感分类,其中代表性是Pang等人[11]、[12]的工作。这种方法的缺点是需要依赖复杂的特征工程,泛化能力较弱。

情感分析模型

为了充分利用文本情感分析任务中特有的情感资源信息,本文提取了四种特征:单词特征、部分词性特征、位置特征和依赖句法特征。单词特征分别与其他三种特征组合,形成三种新的组合特征,输入到多通道卷积神经网络中。然后,从不同的通道提取特征,并输入到多级注意层。最后通过情感分类层得到情感分类结果。该模型的总体框架如图1所示。
【2021】基于多通道CNN与多头注意力机制的短文本情感分析_第1张图片

特征构建

1)词特征
句子中的单词是重要的情感特征信息的载体,所以在文本分类任务中,句子是以单词为单位来表示的,句子s被认为是由n个单词组成的词序列。句子中的每个单词都映射到一个多维连续值向量。假设 ω i ∈ R m ω_i∈ R^m ωiRm是句子中与第i个单词相关的词向量,m是词向量的维度。
将n个词向量拼接得到长度为n的句子对应的词向量矩阵W,如式(1)所示。⊕为向量拼接运算。
W = ω 1 ⊕ ω 2 ⊕ ⋅ ⋅ ⋅ ⊕ ω n W = ω_1⊕ ω_2⊕ · · · ⊕ ω_n W=ω1ω2ωn    (1)
2)部分词性特征
本文使用Hownet1情感词集对句子中的特殊词进行标记,如表1所示。每个特殊词的词性标签部分代表了重要的情感特征信息,在情感分类中起着关键作用。
通过矢量化操作,将标注的词性映射为一个多维连续值向量 t a g i tag_i tagi t a g i tag_i tagi是滴i个单词的词性特征向量, t a g i ∈ R l tag_i∈R^l tagiRl,l是词性特征向量的维数。通过对n个词的词性向量进行连接,得到一个长度为n的句子对应的词性特征向量矩阵T。
T = t a g 1 ⊕ t a g 2 ⊕ ⋅ ⋅ ⋅ ⊕ t a g n T = tag_1⊕tag_2⊕···⊕tag_n T=tag1tag2tagn     (2)
3)位置特征
出现在不同位置的词可能表达不同的情感信息,因此词的位置对情感分类也很重要。在这里,带有词性标记的词被认为是特殊词,否则它们就不是特殊词。每个单词的位置值如公式(3)所示:
【2021】基于多通道CNN与多头注意力机制的短文本情感分析_第2张图片
其中, l o c i loc_i loci是句子s中第i个单词的位置值,i是句子s中单词的位置,L是输入句子的最大长度。通过向量化操作,将每个位置值 l o c i loc_i loci映射为一个多维连续值向量 p o s i t i o n i position_i positioni p o s i t i o n i position_i positioni是第i个单词的位置特征向量。 p o s i t i o n i ∈ R d position_i∈R^d positioniRd, d为位置特征向量的维数。将n个单词的位置特征向量连接起来,可以得到长度为n的句子对应的位置特征向量矩阵,如式所示
P = position1⊕ position2⊕ · · · ⊕ positionn
4)依赖语法特征
依赖句法分析的目的是通过分析句法结构,标记句子中单词之间的依赖关系,在更大程度上学习文本中已有的语言知识和隐藏的情感信息。在进行依赖句法分析时,首先要对句子进行句法分析,并对句中不同单词间的依赖关系进行标记。最后将句子中每个单词的句法特征标记映射为多维连续值向量 p s i ps_i psi p s i ps_i psi是句子s中第i个单词的依赖句法特征向量。将n个单词的依赖语法特征向量连接起来,可以得到长度为n的句子对应的依赖语法特征向量矩阵Ps,如式(5)所示
P s = p s 1 ⊕ p s 2 ⊕ ⋅ ⋅ ⋅ ⊕ p s n P_s = p_s1⊕ ps2⊕ · · · ⊕ psn Ps=ps1ps2psn

多通道卷积神经网络

n为了更完整地学习文本中包含的情感信息,本文依次将词向量矩阵和部分语音特征向量矩阵、位置特征向量矩阵、依赖语法特征向量矩阵连接成三个新的特征矩阵。将这三个新的特征矩阵作为多通道卷积神经网络的三个通道的输入
【2021】基于多通道CNN与多头注意力机制的短文本情感分析_第3张图片
矩阵中的每一行对应一个输入向量,每个输入向量是一个组合特征向量。三个通道的输入向量的维数是依次是m+l,m+d,m+t
2) 卷积层
卷积神经网络(CNN)可以有效地提取局部化的结构信息。本文利用不同通道上的多个窗口和多个卷积核进行卷积运算,提取更丰富的特征信息。
3)池化层
本文采用最大池化方法对特征映射c进行下采样,对整个句子进行特定的卷积核后,提取出最显著的情感特征,
4)连接层

多头注意力层

传统的注意机制局限于从单一层次获取注意信息。多头注意机制对输入特征矩阵进行多重线性变换,学习文本在不同线性变换下的注意表示,从而获得更全面的情感信息。与传统注意机制相比,多头注意机制具有显著的优势。

情感分类输出层

实验

数据集

本文利用两个数据集来验证所提模型MCNN-MA的性能。一个是谭松波的中国酒店评论数据集,由国内学者谭松波从携程网自动收集整理。另一个数据集是淘宝中文评论数据集,它是从淘宝网站上抓取的,包含了不同领域的评论。两个数据集中每个数据样本的情感极性分为正面和负面。两个数据集都是不平衡的数据集。谭松波的中国酒店评论数据集包含1万条酒店评论,包括7000条正面评论和3000条负面评论。淘宝中文评论数据集包含18,875条买家对所购商品的评论,其中9,549条正面评论,9,326条负面评论。两组数据的统计结果如表2所示。
【2021】基于多通道CNN与多头注意力机制的短文本情感分析_第4张图片

数据预处理和模型参数

本文使用LTP tool2哈尔滨工业大学的语言技术平台进行分词、词性标注和依赖语法分析中国在两个数据集,并使用的停止词列表哈尔滨工业大学在数据样本删除停用词。利用Word2V ec在中文维基百科语料库上进行训练,得到词向量和词性特征向量。整个实验过程中,单词向量为300维,词性特征向量为100维,位置特征向量为100维,依赖语法特征向量为100维。采用均匀分布U(−0.05,0.05)对未注册词进行随机初始化。

比较模型

用本文提出的模型和以下8个比较模型在两个不同的中文数据集上进行了实验

MCNN-MA模型分析

结论和未来工作

本文提出了一种结合多通道卷积神经网络和多头注意机制的情感分析模型MCNN-MA。该模型建立情感特征,并结合情感特征形成三通道输入。然后利用多通道卷积神经网络进一步提取情感信息。将不同通道提取的特征串接输入到多注意力层,获得更全面的情感信息。最后通过情感分类层得到情感分类结果。在基于两个中文数据集的对比实验中,MCNN-MA模型获得了比对比模型更高的分类准确率,验证了MCNN-MA模型的有效性。本文模型基于多通道卷积神经网络,与基于LSTM网络的模型相比,其在训练时间上具有明显优势。下一步,我们将考虑改进多头注意机制,尝试其他注意机制,进一步提高模型的性能。

你可能感兴趣的:(短文本分类,自然语言处理)