词向量与词向量拼接_中文字词向量和方面词向量联合嵌入情感分析方法与流程...

本发明涉及一种中文字词向量和方面词向量联合嵌入CNN-LSTM情感分析方法。

背景技术:

近年来,越来越多的用户习惯在网络上发自己对某一事物的看法与评论。如何快速,准确地从互联网海量评论信息中分析所包含的用户情感已经成为当前信息科学与技术领域研究的热点。用户评论情感分析中最基本的任务是对用户的情感倾向进行分类,其中包括二元情感分类和多元情感分类。

在自然语言处理领域,深度学习方法首先将文本转化为一组向量序列表示,然后将该向量序列输入神经网络模型提取特征,最后将特征输入分类器进行情感分类。当前大部分的词向量模型针对一个单词只能生成一个向量,由于单词的多义性,使用同一个向量表达不同语境下的同一个单词是不准确的。对于神经网络训练手段,基于卷积神经网络的特征提取方法使用一个滑动窗口来提取输入的局部特征,并通过池化技术将这些局部特征组合起来;而基于循环神经网络的LSTM神经网络的特征提取方法将输入编码为一个定长的特征,可以有选择地保存和遗忘信息来存储文本中的重要的信息。

然而,近年来随着深度学习技术发展而产生的基于深度神经网络的方法大多停留在使用单一网络或网络的简单变体的阶段,采用复杂结构进行长文本情感倾向性分析的研究相对较少。

技术实现要素:

本发明的目的是:将卷积神经网络和LSTM网络组合,并且改变以往词向量嵌入模型,有效改善情感分析判断的准确度。

为了达到上述目的,本发明的技术方案是提供了一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,包括如下步骤:

步骤一、载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集;

步骤二、利用jieba分词工具对训练集和测试集分别进行分词处理;

步骤三、利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示,即得到字词向量联合嵌入表示;

步骤四、利用LDA模型对主题aspects进行建模,提取商品评论中的方面词,并且线性的将方面词与词向量结合,得到词向量和方面词联合嵌入表示;

步骤五、将步骤三中得到的字词向量联合嵌入表示输入到卷积神经网络一提取出不同维度的特征,然后经过池化操作得到字词向量联合嵌入表示的低维特征向量;

步骤六、将步骤四中得到的词向量和方面词联合嵌入表示输入到卷积神经网络二提取出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入表示的低维特征向量;

步骤七、将步骤五得到的低维特征向量和步骤六得到的低维特征向量组合加权,即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模,得到拼接建模向量;

步骤八、利用LSTM神经网络,将步骤七得到的字词向量和方面词向量的拼接建模向量输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状态H;

步骤九、LSTM输出的隐层表示与主题aspects向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文本需要关注的部分,分别得到句子向量的概率分布;

步骤十、最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。

优选地,步骤三中,在进行词向量训练的时候,将词语中把组成词语的汉字单独抽取出来和词语一起进行训练,使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思具有一定的表征作用。

本发明主要是利用两种新型的向量嵌入,分别是:(1)字词向量联合嵌入表示,(2)词向量和方面词联合嵌入表示。并且将二者同时输入卷积神经网络获取主要特征向量,利用LSTM的时序记忆功能对文本特征进行排序,并且添加基于方面词的注意力机制进一步提高情感分类的准确率。属于自然语言处理与人工智能交叉领域。

附图说明

图1为本发明实施的流程算法;

图2为本发明实施深度神经网络模型。

具体实施方式

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种中文字词向量和方面词向量联合嵌入情感分析方法包括如下步骤:

步骤一:载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试集。

步骤二:利用jieba分词工具对训练集和测试集分别进行分词处理。

步骤三:利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉字的初始化字向量表示,即得到字词向量联合嵌入表示。在进行词向量训练的时候,讲词语中把组成词语的汉字单独抽取出来,和词语一起进行训练。这样就使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思具有一定的表征作用。

步骤四:利用LDA模型对主题(aspects)进行建模,提取商品评论中的方面词,并且线性的将方面词与词向量结合,得到词向量和方面词联合嵌入表示。应用主题模型算法(LDA)抽取评论分布的主题特征,得到主题特征,即此时需要的方面词。并将方面词和评论中的词向量线性组合,一起输入神经网络训练,这样方面词可能提高此时评论内容主题情感判断的准确度。

步骤五:将步骤三中得到的字词向量联合嵌入输入到卷积神经网络提取出不同维度的特征,然后经过池化操作得到字词向量联合嵌入低维特征向量。采用卷积神经网络通过不同的滤波操作得到特征信息,通过权值共享和最大池化操作,可以将这些复杂的特征信息充分的提取出来,也可以为接下来情感分类步骤有效的减少计算量。

步骤六:将步骤四中得到的词向量和方面词联合嵌入输入到卷积神经网络提取出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入低维特征向量。采用卷积神经网络通过不同的滤波操作得到特征信息,通过权值共享和最大池化操作,可以将这些复杂的特征信息充分的提取出来。此时方面词信息作为最大的特征信息,已经有效的通过卷积神经网络提取出来,为接下来步骤中融入attention机制铺垫,有效的提升情感极性分类的准确度。

步骤七:将步骤五得到的字词向量联合嵌入低维特征向量和步骤六得到的词向量和方面词联合嵌入低维特征向量组合加权。即分别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模。建模完成后作为输入层输入到LSTM神经网络中。

步骤八:利用LSTM神经网络,将步骤七得到的字词向量和方面词向量进行拼接建模向量输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状态H。标准的LSTM无法检测句子每个部分的重要程度,通过加入attention机制,可以捕捉句子的关键部分。

LSTM是循环神经网络的一种,是一种具有链状结构的特殊的循环神经网络,和普通的循环神经网络相比,LSTM的重复循环模块具有不同的结构,主要有四层神经网络组成,网络层之间的交互是复杂的。LSTM网络的核心是由每个传输单元的状态决定。LSTM的另一个优势就是可以对单元状态中信息的传输进行控制,并通过门限结构管理信息,门限的作用就是对信息进行选择,使其有选择性地通过。阈值的组成主要有sigmoid神经网络层和逐点乘法组成。输出表示信息传递的选择程度,0表示不允许任何信息通过,1表示都可以通过。LSTM一共有三个门限,分别为:输入门、遗忘门和输出门。通过这三种门限结构对单元状态进行控制和保护。

步骤九:LSTM输出的隐层表示与aspect向量拼接后作为输入,经过一层神经网络得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文本需要关注的部分,分别得到句向量的概率分布。

步骤十:最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。

你可能感兴趣的:(词向量与词向量拼接)