为了提高自动语义特征选择的中文短文本分类性能,提出了结合词级和字级选择性注意的混合注意网络(HANs)。该模型首先应用RNN和CNN提取文本的语义特征。然后从词级和字符级特征中捕获类相关的注意表示。最后,所有的特征被连接到输出层进行分类。在32类和5类数据集上的实验结果表明,我们的模型不仅结合了文本的词和字符级别特征,而且通过注意机制结合了类相关的语义特征,在多个基线上都有较好的表现。
关键词: 中文短文本,文本分类,注意力机制,卷积神经网络,循环神经网络。
短文本分类在自然语言处理中起着重要作用。它具有广泛的应用,包括短信垃圾邮件过滤、情感分析和问答等。任务可以定义如下:给定一组输入文本T和一组类(或标签)L,目标是找到一些合适的方法来分配一个L中的值给T中的每个文本。许多用于短文本分类的方法被提出,如朴素贝叶斯(NB)、支持向量机(SVM)与NB SVM特性(NBSVM),潜在狄利克雷分配(LDA)。近年来,人工神经网络(ann)也显示出了很有前途的结果,包括卷积神经网络(CNNs)[7,8]、递归神经网络(RecNNs)[15]、循环神经网络(RNNs)[12]以及其他变种[9]。
然而,上述方法主要是针对西方语言(如英语)的数据集开发的。在英文文本中,两个单词之间有空格。而汉语单词是挨着写的,之间没有分隔符,我们首先要对汉语短文本进行分词。此外,由汉语分词引起的错误会传播到后续任务中,从而降低任务的性能。
从语义分析的角度来看,单词和字符对短文本分类具有重要意义。也就是说,几个单词或字符可以决定一个短文本的类别。近年来,注意机制在神经机器翻译[1]和文档分类[17]等许多自然语言处理任务上取得了成功,受此启发,我们探索了一种基于注意神经网络的端到端方法来定位中文短文本分类的关键词和字符。
本文的主要贡献是提出了一种新的神经结构——混合注意网络(HANs),旨在为中文短文本的分类决策提供两种见解。首先,由于中文短文本是由单词或字符组成的,我们分别对每个包含单词和字符的句子建立基于RNN和CNN的表示,然后将它们连接成一个句子表示。其次,我们可以观察到,每个句子类别通常都有一组显著的字符和单词。此外,同一个词或字在不同的句子中可能有不同的重要性。
考虑这种敏感性,我们的模型引入了两个上下文的注意力机制,也就是说,字符级和单词级的注意力,这是用来在构建句子的字符级和单词级表示时对于不同的字符或单词赋予或多或少的注意力,然后连接这两个级别的注意力模型到句子的一个注意力表示。实验结果表明,在一个32类和两个5类数据集上,我们的模型优于多个基线。
一般来说,短文本只包含几到几十个单词(例如,手机短信的长度限制在140个字符),它不能提供足够的单词共现,而这对于普通文档的学习方法非常重要。传统的分类方法,往往依靠词频或足够多的词共现来进行分类,如朴素贝叶斯(Naive Bayes, NB)、最大熵(Maximum Entropy, ME)、K近邻(K Nearest neighbour, KNN)和支持向量机(Support Vector Machines, SVMs)等,往往无法获得满意的性能。因此出现了一些改进的短文本分类方法,如短文本分类[16]的语义分析、半监督模型和集成模型。
Zelikovitz等[18]应用潜在语义索引语义分析(LSI)对短文本进行分类。Chen等人[3]提出了一种融合多粒度主题的解决方案,可以更精确地对短文本的语义进行建模。Cabrera等人[2]提出了一种半监督短文本分类方法——分布词表示(distributed Term representation, DTRs),该方法基于上下文信息丰富了文档表示,在一定程度上克服了短长度高稀疏的短文本。
该模型由四个部分组成:嵌入层、注意层、表示层和分类层。混合注意网络(HANs)的总体架构如图1所示。我们对模型的详细描述如下。
在本研究中,我们分别使用RNN和CNN学中文字符和单词序列的中文短文本表示
我们使用LSTM或BiLSTM来分别学习每个字符和单词的嵌入表示。
一个标准的CNN通常由几个卷积层和池化层组成。在这项工作中,我们设计了一个包含单个卷积层和一个基于注意的池化层的CNN模型。
注意力的想法是受到这样一种观察的启发,即并非所有的单词或字符对句子意义的表达都有同样的作用。当阅读一个句子时,人们通常能粗略地直觉出句子的哪个部分(比如几个单词或字符)更重要。在我们的模型中,我们从词级和字级注意两个层次利用注意机制来实现这一思想。
我们设计了一个词级注意机制来关注与句子意义有更密切语义关系的词。将词级注意结构应用于LSTM/BLSTM和CNN的特征表示。这些表示被连接在一起作为注意层的输出。
基于注意力的LSTM/BiLSTM
基于注意力的CNN
引入词级注意机制提取中文短文本中的显著词。同时,我们利用字符级注意来捕捉信息字符。对于输入文本,我们的模型首先用字符嵌入向量对其进行编码,然后将输出同时传输到LSTM/BLSTM和CNN层。接下来,我们的模型分别计算LSTM/BLSTM层和CNN层输出的注意表示,过程与词级注意相同。最后,我们的模型产生了新的表示 S γ S_γ Sγ(即基于注意的LSTM/BLSTM的输以注意力为基础的CNN的输出)。
对于基于BLSTM的表示,我们将基于词级和字符级注意力的BLSTM的输出连接,得到注意力表示 S b S_b Sb。对于基于CNN的表示,我们也将基于词级和字符级注意力的CNN的输出连接,得到注意表示 S c S_c Sc。如下:
S b = [ S α , S γ ] S_b=[S_α,S_γ] Sb=[Sα,Sγ]
S c = [ C β , C δ ] S_c=[C_β,C_δ] Sc=[Cβ,Cδ]
除了隐藏状态,LSTM/BLSTM层还产生最后一次时间步的输出。因此,我们将词级和字符级LSTM/BLSTM的最后两个输出 S w S_w Sw, S c S_c Sc连接起来,
得到新的输出:
S d = [ S w , S c ] S_d= [S_w,S_c] Sd=[Sw,Sc]
最后我们的模型输出最终的句子向量:
S = [ S d ⊕ S b ⊕ S c ] . S = [S_d⊕ S_b⊕ S_c]. S=[Sd⊕Sb⊕Sc].
先将之前的输出经过一个线性变换再输入到softmax层
在三个中文数据集上进行试验。
CNN
RNN
R-CNN
FastText
C-LSTMs/BLSTMs
表3显示了我们的模型与基线的详细比较。从第1行到第6行,CNN-word和RNN-word的性能分别优于CNN-char和RNN-char。这些结果表明,单词嵌入比字符嵌入更有效,LSTM和BLSTM的RNN模型也比CNN模型更有效。第11行和第12行结果表明,将单词和字符嵌入结合起来可以进一步提高性能。非关注网络C-LSTMs/BLSTMs的性能已经优于其他基线。如果我们添加关注机制,那么在所有数据集上的性能将比所有基准方法得到更好的改善。
在图1中,我们的模型连接了词级和字符级LSTM/BLSTM层的输出,这相当于C-LSTMs/BLSTMs模型。从第11行和第12行可以看出,C-LSTMs/BLSTMs模型在三个数据集上分别取得了不同的结果。对于每个数据集,我们选择性能最好的LSTM或BLSTM模型,这是我们模型的基础。也就是说,对于非注意表示,我们的模型将LSTM的词级和字符级输出连接到新闻标题的数据集上,将BLSTM的输出连接到豆瓣影评和微博谣言的数据集上。
这些实验结果与注意机制有效性的研究结果一致。对于汉语短文本,我们从词和字两个层次探讨了注意神经网络。实验结果表明,该模型对中文短文本的表示是有效的,并获得了较好的分类性能。
第14 - 17行实验结果表明,HANs-BLSTM优于HANsLSTM, HANs-BLSTM+CNN也优于HANs-LSTM+CNN。这些对比表明,基于blstm的注意比基于lstm的注意更有效。这是因为基于blstm的注意比基于lstm的注意能从两个方向捕获更多的语义信息。在图2中,我们的模型首先分别计算前向LSTM层和后向LSTM层的注意表示,然后将两种输出相加,生成输入短文本的表示。因此,从两个方向的注意表征的增加,就可以挑选出有信息的文字和词语。
对于电影评论和微博谣言,第16排和第17排暗示,增加基于cnn的关注并没有帮助,甚至可能会降低表现。这可能是因为在上述两个数据集中,每个中文短文本的语义都是由几个离散的单词或字符决定的,这些突出的单词或字符之间的距离较长,而CNN只能捕捉到卷积窗口范围内的语义。
在所有基线中,C-LSTMs/BLSTMs模型相对而言几乎取得了最好的结果。然而,与所有基线的最佳结果相比,我们的HANs-BLSTM (+CNN)模型在三个数据集上的f1得分分别提高了1.0%、1.5%和1.9%
本文提出了一种用于中文短文本分类的混合注意网络(HANs),该网络将重要的中文字符和单词分别聚合成句子向量,并将它们合并成一个表示向量。实验结果表明,我们的模型在两种典型的中文短文本(即规则短文本和用户生成短文本)上都优于所有的基线。结果表明,该模型能够有效地从中文短文本中选择信息语义单元。在未来,我们打算在更长的文档表示中探索我们的模型。