学习微博中情感分类的句子表达(NLPCC2013)

学习微博中情感分类的句子表达(NLPCC2013) Learning sentence representation for emotion classification on microblogs

文章采用伪标记数据,来通过深度信任网络(DBN)算法学习句子表达。数据是通过微博情感分析中弱监督学习和训练语言模型得到。在监督学习框架上的实验结果表明,使用伪标记数据,深度信任网络学到的表达比基于主成分分析和基于隐性Dirichlet分配的表达要好。引入基于深度信任网络的表达于基本特征,性能进一步提高。
文章中通过情感符号收集的信息叫做伪标记语料。利用伪标记语料学习DBN基本框架中的句子表达。
微博情感分析可以从两个角度来看,依赖于目标的和目标独立的情感分析。文章研究目标独立的情感分类任务。

方法

从伪标记语料学习表达一些步骤是必要的。为了获得伪标记语料,每个类(Happy,Sad,Angry和Surprise)的表情符号需要提前选定。为了减少手工工作同时过滤有歧义的表情符号,基于它们的质量和数量选择有代表性的表情符号。接着预处理和标准化来保证伪标记语料的质量。然后,提出基本特征映射每条信息到相同维数的特征空间。最后采用深度信任网络通过一个非监督,贪心逐层算法学习句子表达。

  • 表情符号的选择
    为了保证自动标记的质量,不是所有的表情符号都保留,有歧义的需要过滤掉。因此,基于质量和数量的表情符号自动排序策略很重要。受参考文献的启发,每个表情类中的每个表情符号的重要性为: Si(ej)=Acci(ej)log10(freq(ej)) (1) Acci(ej)=kco_freq(ej,swik)kIco_freq(ej,swIk) (2) 。(1)式中第一个乘子对应质量因子,第二个乘子指示数量因子。第二个乘子中的 freq(ej) 代表语料中表情符号 ej 的频度。(2)式中, co_freq(ej,swik 代表表情符号 ej 和第i个表情符号类中第k个情感词 swik 在语料中的共现。最后通过计算结果,每个情感类排在前面的表情符号被选定。
  • 伪标记语料收集
    为了产生高质量数据,预处理:
    -移除信息的转帖部分来保持用户编辑的纯源内容。
    -代替正式的元数据为对应的标准格式。代替@XXX为REF,#标签#为TAG。
    -基于最长共同子序列(LCS)移除重复的信息。
    -移除长度小于10的信息。
    预处理之后,只包含一种表情符号的信息将被收集作为伪标记信息。也就是说包含不同情感类表情符号的信息不收集。接着,通过参考文献中的语言技术平台实现分词。
  • 基本特征
    受参考文献的启发,文章使用的基本特征为:
    -词一元特征。为了控制特征空间的维数,考虑在伪训练数据中最频繁的2000词。
    -标点特征。手动选择可以反映情感的标点序列,如:!!!,…和???。这些标点特征根据是否出现在信息中作为二值特征使用。
    -情感词典特征。为了映射信息中的情感词为预定义的情感类,引入外部词典。给定一条信息,词典用于判断每个情感类中的词是否存在于信息中,对应的特征作为二值特征。
    -拟声词特征。手动建立拟声词词典(OL)。拟声词特征是二值的,根据给定信息中是否存在拟声词。
    -功能词特征。功能词大多数是动词。手动收集功能词词典。同样是二值的。
    抽取完基本特征后,每条信息映射为相同维的特征空间,将作为可见节点的输入来学习句子表达。
  • 情感分类的表达学习
    DBN模型由3层组成,3层中的每一层代表限制玻尔兹曼机(RBM),DBN的训练过程是逐层贪心、非监督的,直观目的是重构。思想是一次训练一层,从低层开始,当前添加层的训练目标是重构之前的层。
    提出限制玻尔兹曼机建模集成二值向量为二层网络。底层中观察到的信息的基本特征对应层v的可见单元,隐式特征对应层h的隐藏单元。共同配置(v,h)的能量: E(v,h)=iinputsbivijfeaturesbjhji,jvihjwij (3) vi hj 是可见层的第i个节点和隐藏层的第j个节点, bi bj 分别为它们的偏差, wij 是它们之间的权重。
    在训练过程中,每个RBM在它的输入向量执行一个非线性转换,输出向量是下一层的输入。sigmod函数用于计算每个节点是开启的概率。随机激活隐藏单元后,虚构向量产生。隐藏单元的状态通过虚构向量更新, wij=ϵ(<vihj>data<vihj>recon) (4) ϵ 是学习速率, <vihj>data 是v中第i个节点和h中第j个节点在一起的概率, <vihj>recon 是重构阶段对应的概率。

实验

  • 数据集
    用微博API收集从2009年9月到2010年9月的120万中文信息。随机选择100万信息来获得伪标记语料。移除重复信息后,获得2万表情符号数据作为伪标记数据,每类表情5000条信息。随机选取同样数量的没有表情符号的信息作为未标记数据。
  • 词典资源
    采用了几个词典资源,比如情感词典(EL),拟声词词典(OL)和功能词词典(FWL)。
  • 网络构建

总结和未来工作

当伪标记数据的量比标记数据大时,获得更好的性能。在更多伪标记语料的情况下,性能是否继续提高?

你可能感兴趣的:(论文阅读之倾向性分析)