使用非监督学习技术分析情感(IEEE2013)

Analysis of sentiments using unsupervised learning techniques 使用非监督学习技术分析情感(IEEE2013)

文章提出了一个新的模型:组合情感话题模型(CST)来同时检测文本的情感和话题。这个模型基于Gibbs采样算法。当转移到其他域时,观点挖掘的监督方法经常不能产生好的性能。不同于监督方法,CST的非监督性质使它高度可移植到其他域。CST模型相比于存在的半监督方法性能更好。
参考文献指出3个机器学习技术如朴素贝叶斯、最大熵分类和支持向量机在情感分类和传统的基于话题的分类表现不佳。本文关注于基于提出的非监督CST模型,结合话题检测和话题情感分析,划分一般领域文档的积极和消极情感。

方法

CST模型是基于LDA(Latent Dirichlet Allocation model)的。参考文献指出MG-LDA(Multi-Grain Latent Dirichlet Allocation model)框架的局限是:它仅仅基于话题,没有考虑话题和观点的关联。基于CST产生一个文档中的词需要两步。首先,从多重话题中选择一个分布,然后从话题分布中随机选择一个话题产生该话题的一个词。CST模型有4层,情感标签与文档连接,其下,话题与情感标签连接,词与情感标签和话题连接。考虑包含文档集 d1 d2 d3 ,…, dD 的语料库。每个文档包含词 w1 w2 ,…, wmd ,每个词包含词汇集1,2,…,V。令 tp 为话题数。为了产生一个词w,首先从文档分布 δd 中选择标签lb,然后从话题分布 μd,lb 中选择一个话题。最后从语料分布 φd 中得到一个字。为了获得 δ μ φ 的分布,首先计算后验概率。Gibbs采样通过变量采样评估后验概率分布。令上标-t表示不包含位置t的数据量。 δ μ φ 的条件后验概率计算如下(公式怎么得到?): P(tp=i,lb=m/wr,tpt,lbt,α,β,γ)=αGtlb,tp,wr+βGtlb,tp+VβGtd,lb,tp+αlb,tpGtd,lb+tpαlb,tpGtd,lb+γGtd+Sγ(1) ,其中V是词汇表的大小,lb代表情感标签, Glb,tp,wr 是带标签lb和话题tp的词wr出现的次数, Glb,tp 是词被分配到话题tp和情感标签lb的次数, Gd,lb,tp 是来自文档d的词与话题tp和情感标签lb关联的次数。
CST中Gibbs采样算法的伪代码:
输入: α β γ ,语料库
输出:对语料库中的所有单词符号给定观点和话题标签。

  1. 初始化V×T×S矩阵 ϕ ,T×S×D矩阵 Θ ,S×D矩阵 Π
  2. 对于m=1到M,Gibbs采样迭代开始。
  3. 从文档中读一个词i。
  4. 根据式子1计算指定词i到话题和情感标签的可能性。
  5. 基于上一步评估的可能性采样一个主题。
  6. 采样一个情感标签。
  7. 用新的采样结果更新矩阵 ϕ Θ Π
  8. 返回步骤3直到所有词都处理过。

实验

预处理移除数据集中的标点,数字,非字母表字符和停用词。然后进行标准词干提取降低词汇表的大小。词干提取后极性改变的词也自动移除。
文档情感分类步骤:数据集上的预处理。然后从两个词典中提取词汇。接下来提取带强积极和消极倾向的词。积极和消极词提取之后,检测情感标签和主题。定义文档d被标记为积极情感文档,如果积极情感标签的可能性大于消极情感标签,反之亦然。
未来工作:该模型的缺点是它没有检测中立观点。中立观点将要被分类。当面对新数据和自动文档标签偏离用户提供的评论时,将要提出CST参数的增量学习来提高系统的准确率和效率。

你可能感兴趣的:(论文阅读之倾向性分析)