利用社会关系进行微博情感分析(A10, WSDM2013)

Exploiting social relations for sentiment analysis in microblogging 利用社会关系进行微博情感分析(A10, WSDM2013)

文章通过提出一个社会学方法处理情感分类的噪声短文本(SANT)研究社会关系是否可以帮助情感分析。特别地,提出一个数学优化构想,引入情感一致性和情感传播理论到监督学习过程,同时利用稀疏学习处理微博中的噪声文本。
微博信息的一个明显特征是通过用户连接,它们被潜在地连接在一起,可能包含纯粹的基于文本的方法所没有的有用的语义线索。除了内容信息,信息之间的关系可以通过一个用户-信息矩阵和一个用户-用户交互矩阵表达。连接的个体更有可能有相似的行为或者持有相似的观点。
文章首先调查微博数据是否存在社会理论。然后讨论在监督情感分析中怎样建模和利用社会关系。最后,进行扩展实验验证提出的模型。

问题陈述

给定一个带内容X的微博信息语料T,对应的情感标签是Y,这个语料的社会关系包括用户-信息关系U,用户-用户关注关系F,旨在学习一个分类器W自动给没见过的信息指定情感标签。

数据和观察

采用两个公共可用的Twitter数据集的子集:STS(Stanford Twitter Sentiment)和OMD(Obama-McCain Debate)。两个数据集由带它们对应情感标签的原始微博组成。进一步根据作者的社会关系信息提炼Twitter数据集,根据参考文献爬取完全关注图。根据社会网络,过滤作者没有朋友或者发表少于2条微博的微博。

微博上的社会理论

情感一致性表明由同一个用户发表的两条信息的情感比两条随机选择的信息更可能一致。情感传播揭示朋友发表的两条信息的情感比两条随机选择的信息更可能相似。两个理论由离线调查和会话产生。
验证两个社会理论。两条信息的情感差异得分定义为 Tij=||yiyj||2 yi 是信息 xi 的情感标签。为了验证情感一致性,用相同数量的元素建立两个向量 sct scr 。第一个向量的每个元素通过计算两条同一个用户发表的信息 xi xj 的情感差异得分得到。向量的每个元素对应一对相关信息。第二个向量的每个元素代表 xi 和语料中另一条随机信息 xr 的情感差异得分。在两个向量 sct scr 上进行学生t检验。假设 H0:sct=scr H1:sct<scr 。相似地,构建另外两个向量 ect ecr ,进行学生t检验验证情感传播。假设 H0:ect=ecr H1:ect<ecr 。t检验结果,p值表明有强有力的证据拒绝 H0 假设。换句话说,微博数据中存在情感一致性和情感传播。

社会学方法——SANT

  • 信息内容建模
    根据参考文献的发现:虽然不同特征构造方法,像N元文法,词性,形容词,情感词汇有可比的性能,用词项出现作为特征权重的一元模型获得最好的结果;不使用词干还原或者去停用词因为它们可能携带情感信息。因此,文章使用一元模型构建特征空间,用词项出现做为特征权重,不进行词干还原或者去停用词。这个框架不限于一元模型。广泛使用的方法最小二乘法用于拟合信息内容的学习模型。就多类分类问题而言,最小二乘法旨在通过解决以下优化问题学习c分类器: minW12||XTWY||2F (1) W 代表学习到的分类器。这个公式是传统的监督分类方法,信息假定独立和同一分布。
  • 信息-信息关系建模
    给定用户-信息矩阵U和用户-用户矩阵F,信息-信息情感一致性的情感关系矩阵为 Asc=UTU Ascij=1 表示 ti tj 由相同的用户发表,两条信息的情感相似。信息-信息情感传播的情感关系矩阵为 Aec=UTFU Aecij=1 表示 ti 的作者是 tj 作者的朋友,两条信息的情感相似。令情感关系矩阵 A=Asc+Aec 。集成情感分类中信息间的情感关系,基本思想是建立一个潜在连接使得由相同用户发表的或者两用户是关注/朋友关系的两条信息尽可能接近。因此目标函数: 12ni=1nj=1Aij||Y^iY^j||2=ck=1Y^Tk(DA)Y^k=tr(WTXLXTW) (2) Y^=XTW 是情感标签Y的拟合值, L=DA 是拉普拉斯矩阵, ARnn 是一个信息-信息情感关系矩阵代表一直接图形, Aij=1 说明信息 ti 与信息 tj 有关, DRnn 是一个对角阵 Dii=nj=1Aij ,对角元素是关系矩阵A中信息的度。由于拉普拉斯矩阵L是半正定的,(2)式可以重写为: tr(WTXLXTW)=||WTXL12||2F (3) 。集成情感关系到学习过程的优化公式定义为: minW12||XTWY||2F+α2||WTXL12||2F (4) α 是调整参数,控制情感关系信息的贡献。
  • 处理噪声短文本——一个稀疏公式
    参考文献指出当人们快速阅读一个文本,他们可能不会去分析句子但是用一些短语或词为进来的文本找到一个稀疏表达。因此,建议为分类特征空间提供一个稀疏重构。多类分类器可以通过解决以下优化问题学习: minW12||XTWY||2F+β||W||1 (5) β 是稀疏调整参数,在目标函数中,第一项是最小二乘损失,第二项是权重矩阵W的 l1 范式调整。更进一步地,引入拉普拉斯调整,微博数据的情感分类可以形式化为以下优化问题: minW12||XTWY||2F+α2||WTXL12||2F+β||W||1 (6) α β 是正调整参数。每条信息的情感标签可以通过以下预测: arg maxi{p,n}xTwi (7)

算法细节

由于 ||W||1 是不可微的,建议的目标函数(6)是不平滑的,引入一个高效算法解决优化问题。式子(6)可以重述为一个限制平滑凸优化问题: minWZf(W)=12||XTWY||2F+α2||WTXL12||2F (8) Z=W| ||W||1z z0 β z 一对一。

实验

比较SANT和传统的基于文本的情感分类方法以及在情感分类中引入社会关系的方法。SANT在两个数据集上用不同尺寸的训练数据都获得了最好的性能。SANT在训练数据尺寸改变时没有显示重大的改变,表明该方法对训练数据的尺寸不敏感。

结论

采用SANT处理微博的网络文本,对于2类或多类情感分类问题效果很好。
在情感分类中,调查不同情感关系的贡献将是有趣的。参考文献指出其他信息,像时空模式,可能对于评估情感一致性有用。

你可能感兴趣的:(论文阅读之倾向性分析)