摘要:社会网络中用户之间存在情感链接(sentimentlinks)。在个人广告和公众舆论分析等许多领域,预测情感链接的迹象是一项基本任务。前人研究仅关注文本,还有用户资料和社会关系等却未被考虑。本文研究了如何在异构信息存在的情况下预测可能存在的sentiment links.。
introduction:在在线社交网络中对便宜、电影明星、政要等发表感想,形成用户间的sentiment links(不单单局限于follow的关系,是用户发出的语义暗示(sign),positive negative)。
情感分析不能捕获没有任何先验内容信息但可能存在的sentimentlinks。那么该怎么预测?(这类问题广泛应用在在线服务中,如个性化广告、新朋友推荐、公众意见分析、民意调查)挑战:缺乏标签、情绪复杂、稀疏。已有Network embedding 的研究,只适用于具有正加权的网络和、单一类型网络。
本文首先(利用最先进的实体层次情感提取方法)建立微博有标签的异构情感数据集(用户情感关系、社会关系、用户资料),然后增加社会关系和用户及名人画像描述。(社交网络的结构信息可以影响用户对在线项目的偏好,来自知识库的信息可以提高推荐的性能。) 提出的SHINE(signed heterogeneousInformation network embedding)框架能够学习用户表示(自编码器),并能预测异构网络的情感链接。SHINE预测,灵活的增加或删除side information.(section 5) (实验任务:链接预测、节点推荐;还利用Side information解决了冷启动问题)
2.1 signed link prediction
涉及signed social networks(信任传播、光谱分析、社交媒体挖掘)参考文献【14,31 ,21】
本文建立了一个带标签的数据集。
2.2 Network embedding
DeepWalk,LINE,Node2vec SDNE等都只适用于无符号的同构网络。2,32研究异构网络,10研究属性网络或2933研究有符号的网络。但只适用于特定类型的网络,不适用于sentiment 网络中的prediction。
用(中文文本分割工具)JieBa标记推文的每个词的词性(POS, Part of speech,POS tagging 有person name) ,估计每个推文中针对某个名人的的情感值(-1 ~ +1) 并却出高情感值的推文。最后的数据集是三元组(a,b,s)的集合。a:user b:celebrity s:value .具体怎么估计的看后面。
Social Relation: 微博的社会关系,用二元组(a,b)表示a follow b。
Profile of Ordinary User:提取性别gender 和位置location 作为概要信息。属性值用one-hot vector来表示。
Profile of Celebrities: 微软Satori3知识库来提取名人的简介.名人属性(离散值):出生地、出生日期、种族、国籍、专业、性别、身高、体重和星座。表示为one-hotvector.3.2 情感抽取
生成情感词典, 包括词汇和情绪导向值(SO)。还有表情-情感映射文件。如([kiss], positive)。可能某个词用的是反义,因此不一定成对应关系。定义对每个词的SO为 【归一化到-1~1之间】
Pos,neg是推文中的pos、neg类。
在每个推文中,抽取对名人的sentiment,一起描述为极坐标:名人在原点,情感词分布。名人c,Ti:( ri , θi) 是在LTP生成的语法依赖图中c和ti之间距离的倒数。θi = SO(ti ) *π.
则 SO(ti)>0在上方,<0在下方。因此,对名人c的总体情感是近似于所有词的几何中心。我们将y轴上的几何中心的投影作为最终的情感价值指向名人。并验证了数据集精度为95..2%
将原始的HIN划分为三个单类型的网络:
Sentiment network & socialnetwork & Profile network
(1) Gs: Sentiment network (V,S):有向图。 +1 -1 0 分别表示 positive negative unobserved
(2) Gr :Social network : (V,R)有向图,表示follow的关系。
(3) Gp:Profile network:( V,U,P) 无向图。 U是每种属性的每种值的集合(K种属性,K(L)种值,求和)P是links,Pij, i属于V j属于U
Sentiment linksPrediction:定义如下:给定Gs Gr Gp,,预测Gs中未观测到的用户之间的links
介绍SHINE模型,以及怎样从三种网络中提取用户表示,以及提取的算法。然后讨论SHINE模型。
5.1 Framework
整个框架由三个主要组成部分组成:情绪提取和异构网络构建(左部分)、用户表示提取(中间部分)以及表示聚合和情绪预测(右侧部分):
5.2 Sentiment network embedding
用向量xi表示sentiment network 中所有的入边和出边。自编码器是一个无监督的神经网络模型,可以处理高非线性网络结构,有两部分组成:encoder 和deconder.
输入 Xi,
K是第K层,Ks是层数。
最后的输出层为xi’ = xi(Ks)
其中:是情感重建权重向量,
5.3 social networkembedding
与 Sentiment network embedding类似。
输入
其中
5.4 Profile network embedding
U:属性 V 用户
维度是所有属性值的个数
5.5 表示的聚合和情感预测
对于user i ,将xiyi zi聚合成ei 函数为 g(*,*,*) 可用的g():
看framework中的图,两个用户 ei ej 预测 sij 函数为f(i,j) 如:
5.6 优化
最后一项是正则化项:用AdaGrad 算法优化
5.7 讨论
(1)非对称性:f()选择非对称函数 或 将e1 e2分开用不同的自编码器提取源和目的节点的表示。
(2)冷启动:加入了Sideinformation(另外两个网络)到target 网络(sentimentnetwork)中,因此对于新的没有sentiment link的节点,可以利用side information解决冷启动的问题。
(3)灵活性:可以加入或删除其他的属性作为side information(Gp网络中)、可以选择不同的聚合函数、近似度量函数。
6.1 数据集 Weibo-STC& Wiki-RfA(只验证sentiment autoencoder 的效率)
6.2 baseline: LINE + node2vec+SDNE embedding的结果连接起来。
FXG:在weibo-stc数据集上跑,只利用sentiment network作为输入,然后做链接预测。
LIBFM:分类模型
6.3 参数设置
Ks=4 g()为concatenation; f()为 innerproduct ;
……
6.4 link prediction
Node recommendation: 为每个已存在用户提供一个用户集合,已存在的用户没有对用户集合中的成员表达过态度。计算每个用户对其他用户的情感值,选择最大的K个值作为推荐(包括like 和dislike,即:positive & negative)
度量:positive and negative Precision@K and Recall@K
------------------------------------------
Ref: 链接生成器:JureLeskovec, Daniel Huttenlocher, and Jon Kleinberg. 2010. Predicting positive andnegative links in online social networks. In Proceedings of the 19thinternational conference on World wide web. ACM, 641–650.
多重深度自编码器 嵌入 Ruslan Salakhutdinov andGeoffrey Hinton. 2009. Semantic hashing. International Journal of ApproximateReasoning 50, 7 (2009), 969–978.
基于结构平衡理论的三元符号作为预测特征:[14] JureLeskovec, Daniel Huttenlocher, and Jon Kleinberg. 2010. Predicting positive andnegative links in online social networks. In Proceedings of the 19thinternational conference on World wide web. ACM, 641–650.
Ye等[31]利用迁移学习利用源网络的边缘符号信息,提高目标网络的预测精度。[31] Jihang Ye, Hong Cheng, Zhe Zhu, and Minghua Chen. 2013.Predicting positive and negative links in signed social networks by transferlearning. In Proceedings of the 22nd international conference on World WideWeb. ACM, 1477–1488.
NeLP框架[21]利用社交媒体中的积极链接来预测负面链接JiliangTang, Shiyu Chang, Charu Aggarwal, and Huan Liu. 2015. Negative link predictionin social media. In Proceedings of the Eighth ACM International Conference onWeb Search and Data Mining. ACM, 87–96.
有向图的表示学习:
[16] Mingdong Ou, Peng Cui,Jian Pei, Ziwei Zhang, andWenwu Zhu. 2016. Asymmetric
transitivity preservinggraph embedding. In Proc. of ACM SIGKDD. 1105–1114.
[36] Chang Zhou, YuqiongLiu, Xiaofei Liu, Zhongyi Liu, and Jun Gao. 2017. Scalable
Graph Embedding forAsymmetric Proximity.. In AAAI. 2942–2948.