社交网络影响力传播研究
陈卫
(微软亚洲研究院 北京 100080)
摘要:随着互联网和大数据的研究应用日益广泛,对社交网络影响力传播的研究成为数据挖掘和社交网络分析中的热点。从影响力传播模型、影响力传播学习和影响力传播优化3个方面总结了近些年计算机科学领域对影响力传播研究的主要成果,展示了影响力传播研究中对随机模型、数据挖掘、算法优化和博弈论等技术的综合运用。最后,简要讨论了影响力传播研究和应用中存在的问题、挑战及今后的研究方向。
关键词:社交网络;社会影响力;影响力传播模型;影响力最大化;社会影响力学习;病毒营销
doi: 10.11959/j.issn.2096-0271.2015031
Research on Influence Diffusion in Social Networks
Chen Wei
(Microsoft Research Asia, Beijing 100080, China)
Abstract: With the wide spread of internet and big data research and applications, influence diffusion research in social networks becomes one of the hot topics in data mining and social networks analysis in recent years. The main results on social influence diffusion research from the field of computer science in the last decade, which covers the three main areas -- influence diffusion modeling,influence diffusion learning, and influence diffusion optimization, were summarized. Different techniques, such as stochastic modeling, data mining,algorithmic optimization, and game theory, were demonstrated in their application to influence diffusion research. Finally, some discussions on thecurrent issues, challenges and future directions in influence diffusion research and applications were provided.
Key words: social networks, social influence, influence diffusion model, influence maximization, social influence learning, viral marketing
论文引用格式:陈卫.社交网络影响力传播研究.大数据,2015031
Chen W. Researchon influence diffusion in social networks. Big Data Research, 2015031
4 社会影响力传播学习
前面介绍了影响力传播模型和其上的影响力优化问题。要使影响力传播研究在实际中发挥更大的作用,基于实际数据的影响力学习(influence learning)也是必不可少的一个方面。基于实际数据的网络影响力分析在国内外社交媒体网站也都有出现,比如国外的Klout.com、国内的新浪微博影响力排名等。这些影响力分析侧重对名人的排名,分析方法大多利用网络拓扑结构(如粉丝数、PageRank)、用户活跃度等。而基于影响力传播的学习是希望从数据中挖掘用户行为的传播方式和对应的参数,从而为影响力传播建模和优化服务。
4.1 影响力传播学习的基本思想
在影响力传播学习方面也有不少工作。这些工作基于的数据基本上是两类:一类是社交网络结构的数据,比如微博中用户B关注了用户A,那么就有一条有向边从用户A到用户B,边的方向在这里表示信息从用户A传向用户B,与影响力的方向一致。当收集了大量用户的关注数据后,就可以建立一个关于这些用户的有向图。当然有些网络(如Facebook)对应的是无向图,每条无向边表示的是朋友关系。第二类数据是用户的某一类行为的时间序列,比如一条记录是微博用户A在时刻t1发布了一条带有某个链接L1的微博,用(A,L1,t1)表示。一般来讲,用户的行为序列是由(u, a, t)组成的序列,其中,u表示一个用户(对应图上一个节点),a表示一个动作,t表示用户u执行动作a的时间。
目前来讲,影响力传播学习的基本思想是如果相连的两个用户在相近时间先后执行同样的动作,那么认为这是先执行动作的用户对后执行动作的用户的一次成功影响。比如在上文的微博例子中,如果在记录(A, L1, t1)后面有一条记录(B, L1, t2),而时间t2大于t1但又不大很多,说明在用户A发布了包含链接L1的微博不久,关注用户A的用户B也发布了同样链接的微博,这可被理解为用户B看到用户A的微博而转发的行为,所以在发布链接这个行为上可以认为用户B受到一次用户A的影响。如果数据中发现用户B经常在用户A之后发布与用户A相同的链接,那么可以推测在发布链接这类行为上用户A对用户B的影响力较大。
上述的思想比较直观,但严格地说所发现的是用户行为的相关性,并不能直接反映影响力的因果关系。比如上述微博例子中也有可能是用户B并未看到用户A的微博,或者即使看到,用户B发同样微博是因为用户B和用户A都对同一类链接内容感兴趣,而并不是因为用户B受到用户A的影响,这称为社会关系中的同质性(homophily)。在一组收集数据中要区分相关性行为的来源是同质性还是影响力并不是一件容易的事情。为此,Anagnostopoulos等人提出了洗牌测试(shuffle test)的方法[44],将实际发生事件的时间顺序像洗牌一样随机打乱后,再观察关于这个序列的某些特征值是否改变。如果发生改变,说明实际的时间顺序是重要的,这是支持影响力的因果关系造成实际事件顺序的证据;而如果不发生改变,说明时间顺序并不重要,这是支持由同质性造成的相关性事件序列的证据。洗牌测试对判定影响力的存在性有一定作用,但在区分影响力和同质性方面仍有不少需要进一步完善的工作要做。
在影响力传播中下一个要解决的问题是在一个节点执行一个动作之前,有多个该节点的邻居节点都执行了同样动作,在这种情况下如何判定是哪一个或哪几个邻居节点真正影响了该节点?现有的方法基本分两种:一种是用最大似然估计(maximum likelihood estimate),一种是基于信用分配(credit distribution)的频度分析(frequency analysis)。
4.2 最大似然估计
最大似然估计是基于一个随机传播模型(如独立级联模型)得到一次传播结果的似然度,然后求得参数使得实际出现的传播结果似然度最大[45,46]。直观上说,虽然一个节点有可能被多个邻居节点影响,但如果实际数据中一个节点的动作经常跟随它的某一个邻居节点的动作,这说明这个特定节点对它的影响力可能较大。最大似然估计就是将这一想法严格数学化的方法。
直接应用最大似然估计很可能在图中很难计算,通常会用中间变量和期望最大化迭代的EM算法[46]。但这种算法在大图中效率不高,且不一定保证能收敛到全局最优解。Netrapalli和Sanghavi对最大似然估计做了改进,将其计算变为一个凸规化(convex program)问题,从而能有效求解且保证全局最优[45]。
4.3信用分配和频度分析
最大似然估计的形式化和计算仍然比较复杂,对此Goyal、Bonchi和Lakshmanan提出了基于信用分布的频度分析方法[47]。它的基本思想是当需要决定在一次传播中究竟是哪个已被激活的邻居节点激活了一个节点时,将部分信用积分(partial credit)平摊到所有参与的邻居节点中(每次的总信用为1)。这种信用积分的分配可以是完全平均,也可以不平均,比如激活时间上离被激活节点时间最近的信用积分最高。这种简单的分配方式虽然是启发式的,但避免了复杂的最大似然分析。当部分信用积分分配对所有的传播实例都完成后,一个节点对它的邻居节点的影响力就由直接的频度分析得到,也即从得到的信用积分总和除以在数据中总共被激活的次数,这个比值表示了当被激活后被激活的频度,而这个频度考虑了对的部分信用积分。这种计算方法效率很高,适合于大规模图的学习。
影响力传播学习并不一定需要知道社交网络的图结构。在缺乏图结构时,认为任何在激活时间上相接近的两个节点都有可能存在边而发生传播。这相当于把图看成是全连通图。在学习结束后可以把权重很低的边删掉,从而一定程度上恢复原图。如果已知原图,则学习的效率和准确度都会大大提高。但从另一方面讲,社交网络中的图结构并不能准确表达所有的传播路径,不基于图结构的影响力传播学习可能会挖掘出隐含的影响力关系,也有它的好处。另外,影响力的传播在不同领域和不同话题下经常是不一样的,为此Barbieri等提出了与话题相关的影响力传播模型和在其上的学习方法[48]。
5 影响力传播研究和应用的问题、挑战和方向
影响力传播研究经过本世纪十几年的发展,已经取得长足的进步,使大家对影响力传播的模式和其上的优化问题都有了较深的认识。但是进一步发展其研究和应用,还要解决很多问题。
其中一个主要问题是影响力传播学习方面的准确、有效问题,这仍然是当前一个很大的挑战。与很多大数据分析不同,影响力传播的大数据分析要求分析的是任意两个关联用户之间的影响力强度,这比只分析一个用户的特征或一个群体的特征难度要大很多。不仅如此,影响力传播涉及对人的行为分析,而且是较为复杂的如产品购买、接受新思想等行为,这种行为数据在社交媒体数据中并不容易挖掘,因为大多数社交媒体数据都是无意义的噪声,而诸如转发等的行为传播又过于简单,与真正针对产品、思想等的行为传播可能很不同。而且如前文所述,从数据中区分影响力和同质性也是一个较难的问题。所以,在影响力传播的研究中影响力传播的有效分析是目前的一大瓶颈。简单地说,就是在这方面大数据还远不够大,在真正理解和分析用户行为的大规模传播方面还有很多路要走。
在影响力建模方面,已发展出很多模型,其中以独立级联模型为代表的一些模型在实际数据中也得到一定程度的印证。但是目前为止,对于更适于描述复杂传播行为的阈值模型还缺乏实际数据的有效验证。线性阈值模型对阈值的随机性要求有局限性,而如果用更一般的阈值模型很可能会使模型不具备子模性等性质,从而无法设计有效的算法。所以对于阈值模型,从数据分析到建模和优化还都有不少问题要解决。
另外,绝大多数影响力传播研究都是在静态网络中进行,而实际网络都是动态变化的。如何将传播的动态性和网络的动态性合理结合,以达到有效的分析、建模和优化,也是一个需要更多关注的课题。
在影响力优化方面,其应用有效性还需实际检验。这是因为影响力优化需要因果关系的验证,而这通常需要在实际系统中进行随机可控试验(randomized controlled experiment)才能真正验证。绝大多数研究者还不具备大规模的社交网络平台和影响力传播数据用以实施这样的试验。所以如何加强合作,构建这样的共享平台和共享大数据,是让影响力传播和最大化研究走出实验室得以广泛应用的关键课题。
尽管存在很多问题和挑战,影响力传播的研究仍然蓬勃发展,甚至展示了它在一些意料之外方面的应用。比如Shakarian等人将影响力最大化应用到芝加哥警察局挑选暴力团伙成员参加学习劝导班,使其影响其他团伙成员远离暴力犯罪[49],而Wang等人将影响力传播模型和最大化借用到文本概括(text summarization)领域,通过建立单词之间的一个影响网络来帮助文本概括[50]。随着大数据技术的发展和影响力传播研究的深入,影响力传播研究会有更广泛的应用前景。
6 结束语
本文将影响力传播研究分为三大方面:影响力传播模型、影响力传播学习和影响力传播优化,并对3个方面的主要成果和近期进展进行了介绍。简而言之,影响力传播研究通过建立人们行为的传播模型,从实际数据中学习传播模型及其参数和基于传播模型的各种影响力优化和控制技术,使大家对影响力的传播机理和模式有了深入的了解,并将这种认识和理解转化为对传播行为的预测、优化和控制。本文也讨论了当前影响力传播研究和应用方面的问题和挑战,比如如何利用更大规模的数据来支持影响力传播的研究、如何结合网络的动态性、如何在实际中检验优化结果等。随着大数据研究和应用的不断深入和发展,影响力传播的研究也会取得更加丰硕的成果,并在产业界和实际生活中得到广泛的应用。
参考文献
[1] Bass F M. A new product growth for modelconsumer durables. Management Science, 1969, 15(5): 215~227
[2] Granovetter M. Threshold models for collective behavior. American Journal of Sociology, 1978, 83(6): 1420~1443
[3] Christakis N A, Fowler J H. The spread ofobesity in a large social network over 32 years. New England Journal of Medicine, 2007, 357(4): 370~379
[4] Christakis N A, Fowler J H. The collective dynamics of smoking in a large social network. New England Journal of Medicine,2008, 358(21): 2249~2258
[5] Aral S, Walker D. Identifying influential and susceptible members of social networks. Science, 2012(337): 337~341
[6] Bond R M, Fariss C J, Jones J J, et al. A61-million-person experiment in social influence and political mobilization.Nature, 2012(489): 295~298
[7] Charu C, Aggarwal. Social Network Data Analysis.New York: Springer, 2011: 177~214
[8] 吴信东, 李毅, 李磊. 在线社交网络影响力分析. 中国计算机学报, 2014, 37(4): 735~752
Wu X D, Li Y, Li L. Influence analysis of online social networks. Chinese Journal of Computers, 2014, 37(4): 735~752
[9] Chen W, Lakshmanan L V S, Castillo C.Information and Influence Propagation in Social Networks. California: Morgan& Claypool Publishers, 2013
[10] Domingos P, Richardson M. Mining the networkvalue of customers. Proceedings of the 7th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining (KDD), San Francisco, USA, 2001: 57~66
[11] Kempe D, Kleinberg J M, Tardos É. Maximizing the spread of influence through a social network. Proceedings of the 9th ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (KDD),Washington DC, USA, 2003: 137~146
[12] Chen W, Lu W, Z ha ng N. Time-critical influence maximization in social networks with time-delayed diffusion process.Proceedings of the 26th National Conference on Artificial Intelligence (AAAI),Toronto, Canada, 2012
[13] Centola D, Macy M. Complex contagion and theweakness of long ties. American Journal of Sociology, 2007, 113(3): 702~734
[14] Gomez-Rodriguez M, Balduzzi D, Schölkopf B.Uncovering the temporal dynamics of diffusion networks. Proceedings of the 28th International Conference on Machine Learning (ICML), Bellevue, Washington, USA,2011:561~568
[15] Newman M E J. Networks: an Introduction.Oxford: Oxford University Press, 2010
[16] Even-Dar E,Shapira A. A note on maximizing thespread of influence in social networks. Proceedings of the 3rd Workshop on Internet and Network Economic (WINE), San Diego, USA, 2007: 281~286
[17] Li Y, Chen W, Wang Y, et al. Influence diffusion dynamics and influence maximization in social networks with friendand foe relationships. Proceedings of the 6th ACM International Conference onWeb Search and Data Mining (WSDM), Rome, Italy, 2013: 657~666
[18] Immorlica N, Kleinberg J M, Mahdian M, et al.The role of compatibility in the diffusion of technologies through social networks. Proceedings of the 8th ACM Conference on Electronic Commerce (EC),San Diego, USA, 2007: 75~83
[19] Montanari A,Saberi A. Convergence to equilibrium in local interaction games. Proceedings of the 50th Annual IEEE Symposium on Foundations of Computer Science (FOCS), Atlanta, USA, 2009:303~312
[20] Budak C, Agrawal D, Abbadi A E. Limiting the spread of misinformation in social networks. Proceedings of the 20th International Conference on World Wide Web (WWW), Hyderabad, India, 2011:665~674
[21] Chen W, Collins A, Cummings R, et al. Influencemaximization in social networks when negative opinions may emerge andpropagate. Proceedings of SIAM International Conference on Data Mining, Mesa,USA, 2011: 379~390
[22] He X, Song G, Chen W, et al. Influence blocking maximization in social networks under the competitive linear threshold Model.Proceedings of SIAM International Conference on Data Mining, Anaheim, USA,2012: 463~474
[23] Lu W, Bonchi F, Goyal A, et al. The bang forthe buck: fair competitive viral marketing from the host perspective. Proceedingsof the 19th ACM SIGKDD International Conference on Knowledge Discovery and DataMining (KDD), Chicago, USA, 2013: 928~936
[24] Lu W, Chen W, Lakshmanan L V S. Fromcompetition to complementarity: comparative influence diffusion and maximization. Proceedings of the 42nd International Conference on Very Large Data Bases (VLDB), New Delhi, India, 2016 Accepted
[25] Nemhauser G, Wolsey L, Fisher M. An analysis of the approximations for maximizing submodular set functions. Mathematical Programming, 1978(14): 265~294
[26] Wang C, Chen W, Wang Y. Scalable influence maximization for independent cascade model in large-scale social networks. Data Mining and Knowledge Discovery, 2012, 25(3): 545~576
[27] Chen W, Yuan Y, Zhang L. Scalable influence maximizationin social networks under the linear threshold Model. Proceedings of the 10th IEEE International Conference on Data Mining (ICDM), Sydney, Australia, 2010:88~97
[28] Chen W, Wang Y, Yang S. Efficient influence maximization in social networks. Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), Paris,France, 2009: 199~208
[29] Goyal A, Lu W, Lakshmanan L V S. SIMPATH: an efficient algorithm for influence maximization under the linear threshold model. Proceedings of the 11st IEEE International Conference on Data Mining(ICDM), Vancouver, Canada, 2011: 211~220
[30] Jung K, Heo W, Chen W. IRIE: scalable androbust influence maximization in social networks. Proceedings of the 12nd IEEE International Conference on Data Mining (ICDM), Brussels, Belgium, 2012: 918~923
[31] Borgs C, Brautbar M, Chayes J, et al.Maximizing social influence in nearly optimal time. Proceedings of ACM-SIAM Symposium on Discrete Algorithms (SODA), Portland, USA, 2014: 946~957
[32] Leskovec J, Krause A, Guestin C, et al.Cost-effective outbreak detection in networks. Proceedings of the 13rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD),San Jose, USA, 2007: 420~429
[33] Tang Y, Shi Y, Xiao X. Influence maximizationin near-linear time: a martingale approach. Proceedings of ACM SIGMOD Conference (SIGMOD), Melbourne, Australia, 2015: 1539~1554
[34] Tang Y, Xiao X, Shi Y. Influence maximization:near-optimal time complexity meets practical efficiency. Proceedings of ACM SIGMOD Conference (SIGMOD), Snowbird, USA, 2014: 75~86
[35] Cohen E, Delling D, Pajor T, et al.Sketch-based influence maximization and computation: scaling up with guarantees. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management (CIKM), Shanghai, China, 2014: 629~638
[36] Goyal A, Bonchi F, Lakshmanan L V S, et al. On minimizing budget and time in influence propagation over social networks.Social Network Analysis and Mining, 2012, 2(1)
[37] Long C, Wong R CW. Minimizing seed set forviral marketing. Proceedings of the 11st IEEE International Conference on Data Mining (ICDM), Vancouver, Canada, 2011: 427~436
[38] Lu W, Lakshmanan L V S . Profit maximization over social networks. Proceedings of the 12nd IEEE International Conference on Data Mining (ICDM),Brussels, Belgium, 2012: 479~488
[39] Khalil E, Dilkina B, Song L. Scalable diffusion-aware optimization of network topology. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD),New York, USA, 2014: 1226~1235
[40] Goldberg S, Liu Z. The diffusion of networking technologies. Proceedings of the 24th ACM-SIAM Symposium on Discrete Algorithms(SODA), New Orleans, USA, 2013: 1577~1594
[41] Zhang P, Chen W, Sun X, et al. Minimizing seedset selection with probabilistic coverage guarantee in a social network.Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), New York, USA, 2014: 1306~1315
[42] Chen W, Li F, Lin T,et al. Combining traditional marketing and viral marketing with amphibious influence maximization. Proceedings of the 16th ACM Conference on Economics and Computation (EC), Portland, USA, 2015: 779~796
[43] Yang D N, Hung H J, Lee W C, et al. Maximizing acceptance probability for active friending in online social networks.Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), Chicago, USA, 2013: 713~721
[44] Anagnostopoulos A, Kumar R, Mahdian M.Influence and correlation in social networks. Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD),Las Vegas, USA, 2008: 7~15
[45] Netrapalli P, Sanghavi S. Learning the graph of epidemic cascades. Proceedings of ACM SIGMETRICS/PERFORMANCE Joint International Conference on Measurement and Modeling of Computer Systems(SIGMETRICS), London, UK, 2012: 211~222
[46] Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model. Proceedings of the 12nd International Conference on Knowledge-based Intelligent Informationand Engineering Systems (KES), Zagreb, Croatia, 2008: 67~75
[47] Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks. Proceedings of the 3rd ACM International Conference on Web Search and Data Mining (WSDM), New York, USA,2010: 241~250
[48] Barbieri N, Bonchi F, Manco G. Topic-awaresocial influence propagation models. Knowledge Information Systems, 2013,37(3): 555~584
[49] Shakarian P, Salmento J, Pulleyblank W, et al.Reducing gang violence through network influence based targeting of social programs. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), New York, USA, 2014: 1829~1836
[50] Wang C, Yu X, Li Y, et al. Content coverage maximization on word networks for hierarchical topic summarization. Proceedingsof the 22nd ACM International Conference on Information and KnowledgeManagement(CIKM), San Francisco, USA, 2013: 249~258