在线社交媒体信息冗余现象建模与实证研究
秦烁,吕欣,孟凡辉,胡延庆
国防科技大学系统工程学院,湖南 长沙 410073;
中南大学商学院,湖南 长沙 410083;
卡罗林斯卡研究所公共卫生科学系,瑞典 斯德哥尔摩 17177;
中山大学数据科学与计算机学院,广东 广州 510006
摘要:为深入了解社交媒体中的信息冗余现象,定义了一种以个体好友信息发布的重复情况度量信息冗余程度的指标。推导个体在传播过程中出现冗余现象的概率,分析了信息传播率、网络密度、集群系数对信息冗余的影响;通过新浪微博的实际数据观察了冗余信息的扩散特点,并从营销的角度探讨了信息冗余在广告推广和产品营销方面的意义。研究结果为进一步了解在线社交媒体的信息扩散特征提供了新的视角。
关键词: 社交网络 ; 在线社交媒体 ; 信息传播 ; 信息冗余
论文引用格式:
秦烁, 吕欣, 孟凡辉, 胡延庆. 在线社交媒体信息冗余现象建模与实证研究. 大数据[J], 2018, 4(5): 50-61
QIN S, LU X, MENG F H, HU Y Q. Modeling and empirical research of information redundancy on online social media. Big Data Research[J], 2018, 4(5): 50-61
1 引言
在线社交媒体是一类获取信息的重要渠道,更是一种新的信息传播方式。Facebook、Twitter、新浪微博、微信等作为一类基于朋友的关系型社交平台,通过整合用户的社交圈、生活圈、工作圈,满足用户在信息获取、交流沟通、娱乐消遣等各方面的需求。但随着用户之间信息交互频繁,信息量日益增多,信息冗余现象也成为在线社交媒体发展过程中一个不可忽视的问题。当信息量超出人们的吸收能力时,就会使人们感到“数据窒息(datacide)”。直观上,当人们接收到过多重复信息或大量广告推送时,会影响用户获取信息的效率和体验感。对信息自身而言,信息冗余过于严重会导致信息传播效率低,信息丧失原有价值。除此之外,社交网络平台的活跃度及未来发展趋势也都与信息冗余问题息息相关。
Jin X等人在如何维持社交平台活跃度问题上,从网络增长模式和节点连接类型的角度研究了网络活跃性演化的机制。其实验结果也在一定程度上还原了一些真实社交网络平台的发展情况。人人网在早期顶着“中国Facebook”的光环,比它模仿的对象Facebook发展得更蒸蒸日上、充满朝气,最终,作为当时国内最大的社交平台和承载无数年轻人回忆的互联网产品却走向低谷。人人网除了在产品定位转型以及平台运营等方面存在问题之外,更重要的是人人网中总是分享一些“老梗”、过时或“老掉牙”的消息,原创力差,输出少,用户渐渐失去新鲜感和兴趣,从而淡出人人网,平台也因此逐渐走向衰落。再如Reuters机构通过对1300位企业经理人所做的调查结果显示:信息过载会降低工作满意度,甚至工作中的重要的决策也会因信息过载而被延迟,并希望能够通过技术手段解决信息过载问题。
除此之外,虽然信息冗余会造成一定的负面影响,但一定量的冗余在广告推广或产品营销方面却具有一定的意义。社交媒体的快速发展成为一股不可忽视的力量,为商业界带来了巨大的变革,很多企业都将在线社交媒体作为一种新的营销渠道,并制定符合新媒体特点的营销策略。在线社交媒体的广泛普及让营销者逐步开始淡化营销信息主要传播者的角色,转而以口碑为载体,激励用户进行信息传播。“口碑效应”的本质其实是社会学和心理学中提到的“从众行为”,指人们会很大程度地受到周围大多数人的影响。已有研究表明,用户之间的相互推荐会影响到用户的喜爱和偏好,从而促进产生购买和消费行为。因此,若广告营销类信息在社交媒体中得到大范围的传播和扩散,那必定会为相应产品带来很好的宣传和销量。
目前,复杂网络理论已比较成熟,将复杂网络理论用于社交网络分析的方法已有一定的基础和先例。如关于在线社交平台传播模型的构建、信息传播特性等的研究也都不在少数。Zhang Z K等人对近年来有关信息传播的研究进行了回顾,对不同理论和方法进行了统一,比较和评估不同模型与算法之间的性能差异,强调有关信息传播的研究将在各种领域都具有很强的科学深度。
但是,目前从网络和节点特性、传播机制以及广告推广或产品营销的角度出发,探究信息冗余问题的相关研究屈指可数。因此,运用复杂网络理论分析社交网络,从网络和节点特性、信息传播机制和营销的角度探讨冗余问题,不仅为进一步了解信息传播特性提供了新的视角,在对信息获取、管理、优化等方面也具有一定的理论意义和实践价值。
2 问题描述
在大部分社交平台(如Facebook、Twitter、Instagram、BBM、LINE等)上,信息冗余常常表现为新闻或热门头条的重复转发及推送,信息重复度高,零碎性强。刷屏现象就是信息冗余的典型表现。
现实社交平台中,热门信息常常以社会性新闻或娱乐新闻为主,如2017年11月12日,北京市“红黄蓝幼儿园”的“虐童事件”在各大社交平台上相继出现刷屏现象,并引起强烈的社会反响。仅仅3h内,新浪微博中某用户的30条推送中就有19条与该新闻相关。
基于以上现象,将信息传播过程中的节点类型分为两类:覆盖节点,即在该节点周围的邻居节点中,有一人或一人以上发布同一信息;冗余节点,即在该节点周围的邻居节点中,有两人或两人以上发布同一信息。并以网络中冗余节点所占比例作为度量网络信息冗余度的指标。若将社交网络问题提炼成由节点和边构成的社交关系图上的问题,那么用户就是节点,由一条边相连的两个节点具有“好友关系”,每个节点对于某条信息在某一时刻的状态只表现为“发布”或“未发布”。将朋友圈转换为网络关系拓扑,如图1所示。
图1 “朋友圈”网络关系拓扑
3 信息冗余度模型
3.1 信息传播模型
为了深入研究社交媒体中的信息冗余现象,在社交平台用户关系网络中建立SI(susceptible-infected)信息传播模型,并根据实际信息的传播特点对传播过程加以限制。将用户对信息的“发布”状态设置为1,“未发布”状态设置为0。将关系网络中的所有节点状态分为两类:S(su sceptible)为未发布信息的个体,I (infected)为已经发布信息的个体。其中,S在接触到传播者I后,会以一定概率α (传播率)变为I,即该节点将分享信息到自己的朋友圈,此时呈现对该信息的状态为1。但是任何信息的热度都会随着时间以及传播而逐渐下降,因此,在传播模型中,每个节点在受到邻居节点发布信息的影响后,会做出“发布”或者“不发布”的决定,该决定只能产生一次,在初次决定后,节点的状态在之后的传播中不再受影响,也不再改变。
下面对冗余指标中的几个元素进行定义。N为网络规模,aij为社交网络邻接矩阵中的元素,若aij=1,则表明顶点i与j互为邻居节点,否则相反;k(i)表示任意节点的状态,ξ(i)表示任意节点周围是否出现信息冗余现象,可得到:
网络信息覆盖率exp为覆盖节点所占的比例,计算式为:
同理,网络信息冗余率Re为冗余节点所占的比例,计算式为:
3.2 网络结构模型及数据来源
由Watts D J 等人提出的WS小世界模型以及Barabasi A L 等人提出的BA无标度模型是复杂网络研究中的两个基本模型。现实生活中很多网络具备小世界和无标度网特性,如电力网、电影演员合作网等,社交网络也同样如此。研究中除了使用两个基本模型及可调集聚系数的无标度模型之外,在部分仿真实验中也选取了3个真实社交网络数据,包括美国社交平台Facebook网络、法国在线音乐社交网络、维基百科投票网络。网络的主要拓扑以及统计特征见表1。
4 研究结果
4.1 节点冗余概率
2016年,在微信平台上转发量达10万次以上的文章中,《罗一笑,你给我站住》就是信息“病毒式”传播的典型代表。“罗一笑事件”的相关新闻在各大社交平台都出现了刷屏现象,事件相关转发量达到近1 000万次,传播链条最长达到74人,信息覆盖及二次曝光率位居当年前列。其传播路径可视化结果显示,信息传播呈现与随机游走方式相似的链条式特征,使得信息二次转发性强,扩散范围大。因此,首先假定社交网络中造成大范围冗余的信息传播模式为随机游走,探究节点在信息传播中发生冗余现象的概率Poi。
在随机游走过程中,在节点个数为N的网络中,任意节点i被访问的概率Pri与节点的度di成正比:
对于节点i,设相邻节点的序号分别为k1,k2,…,kdi,当随机游走步长n=1时,定义任意一个节点i的邻居节点中,有一个及以上节点发布同一信息的概率为:
其中,令i节点周围任意节点都未被访问的概率为zi,zi(n)为n步下的概率,则:
n步后,节点i是覆盖节点的概率为:
同理,n =1时,定义任意一个节点i 的邻居节点中有两个及以上节点被访问的概率为:
其中,设节点i周围恰好有一个节点被访问的概率为wi,wi(n)为随机游走n步下的概率:
当n=2时,任意一个节点邻居节点中有两个及以上节点被访问的概率为:
以此类推,随机游走 n 步后,该节点邻居节点中有两个及以上节点被访问的概率为:
排除节点i周围任意节点在恰好只有一个邻居节点被访问的情况下,被重复多次访问的概率:
因此,根据网络中的节点度,就可以大致得到该节点在传播过程中出现冗余现象的概率。为了验证数学解析得到的节点冗余概率与传播过程中实际发生冗余现象节点比例的吻合程度,建立由N个节点组成的无标度网络,信息以随机游走方式进行传播。图2显示了对于特定Poi值而言,在多次实验后,实际有多少比例的节点出现了信息冗余现象。仿真结果显示,Po i与实际结果吻合较好,散点大部分落在标准线附近。
图2 节点冗余概率与传播过程中实际冗余节点比例吻合度
4.2 不同因素对信息冗余的影响
本文主要从以下几个方面探索不同影响因素对信息冗余的影响。
(1)传播率α
在信息传播过程中,定义传播率α为任意用户发布事件的可能性。研究中利用信息的传播率来代表微信、微博等现实社交平台中事件的热度。高频率出现或多人发布的内容往往是热门程度较高的消息,如社会突发事件、娱乐八卦、时事政治等类型的事件,往往表现出强大的传播和扩散能力。
(2)节点度d
节点度指标给出了整个网络中每个节点拥有的好友数量,是网络节点重要程度的初步体现。一般而言,节点度值越大,该节点与其他节点交互越多,对网络具有更大的影响,拥有更多获取信息的机会和途径。网络平均度D为网络中所有节点的度的平均值。
(3)集群系数C
集群系数的高低代表网络中“三角形”结构数量的多少。
4.2.1 传播率对信息冗余的影响
首先,建立网络规模为N的WS 小世界网络模型,分析不同传播率条件下,信息冗余程度的变化趋势。从图3可以看出,信息传播过程符合网络从一个传播节点开始,直到所有个体都获取到信息的模型假设。并且值得注意的是,若对传播中的某一时刻(如t=50)进行分析,可以发现,同一时刻下,信息重复率与传播率正相关。这说明,传播率高的信息往往具有较为强大的扩散和传播能力,信息冗余现象受当下舆论热点话题、头条新闻等热门事件影响很大。
图3 传播率对信息重复率的影响(网络参数N=2 000,D=4)
4.2.2 网络密度对信息冗余的影响
本文将网络平均度D作为衡量网络密度的指标。图4显示在同一时刻下(如t=70),网络密度越大,信息重复率越高;除此之外,网络平均度达到某个值时会导致网络信息重复率突然升高。比如D=3时,信息还不能得到有效的扩散,但当网络中每个节点平均只多一个好友时,即D=4,在同样的传播时刻下,网络信息重复率出现大幅度升高,大大增加了信息的冗余。因此,网络信息重复率的高低、信息冗余程度不仅与节点度这一属性相关,还对节点度的变化非常敏感。
图4 网络复杂度对信息重复率的影响(网络参数N=2 000,α=3%)
4.2.3 集聚系数对信息冗余的影响
社交网络中,集聚系数的大小代表网络中三角形关系结构的多少。一个人的朋友之间往往也可能是朋友,这种节点好友之间也互为朋友的结构会影响节点间获取信息的概率和机会。如在B、C分别是A的好友,但B、C之间互不相识的情况下(如图5(a)所示),A发布信息的状态对B是否能获取到该信息起决定性作用;但在B、C分别是A的好友且B、C之间也互为好友的情况下(图5(b)),即使A不发布信息,B也同样能从C处获取到信息,这大大增加了节点B获取信息的机会和途径。因此,在可调集群系数的无标度网络上分析集群系数与信息冗余之间的关系。如图6所示,在多次实验后,可以明显看出随着网络集聚系数的增加,网络中三角形结构增多,网络信息重复率得到了明显的抑制和降低。
图5 三角形人际结构关系
图6 可调集群系数的无标度网络下,信息重复率随集群系数变化趋势(网络参数N=2 000,M=3,t=5)
网络可视化有助于直观地了解网络特征、网络任意时刻的节点状态。因此,为了探究集群系数增大导致网络信息重复冗余率被抑制的原因,笔者选取了两个集群系数有所不同的网络模型,分别对两种网络结构下的信息传播过程进行了可视化,如图7所示。黑色和灰色分别代表已发布信息和未发布信息的节点。可视化结果显示,在网络中信息覆盖节点数相同的情况下,集群系数较大,即网络中具有较多的“三角形”结构的B网络模型,其信息扩散范围明显没有A模型大,且B网络中已发布信息的节点S在网络中的位置非常集中,而A模型中S类节点覆盖范围广,从网络中心一直到网络的边缘,传播链长。这说明三角形人际关系结构虽然增加了信息扩散的机会和途径,但这种结构的“小圈子”封闭性会导致信息的传播受到抑制,使信息传播存在“盲区”,信息传播限制在一个圈子中,降低了信息扩散的范围。因此,集群系数的增大对信息冗余有明显的抑制作用,社交网络中这类三角形结构有助于抑制传播中的信息冗余现象。
图7 不同聚类系数网络模型的信息传播可视化(网络参数N=2 000,M=3)
4.3 冗余信息特征分析
为观察普通信息与二次转发性较强信息之间的差异,分析信息冗余率随信息传播的变化趋势。分别在3种社交网络上进行了仿真,结果如图8所示。随着信息转推层数的增长,信息覆盖率和冗余率不断升高,但随着时间以及信息转推层数的逐渐增多,信息热度渐渐下降,传播人数逐渐趋于稳定。同时,在新浪微博约4.3亿个节点的网络上,选取了近3个月内热门的10条信息进行了实际数据验证,如图9所示,信息覆盖率、冗余率增长趋势与仿真一致。
图8 3种真实社交网络上信息覆盖率及冗余率信息转推层数的变化趋势
图9 新浪微博近3个月内10条热门信息覆盖率及冗余率随传播层数的变化趋势,每条曲线代表一条信息
值得注意的是,从10条信息的传播过程可以看出,热门信息及容易刷屏的信息主要分为两类:第一类信息如图9(a)、图9(b)所示,这类信息由大V博主发布,如娱乐明星或企业机构的官方微博,内容以广告推广或明星的个人宣传为主。在传播特点上,这类信息在第二层或第三层的转发量就可以达到全部转发量的80%左右,也就是说,博主仅依靠自身拥有的粉丝而产生的转发量就可以达到非常可观的覆盖效果。而在第二类信息传播过程中,信息覆盖率和冗余率变化有明显拐点,说明这类信息在传播过程中经过了一些大度节点,并引起了新一轮小范围的爆发。这类信息的发布者可能只是一个粉丝量较少的普通用户,但在信息内容上极具价值,受众面较广,不针对某一类用户的喜好,如社会性新闻等。虽然在传播初期的覆盖面不广,但由于信息内容具有价值优势性,容易引起社会共鸣,虽由普通用户发布,但在后期却能经过大V传播,最终得以爆发。
除此之外,两类信息在传播达到稳定后,信息冗余率也相差较大。相比之下,第二类信息在传播稳定后信息冗余率更高,换而言之,更容易出现刷屏现象,维持热度久。这是由于进入大众视野的新闻虽然可能只是由一个小人物爆出的,但在内容上能引起社会的共鸣,而非通过“买热搜”“买水军”等方式产生的。同时,这一现象也说明,小度节点同样也可以带来很大的信息冗余。
4.4 基于冗余度传播策略研究
这一部分考察冗余率指标在广告推广和产品营销方面的意义。在进行广告推广时,营销者的首要目标是在广告信息投放后,尽可能使信息的覆盖率最大。但从信息冗余的角度出发,更希望在保证信息具有一定覆盖率的同时,也能尽量降低信息冗余率,以达到在广告投放时,既能有良好的宣传作用,也不至于产生大量广告信息刷屏现象,从而引起用户体验感的降低以及对冗余信息的反感。
首先以不同的策略选择节点源,例如按随机选择、按节点度、k-shell值、集聚系数等方式选择传播源,并在实际的社交网络上进行仿真。结果显示,在社交网络中,信息一旦传播开,信息的冗余率是不易控制的,无论选择节点源的标准如何,对信息传播后期冗余率的增长都没有实质性的影响,信息的冗余率都会随着信息覆盖率的增长而快速增长。由此,提出一种“定点投放”策略。同样是根据不同的标准在网络中选择节点源,但在该种策略中,信息不依靠转发的方式一层一层地向外扩散,而是让相应的节点进行信息展示和发布。如图10所示,通过在Facebook网络上进行仿真,可以得出,选择网络度较大的节点,如娱乐明星、大V以及官方微博等,可以很好地达到信息的大面积覆盖,并且当节点数目在一定范围内时,只会造成很小的信息冗余。但这一策略也存在缺陷,虽然实现了高覆盖、低冗余的目标,但就广告的收益而言,过低的冗余可能会造成大部分用户对广告的忽略,因此,合理的信息冗余才能实现广告宣传与用户体验的双赢。
图10 Facebook网络中定点投放策略下节点信息冗余率随覆盖率的变化趋势
5 结束语
本文基于复杂网络理论,定量地分析了社交网络中的信息冗余问题,定义了一种以个体好友信息发布的重复情况度量信息冗余程度的指标。首先,推导了个体在传播过程中出现冗余现象的概率,分析了信息传播率、网络密度、集群系数对信息冗余的影响。仿真结果显示,信息传播率、网络密度与信息重复率正相关,而集群系数的增长对信息重复率有明显的抑制作用。其次,探究了信息传播过程中覆盖率与冗余率的变化趋势及冗余信息的扩散特点,为增加模型的可靠性和说服力,选取了新浪微博近3个月内的10条实际热门信息,与仿真结果进行比对。结果显示,在现实社交平台中,二次曝光及转发性较强的信息更容易进入大众视野并产生刷屏现象,小度节点也可以造成很大的信息冗余。最后,还从营销的角度探讨了信息冗余在广告推广和产品营销方面的意义。按照节点度等级对信息进行定点投放的策略,可以在传播初期很好地实现信息大范围覆盖,同时只造成很小的冗余。因此,本文的研究结果可以有效地评估节点发生信息冗余现象的概率,为进一步了解在线社交媒体的信息扩散特征提供了新的视角,对信息传播在营销领域的应用也有一定的帮助,有助于深入了解网络属性对信息传播的影响,对掌握信息传播规律、冗余信息特点、社交平台舆情都有一定的理论和实践意义。
The authors have declared that no competing interests exist.
作者已声明无竞争性利益关系。
作者简介
秦烁(1995-),女,国防科技大学系统工程学院硕士生,主要研究方向为复杂网络传播动力学。
吕欣(1984-),男,国防科技大学系统工程学院副教授,主要研究方向为大数据挖掘、人类行为动力学分析。
胡延庆(1980-),男,博士,中山大学数据科学与计算机学院副教授,主要研究方向为复杂系统理论。
孟凡辉(1993-),男,中山大学数据科学与计算机学院硕士生,主要研究方向为计算传播学。
《大数据》期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的中文科技核心期刊。
关注《大数据》期刊微信公众号,获取更多内容
往期文章回顾
专题导读:大数据创新实践
基于公开数据的特殊人群在线活动特征挖掘
基于社会化大数据的音乐文化研究进展
利用网络数据预测企业失信行为
结合深度学习的工业大数据应用研究
冒烟指数:大数据监测互联网金融风险