摘要:数据新闻作为大数据发展下的产物越来越受到媒体业的重视。作为研究事物之间关联性的社会网络分析法与数据新闻讲求通过将数据可视化来表达事件之间、人物之间关系的想法相契合。本文对社会网络分析法及其在数据新闻领域的应用进行介绍,并以2016年8月新浪微博热门主题及“王宝强离婚事件”主要人物作为案例进行社会网络分析,以期更多的数据新闻工作者对这一社会科学研究方法进行了解并应用。
关键词:数据新闻;可视化;社会网络分析
前 言
随着社交媒体的发展,新闻记者的准入门槛越来越低,在这个人人都可以做记者的时代,传统媒体在新闻报道的时效性上滞后于自媒体已经成为一种常态,因而传统媒体如何确立自身优势实现行业转型成为需要解决的问题。
近些年“大数据”(Big Data)的兴起深刻改变着人们的思维方式与生活习惯,同时也为新闻报道在深度与专业性上谋求突破提供了可能,在新闻传播学领域“数据新闻学”(Data Journalism)应运而生。2010年第一届国际数据新闻圆桌会议在荷兰阿姆斯特丹举行,本次会议将“数据新闻学”定义为一种流程,包括通过反复抓取,筛选和重组来深度挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事[1]。数据新闻呈现的目的,除了对事件本身的一般性描述之外,还要能通过对数据及其关系的挖掘,对新闻事件进行判断,甚至起到预测的作用。
全世界第一条数据新闻出现于1981年的英国《卫报》,报道是关于学生入学与上学花费[2]。受条件的限制,在数据量与技术手段上和现今的数据新闻有很大差异,但是其报道的理念相似。在国外的主流媒体中,《卫报》、《纽约时报》、《华盛顿邮报》等都有自己的数据新闻业务,且起步较早;我国相关领域在近几年的发展中也有较大进步,财新网的“数字说”和网易的“数读”是其中的代表,但行业整体上呈现可视化效果简单、交互性差等特征,没有将“用户思维”置于本位[3]。
社会网络分析作为一种研究事物之间关联的社会科学研究方法,与数据新闻中通过数据的挖掘来表达事件与事件、人物与人物之间关联的思路相契合,而相关工具的出现也为该方法的运用提供了便捷。虽然社会网络分析法在科研领域运用广泛,但在国内业界数据新闻报道中并不多见,故本文旨在对该方法在数据新闻领域的应用进行介绍,以期更多该领域从业者对这一研究方法进行了解及应用。
1.社会网络分析法
1.1社会网络分析简介
社会网络分析最早是由一群社会计量学家所创立,与统计学家的观念不同,他们认为社会不只是散在个体的简单集合,而既应该包含个体也应该包含个体间所拥有的各种社会、经济或文化关系[4],弗里曼对社会网络分析法的总结,他将该方法的特征归纳为四点:即“结构性思维”、“系统的经验资料”、“图形”以及“数学和计算模型”[5],反映在可视化中,节点代表个体,连线代表关系。随着计算机技术的发展,一批社会网络分析工具被开发出来,比较有代表性的有Ucinet、Pajek和Gephi。
社会网络分析虽然是一种社会科学研究方法,但它的应用范围非常广泛,包括舆情、传播、国际政治与关系、市场营销,不胜枚举;涉及的学科门类众多,涵盖社会学、人类学、数学、经济学、政治学、新闻传播学、统计学等。由于横跨多个领域和学科,为了便于学术交流,该研究方法有了自己的组织“社会网络分析国际网络”(INSNA)与刊物《社会网络》。
1.2社会网络分析与数据新闻
数据新闻的主要表达形式有数据可视化、新闻图解、数据地图等,其中数据可视化的使用最多。数据可视化有狭义和广义的区别,在这里的数据可视化是指将枯燥乏味的数字信息转化为更有利于读者接受的图示。目前主流的数据可视化表达形式诸如柱状图、饼状图、折线图等,已经造成了受众的审美疲劳,因此数据新闻工作者必须要尝试创新,创作出更符合读者体验的作品。
社会网络分析是用来研究不同事物间关系的研究方法,并最终以可视化的形式向受众呈现,通过节点的大小、节点间的连线与距离等来反映不同事物的状态与关系,在一张图上可包含的信息众多。事物间的关系可以介于人与人之间、国家与国家之间,也可以指事件与事件之间,范围很宽泛;它们之间的关系设定,可以是客观上可直接获取的关系,如微博关注关系、转发评论关系、文章引用关系等,也可以是带有人为主观判断的关系。
社会网络分析可以从三个层面进行观察,分别为宏观上的整体结构、中观上的子群网络以及微观上的个体角色,并可依靠一些社会网络分析指标对相应的研究对象进行计算。整体结构是对社会网络的一个大致了解,可以知道整个网络的规模大小,节点关系间的疏密程度,常用的指标有密度、直径、测地线等。并且还可以从纵向上对网络的动态演化以及横向上对同一类型的不同网络进行比较;子群网络通常是指凝聚子群,这是一群因为相同或相斥甚至对立从而产生互动的群体,这类群体与其他比较起来,更有关注的价值。在可视化中凝聚子群的体现一方面要依靠派系、K-核与模等凝聚子群的指标将其与其他节点进行单独提取或区分,另一方面也需要合理的布局;个体角色的观察重点是对在整体网络中扮演重要作用的个体,这些节点可能在互动关系上最多,信息交流中占据重要位置,也有可能是与它产生互动的邻点“质量”普遍偏高,这些节点可以通过点度中心度、中介中心度、接近中心度等中心性指标进行计算得出,并在可视化中通过节点的不同大小来呈现。
此外,社会网络分析还可以与其他的可视化技术进行结合。如图1,Max Galka将社会网络与交互地图相结合来反映国与国之间的共同防御条约签署关系[6]。通过颜色的分布来区分不同大洲之间国与国的地理位置,用线条来构建国与国之间的条约签署关系,节点的大小则是根据各国的人口来设定。
点击美国(图2)可以清楚的看到,与美国签署共同防御条约的国家众多,主要分布于南美、西欧以及东亚地区。这样的可视化表现形式比通过文字的简单罗列要更加直观。
2.案例分析
本文使用Gephi对一组事件关系和人物关系进行可视化制作。Gephi是一款开源的免费跨平台基于JVM的复杂网络分析软件,虽然在学术界Ucinet、Pajek的使用更为普遍,但Gephi在可视化效果上做的更为出色,更利于数据新闻的制作,并且还支持多款插件。
2.1事件与事件关系
本文以2016年8月知微事件博物馆发布的事件微博影响力为筛选依据,选取排名前35的主题,在节点数据表格中将主题从事件名称、事件类型、开始时间以及事件影响力这五个方面进行划分(见图3)。事件类型从时政、科技、商业、社会、体育、娱乐、灾害这七个方面进行分类,由于前35名中没有时政类,因此在本文中只有六种类型,再在边数据表格里将相同类型的事件彼此之间构建联系;事件影响力则是根据主题的微博转发评论量综合建模计算得出。
在Gephi文件里,对相同类型事件之行“模块化”聚类,并在颜色上区分,再根据微博影响力对节点大小进行设置,最后使用合适的布局对图进行生成(见图4)。从图4里可以清晰地看出,整个八月体育类型尤其是奥运题材成为主要话题门类,“王宝强离婚”、“‘洪荒之力’傅园慧表情包走红”以及“游泳运动员霍顿称孙杨为‘用药的骗子’”成为当月最热议题。与柱状图等图示相比,图4更为直观,所包含的信息量更大,不仅将不同分类的事件包含在一张图里,而且还可以根据节点看出事件的影响力大小。
事件与事件的关系设定可以有很多种,本文只是根据事件分类来进行关系的构建,还可以将体育大类再根据运动项目细分等,分类需要与具体的事件结合起来进行思考。
2.2人物与人物关系
本文以2016年八月微博最热门事件之一“王宝强离婚”为例,对该事件中的四个主要人物王宝强、马蓉、宋喆以及杨慧的微博关注进行抓取,并将关注关系导入(见图5),Source为关注者,Target为被关注者。
下面的操作和事件关系相同,进行“块模型”的聚类和上色,最后使用合适的布局并调整文字距离。可视图如图6所示,在该图中,通过布局将四人单独关注、两两关注、三三关注、以及四人共同关注分模块显示,以期从关注关系中挖掘出更多的潜在信息。
将社会网络图局部放大进行观察,聚焦于马蓉和宋喆的共同关注(见图7),有两类微博值得注意,可以体现二人的一些共同关注点:其一是奢侈品类,诸如“Armain阿玛尼”、“HERMES”、“Versace范思哲官方微博”这些国际一线奢侈品牌微博;其二是“装修都要开脑洞”、“创意家具装修设计”这两个装潢类的微博。而在该事件爆发不久之后,就有媒体爆出“马蓉宋喆共同购房”的消息,并配以照片加以佐证。
而根据媒体整理的“声援王宝强”的明星里[7],陈思诚、佟丽娅、黄晓明和李晨等人最早发声,并公开支持王宝强,这份名单与社会网络图中王宝强夫妇和杨慧三人的共同关注(见图8)相吻合。以上这些数据及其可视化分析,虽然不能直接证明,但也可以间接、客观地反映四人的朋友圈及关注点。
结 语
本文对社会网络分析法及其在数据新闻领域的应用进行了介绍,并以2016年8月新浪微博热门主题及“王宝强离婚事件”主要人物做了两组事件之间与人物之间的案例分析。相较于主观性的文字表述,社会网络分析法对于不同事物关系的梳理更加客观更具有说服力;与其他图示相比,所包含的信息量更大,呈现的关系更加简单明了,符合用户的阅读行为与阅读习惯。并且该方法还可以通过一系列的指标从不同层次、不同维度对数据进行深层次挖掘,获得一些潜在信息。
随着国内数据新闻的不断发展,越来越多的社会科学研究方法将被引入,这也对我国的数据新闻工作者提出更高的要求,除了敏锐的新闻嗅觉以外,还要具备一定的编程基础,能够熟练运用可视化工具,并掌握一些常用的社会科学研究方法。上述能力的具备既要求新闻单位引入更加多元学科背景的工作者,更需要这些相关人员在各自分工的基础上加强彼此之间的交流、沟通与融合。
(注明:原文刊载于《编辑之友》2017年第2期)
参考文献
[1] 方洁,颜冬. 全球视野下的“数据新闻”:理念与实践[J]. 国际新闻界,2013,06:73-83.
[2] TOW Center. The Art and Science of Data-driven Journalism[EB/OL].[2015-9-3].http://towcenter.org/wp-content/uploads/2014/05/Tow-Center-Data-Driven-Journalism.pdf.
[3] 陈钟昊,王朋进. 我国新闻网站数据新闻特征及问题[J]. 青年记者,2016,02:62-63.
[4] 蜘蛛:社会网络分析技术.[M].北京:世界图书出版社,2014:3.
[5] 弗里曼.社会网络分析发展史[M].北京:中国人民大学出版社,2008:9-27.
[6] A Tangled Web of Alliances. Max Galka. [WB/OL] .
http://metrocosm.com/tangled-web-alliances/.
[7] 佟丽娅黄晓明李晨陈思成力挺王宝强 娱圈众星发声. 中国日报中文网. [WB/ OL] .
http://cnews.chinadaily.com.cn/2016-08/17/content_26507603.htm.