理论(用户分类)和应用两个方向
【关键词】社交网络,拓扑结构,网络群体,信息传播
社交网络在维基百科的定义是:”由许多节点构成的一种社会结构",节点通常是指个人或组织,而社交网络代表着各种社会关系。
基于互联网的社交网络已经成为了人类社会中社会关系维系和信息传播的重要渠道和载体,对国家安全和社会发展产生着深远的影响.虚拟的社交网络和真实社会的交融互动对社会的直接影响巨大,所形成的谣言、暴力、欺诈、色情等不良舆论会直接影响国家安全与社会发展。
在线社交网络是一种在信息网络上由社会个体集合及个体(也称为节点)之间的连接关系构成的社会性结构,包含关系结构(载体)、**网络群体(主体)与网络信息及其传播(客体)**3 个要素。
(1)在线社交网络的结构特性与演化机理。
(2)在线社交网络群体行为形成与互动规律。
(3)在线社交网络信息传播规律与演化机理。
在线社交网络分析涉及计算机科学、社会学、管理学、心理学等多个学科领域。
(1)社交网络的结构分析与建模(基础)
社交网络结构分析是通过统计方法来分析网络中节点度的分布规律、关系紧密程度、相识关系的紧密程度,某一个用户对于网络中所有其他用户对之间传递消息的重要程度等诸多统计特性。
社交网络建模是针对社交网络的特性,采用结构建模的方法来研究产生这些特性的机制,以此来深刻认识社交网络的内在规律和本质特征。(图论方法)
(2)虚拟社区发现(必备功能)
(3)社交网络演化分析
动态演化性
(1)社交网络上的用户行为分析
社交网络上群体行为分析的已有研究主要集中在群体社交网络选择模型研究,以及个体行为特征分析等2 个方面。在群体社交网络选择模型研究方面,2007 年,美国密歇根大学的埃里森(Ellison)等人将社交网络的群体行为关系分为桥接型、黏接型和维持型三种类型,并基于回归分析发现**桥接型**关系对个体选择社交网络有着更重要
的影响。
(2)群体情感建模与行为互动
情感分析是针对主观性信息(“支持”、“反对”、“中立”)进行分析、处理和归纳的过程,主观性信息表达了人们的各种情感色彩和情感倾向。社交网络中每个人情感状态不同,影响力也会不同。
特指:以社交网络为媒介进行的信息传播过程。
信息传播是人们通过符号、信号来进行信息的传递、接收与反馈的活动,是人们彼此交换意见、思想、情感,以达
到相互了解和影响的过程。
(1)社交网络的信息及其能量
已有研究主要集中在信息的符号表示与意义,以及信息传播能量及演化方面。
(2)社交网络信息传播模型
已有研究主要集中在传染病模型、网络拓扑图模型以及基于统计推理的信息传播模型等。
(3)社交网络信息传播影响(热点)
其目的是发现社交网络中最有信息传播影响力的节点集合,从而经过信息在社会网络中的传播,最终能够最大化信息的传播范围。在实际生活的许多重要场景中,社交网络信息传播影响分析均有着广泛的应用,例如,市场营销、广告发布、舆情预警、水质监测、疫情监控、网络竞选、突发事件通知等。
研究方法:有概率论方法、经济学方法和传播学方法。
概率论方法:基于概率图模型对研究信息传播的敏感度和影响力的方法,可以对概率图参数、结构的重要性进行量化分析。
国防科技大学、上海交通大学、合肥工业大学、北京邮电大学、中科院计算所、北京大学、清华大学、北京科技大学、浙江大学、哈尔滨工业大学、中科院信工所等单位都开展了系统性的研究。
国际上人们对于大型社交网络的本质特征和网络信息传播的基本规律的研究仍处在相对初级的阶段,尚未提出完整的社交网络分析的基础理论和方法,仍然值得我们进一步进行研究和突破。
结构、群体是为传播研究而服务的。
社交网络分析的3 个要素“结构”、“群体”和“传播”是相互作用的关系。社交网络结构建模和群体互动规律分析的目标都是支持信息传播形态研究,因此是否能够将结构建模与群体互动者两个独立的要素结合起来,研究结构与互动相结合的动态建模方式?已有的信息传播过程分析中,核爆炸式、烟花式、星球式、水母式等信息爆发式传播形态都能客观表示,如何能够让拓扑结构建模对这些信息传播的模型有所贡献?如何从结构建模的角度支持这些外显形态的存在?群体事件、群体极化、群体演化等社交网络中的群体形态是否也能被模型化?信息传播的影响力是否能够形成一个可计算的量纲?如何将碎片化、时变的、演化的话题分析技术和信息传播、溯源技术结合起来,形成信息传播的可计算模型。
作为一种新型媒介,在线社交网络的根本在于信息流动和传播,而信息的传播根植于社会群体的互动,但又受限于社交结构与社区的规模。
信息传播过程可以被视作社交网络中一个时间函数的求解变量,其中的群体正是函数因子,而社交网络的拓扑结构是控制其发展的边界条件。21 世纪,是人类高度依赖数据、深度融入信息社会的世纪。在信息社会中,在线社交网络构建了庞大的功能平台。人们在社交网络上表达观点、交友互动,每天都产生数亿计的信息。
在线社交正在改变着人们的行为模式和社会形态,而在线社交网络数据也正在成为最成熟的大数据,通过研究和分析这一技术,人们有望对在线社交网络大数据背后的用户行为、社会现象的理解达到空前的深度。
社交推荐顾名思义是利用社交网络或者结合社交行为的推荐,具体表现为推荐 QQ 好友,微博根据好友关系推荐内容等。在线推荐系统最早被亚马逊用来推荐商品,如今,推荐系统在互联网已无处不在,目前大热的概念“流量分发是互联网第一入口”,支撑这个概念有两点核心,其一是内容,另外就是推荐,今日头条在短短几年间的迅速崛起便是最好的证明。
根据推荐系统推荐原理,社交推荐可定义为一种“协同过滤”推荐,即**不依赖于用户的个人行为,而是结合用户的好友关系进行推荐。**对于互联网上的每一个用户,通过其社交账户能很快定义这个用户众多特点,再加之社交网络用户数之多,使得利用社交关系的推荐近些年备受关注。
舆情分析在互联网出现之前就被广泛应用在政府公共管理,商业竞争情报搜集等领域。在社交媒体出现之前,舆情分析主要是线下的报纸,还有线上门户网站的新闻稿件,这些信息的特点是相对专业准确,而且易于分析和管理;但随着社交媒体出现,舆情事件第一策源地已经不是人民日报新华社这样的大媒体,而是某一个名不见经传的微博用户,一个个人微信公众号。他们的特点是信息非常新鲜,缺点是真实度较低且传播十分迅速,难以控制。所以在社交网络下的舆情分析是一门新的学问。
“刺死辱母者”微博转发趋势
举几个例子,去年的和颐酒店,今年的北京地铁骂人事件这类急性舆情事件最早就是在微博上爆出,而且在短时间内迅速传播。还有去年的关于快手的“中国农村残酷底层物语”,今年的“北京房价”等这类民生话题,也是在微信公众号逐渐发酵。
当然,在新形势下的舆情应对,也已经有新的工具,大家百度“舆情分析平台”或者“舆情分析软件”可以找出一大堆。比较有名的有蚁坊、红麦、清博、知微、新榜等等。一些传统的舆情分析机构开始转型做“大数据”的舆情分析,也有近年来完全基于社交媒体的舆情平台,比如基于微信的新榜和基于微博的知微 。除此之外,BAT 等大型平台有自己舆情分析工具,可以私人订制,也有开放的指数(百度指数、微信指数)。
隐私问题在互联网时代已经是老生常谈的问题了。在社交网络中,作为用户,我们可能会留下大量痕迹,这些痕迹有隐性的,也有显性的,好不夸张地,社交服务提供商可以根据你的少量痕迹,挖掘到大量你的个人信息,有些信息是你不愿意别人知道的。
这其中存在一个矛盾,即社交服务提供商处于商业目的想尽可能获取你的个人信息,但是你又担心自己的个人信息被泄露。所以在隐私保护领域,一方面要设计足够安全的机制,技术层面的,法律层面的,在保护个人隐私的前提下最大化商业利益和用户的体验。
举一个大家比较熟悉的例子,即许多网站注册账户的时候使用微信、支付宝账户验证,即免去了大家填写个人信息的烦恼,又保护了大家的隐私。同理,蚂蚁金服提供的芝麻信用功能也有隐私保护的功能。
目前学界对隐私保护的研究主要还是从技术层面设计完善的隐私保护机制。
用户画像,这是个营销术语,即通过研究用户的资料和行为,将其划分为不同的类型,进而采取不同的营销策略。传统的用户画像最常用的手段就是调查问卷,订阅过杂志和报纸的读者都知道,会有各种各样的有奖问卷,一方面用来获得对于产品的反馈,另一方面就是对你进行画像,这些画像资料甚至广泛在黑市流通,这就是你为什么有时候会接到莫名其妙的电话的原因(又扯到了隐私保护问题)。
在社交网络,用户画像方式变得更多了,除了传统的线下问卷变成在线问卷。我们通过用户的行为,一方面通过统计学方法获得一些用户特征(经典的例子是沃尔玛的“啤酒和尿布”,另一方面通过机器学习进行建模和验证获得意外的收获(参见上面提到的腾讯社交广告文章)。
接触过微信公众号后台的读者都知道,公众号后台对微信公众号文章的读者还有公众号粉丝的画像已经做得非常充足了,好像微博会员也有粉丝画像的功能。这些便捷的功能对于媒体运营者和广告投放者都有非常重要的作用。
谣言检测算是舆情分析的一部分,之所以单独提出来是因为这部分非常重要,而且谣言的确定对于舆情管理非常重要。早起微博因为充斥着大量谣言,使得新浪微博不得不推出“微博辟谣”官方账号,到如今微博以及有许多自发和官方的辟谣账号,微信公众号也是如此。
传统辟谣方法无非是进行试试检验,用证据说话,随着现在机器学习技术的迅速发展,我们也可以通过信息传播的轨迹,信息内容等维度自动判断消息是否属于谣言,而且判断地越迅速,对于舆情管理的意义就越大。同理,这种技术也被应用在社交网络有害信息识别。
在国外,有关 Facebook 假新闻的新闻被炒得火热,有兴趣的读者可以关注一下。
可视化是随着大数据一起成为热门话题的。因为人类对于图像信息的理解速度要大于文字信息数百倍,所以讲一些数据可视化有助于人们更生动地理解某一结论或现象。当然不是所有数据都适合可视化,在社交网络中,我们最常见的有信息传播轨迹还有词云图等。有关这方面的内容可以参考微博账号“社交网络与数据挖掘”。
除了专门可视化的机构,网上也有许多开源的可视化库,百度的 Echarts 就很有名。 对于社交网络信息传播以及好友关系等的可视化,使得我们能直观看到一些事实,这对于舆情报告制作以及新闻报道都有很好的辅助作用。
《社会计算》Lei Tang, Huan Liu
《社交网站的数据挖掘与分析》Matthew A. Russell
《在线社交网络分析》 方滨兴等
《社交媒体挖掘》Huan Liu等
《大话社交网络》郎为民
http://hao.199it.com/
http://memetracker.org/data/index.html
http://archive.ics.uci.edu/ml/datasets.html
http://www.socialysis.org/data/project/project
https://cn.aminer.org/
http://132.239.95.211:8080/demowww/index.jsp#
https://grouplens.org/
http://www.xinhuanet.com/xuanzhi/zt/xzyxl/index.html
http://www.newrank.cn/
http://www.gsdata.cn/
http://echarts.baidu.com/
https://yq.aliyun.com/teams/8
Python 及其相关库(scipy,numpy,pandas,scikit,scrapy,twitter )更多请见 http://blog.csdn.net/hmy1106/article/details/45166261
图分析分析工具 Graphchi,SNAP,Pajek,Echarts
可视化工具 Gephi,Graphviz
数据挖掘工具 WEKA,AlphaMiner
图数据库 Neo4j
笔者仅列出与社交网络相关的部分国际会议,排名不分先后,加粗的会议为专门讨论社交网络话题的会议。
KDD, WWW, ICDM, CIKM, AAAI, SDM, IEEE BigData, ASONAM, WSDM, ICWSM, ACL, IJCAI, NIPS, ICML, ECML-PKDD, VLDB, SIGIR, PAKDD, RecSys, ACM HT, SBP, ICWE, PyData
笔者在这里推荐两个国内的社交网络分析会议,一个是全国社会媒体处理大会(SMP),由中国中文信息学会主办,会议论文 EI 检索。第二个是国际网络空间数据科学会(IEEE ICDSC),会议由中科院,北大,中国网络空间安全协会等机构筹办。
笔者在上一部分提到的国际会议,例如 WWW、KDD 等,每年都有关于社交网络分析方向的 tutorial,其视频和 PTT 都是在网上可获取的,通过 tutorial 能对相关领域有一个宏观了解并且能了解领域前沿动态。
除此之外,在 Coursera 上面密西根大学安娜堡分校开设的一系列 Python 学习课程也值得一看。在网易公开课上面也有中文的 Python 数据挖掘课程可供学习。
万能的淘宝也提供大量廉价的视频和电子学习资料。
最后,利用好科学上网工具和搜索引擎(不是百度)才是王道。
[1] 方滨兴, 许进, 李建华. 在线社交网络分析[M]. 电子工业出版社, 2014.
[2] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. 社会媒体挖掘[M]. 人民邮电出版社, 2015.
[3] Carlos Castillo, Wei Chen, Laks V.S. Lakshmanan, Information and Influence Spread in Social Networks,KDD 2012 Tutorial
[4]中国知网(中科院院刊)社交网络分析核心科学问题、研究现状及未来展望
基金项目:国家重点基础研究发展计划(“973”)项目(2013CB329601),国家自然科学基金项目(61372191)