大数据这个概念最早是在上个世纪80年代提出的,随后的20多年里,美国企业界、学术界对它不断地加以探讨、深究,2010年推出了《规划数字化的未来:美国总统科学技术顾问委员会给总统和国会的报告》,再到2011年麦肯锡咨询公司发布的研究成果《大数据:下一个创新、竞争和生产率的前沿》,将这个概念进行大范围的推广。直到2012年3月29日,奥巴马宣布将投入2亿多美元立即启动“大数据发展和研究计划(Big Data Research and Development Initiative)”,从而引起了产业界、科技界和政府部门的高度关注。大数据的发展状态是业界的实践在引领,学界的研究在追逐。而发端于计算机领域的数据研究也在向其他学科渗透,每个领域的学者都在找寻大数据所带来的影响和改变,探索新的研究方法和思路。
所谓大数据是这样的数据——规模大、非结构化、数据集彼此无关联,需要快速地分析,且其分析依赖于新兴的技术和人才。大数据具有规模性(volume)、多样性(variety)、高速性(velocity)和有价值(value)等特点。大数据技术建立在WEB2.0背景下的数据挖掘基础上,核心是对以关系为纽带的社会网络的识别、发掘和利用,其对社会生活的广泛嵌入性和自动化、规模化处理信息的快捷性,进一步把传播学研究的工作范围和创造性提升到新的水平。在这个背景下,通过对大数据基本特性的分析和探讨,在既有研究成果的基础上,揭示大数据时代传播学研究的变革与进路,为本领域因应大数据时代的到来提供新的研究思路、研究架构和研究手段是极为重要的。本文以正在兴起的大数据分析为观察视角,探讨传播学研究的模式、逻辑和手段的新变化。
一、大数据新闻的实践尺度:以数据新闻奖为例
数据新闻奖(Data Journalism Awards,DJA))2012年首度设立,是国际上第一个表彰数据新闻领域优秀工作的专业竞赛,对参选者进行分析,可以管中窥豹了解全球大数据新闻的实践尺度。该奖由全球编辑网(Global Editors Network,GEN)发起和组织,谷歌公司资助奖励。全球编辑网是一个非盈利、非政府性的行业协会,汇聚了有前瞻性思维和对未来新闻业有热情的新闻主编和媒体高管,他们来自印刷、广播电视、数字、移动等多种新闻平台,旨在打破传统媒介和新媒体的壁垒,对未来新闻业界定一个开放的工作模式,创造新的新闻理念和工具。数据新闻奖(DJA)向媒体机构、非盈利组织、以及自由职业者或个人开放,其目的是:
在数据新闻方面设定高标准和展示最佳实践;
启发记者的数据新闻创意;
向媒体编辑和媒体高管彰显数据新闻的价值;
强化记者、开发者、设计师和有关专家间的合作。①
首届数据新闻奖评选是目前大数据技术在新闻业的最高水平展示,吸引了众多大数据新闻实践者参与,共计51个国家286个参赛项目,入围59个项目/作品,最终6项获得大奖,代表了世界范围内新闻业应用大数据技术的最佳创意和创新。从参选情况看,有以下特点:
第一,从地域上看,大数据新闻在世界范围内已有普遍实践,包括非洲、中东等地区,欧洲是大数据新闻的最大热衷者,参考数量约占全部参赛项目的40%。各地项目数量分别为:欧洲116个(英国、荷兰、西班牙),北美洲80个(美国、加拿大、墨西哥),非洲22个(肯尼亚、尼日尼亚、埃及),亚洲21个(菲律宾、印度、中国香港),东欧18个(罗马尼亚、俄罗斯、乌克兰),南美洲12个(巴西、阿根廷),中东11个(吉尔吉斯斯坦、巴基斯坦、阿联酋),大洋洲6个(澳大利亚、新西兰)。
第二,从行动主体来看,大数据新闻涉及政府、商业、媒体等机构,媒体是大数据新闻的主要参与者,约占55%。在全部181个参赛者/机构中,媒体101个,自由职业者18个,广告机构16个,公司13个,行业协会13个,大学12个,政府机构8个。
第三,从资源看,这些项目的数据来源主要是公开数据。公开数据198个,其中有38个项目的数据是应项目需求而公开的,自主收集70个,私有数据56个,社会化媒体11个。大数据新闻的主题主要涉及财政预算、环境污染、法律和权益问题、居民消费等,而这些领域的主要资源都在政府部门手中,所以政府的公开信息是这些项目的主要数据来源。
第四,从运行过程看,大数据新闻的工作团队呈现高效精干的特点。大数据新闻比拼的不是采访力量和团队规模,更看重具有新闻敏感的人、具有数据挖掘和分析能力的人以及数据可视化呈现的人相互协作。这些参赛作品中每个团队平均只有4人,单人团队有87个。所有项目的设计和执行平均耗时5个月10天,耗时最短的项目只用了8个小时。
首届数据新闻奖将大数据新闻项目的创新分为三个类别,数量最多的是“数据驱动的调查性报道”(Data-driven investigative journalism)121个,其次是“数据视觉化和数据叙事”(Data visualization & storytelling)107个,第三类是“数据驱动的应用”(Data-driven applications)58个。这些类别实践项目中的新闻工作理念创新,特别是对解决传统的新闻职业困境带来了启发。一个典型案例就是首届数据新闻奖中6个最终获奖作品之一的“骚乱中的谣言”——在伦敦骚乱中,英国《卫报》(The Guardian)运用数据新闻帮助读者更深入理解事态进展和背后原因。当时英国政治界人士认为骚乱原因之一是由于Facebook和Twitter等社交媒体传播的谣言煽动了民众,并据此要求暂时关闭社交媒体,而政府急于应急处理骚乱,并未调查骚乱发生的真正原因。《卫报》与学界合作组建“解读骚乱”(Reading the Riots)数据新闻团队,利用法院和地方政府的数据,使用地图显示骚乱发生地和该地域贫困程度之间的对应关系,一定程度上反驳了卡梅伦在事件起初声明的“骚乱与贫困无关”。同时,研究者对微博信息进行了内容分析,并对数据进行可视化处理,指出Twitter并非只是传播谣言,在纠正谣言和动员民众恢复街区秩序方面也发挥了作用。
数据驱动的调查性新闻给媒体带来工作层面的一个跃迁:从关注社会表层现实到发掘社会深层现实,这在一定程度上可以提高媒体对社会现象的把握能力,也在一定程度上改进客观性的具体践行方式。这也启示我们重新思考对新闻职业理念的研究路径。如果把新闻真实、新闻客观、新闻平衡作为规范性理论对待,那么将一直存在应然和实然二者之间的张力,现实的种种制约将让我们对职业理念感到困惑甚至绝望。如果把客观性拉低一个讨论层次,从操作性和可行性探讨,那么传播技术带来的可能将进入我们的视野,职业理念不再是一个僵死的东西而是可以改进和优化的,是有发展预期的。事实上,近年来学界和业界亦在讨论新闻业从客观性到透明性的追求,“透明意味着在新闻报道中植入一种新的意识,说明新闻是如何获得的以及为什么要用这种方式表达”。大数据新闻运用社会科学研究的方式探寻事实及其背后的联系,采用的数据和分析数据的技术都是相对公开和客观的,这有助于媒体建立起面对复杂社会问题时进行新闻报道的透明性。
二、大数据视域下舆情研究的转向
大数据对传统舆情研究产生了深刻的影响,在这种大背景下,社会舆情研究需要进行如下相关转向,以实现学科的调试和适应,具体主要包括以下几点。
1.研究视角的转向:从单向度的内容研究转向“内容+关系”的多维度研究
随着大数据时代的到来,传统的舆情研究只重视网民话语表达的单向度研究必将改变,话语作为一种外在的社会表达,属于浅表层面,不能够有效地窥探出网民群体的社会行为、社会心理和社会诉求。借助大数据,舆情研究的视角将更加多元化,未来舆情研究的视角将转向为社会话语表达、社会关系呈现、社会心理描绘、社会诉求预测等多方面、多向度的研究,通过这样的研究转型,社会舆情研究将真正成为一门与多学科交叉的社会显学,成为一门学科,改变目前舆情研究“策为上、术为主、学匮乏”的尴尬学术现实。
2.研究方法的转向:由舆情信息采集转向数据加工、可视化等
由于舆情监测的前端界面呈现的方式上同质化程度较高,目前的舆情监测和舆情研究主要集中在舆情信息的采集及信息源的扩展方面。无论是北大方正舆情产品还是拓尔思(TRS),在对新闻网站、微博账号进行监测时,都必须将网站地址和微博账号的微号设定好,甚至新闻网站的网站设计样板也要进行设定,被监测的网站一旦改版,后台监测也必须调整相应的网页样板。各种舆情软件之间的竞争主要集中在信息采集源覆盖的范围以及数据分析后台的算法上,但呈现出来的前端页面则是“千网一面”。
大数据将目前舆情信息采集的环节拉回到一个竞争层面上来,未来舆情监测和研究的数据源可能来自同一个大数据库支撑,舆情研究主体竞争的是各类算法的精细化、准确化,并在呈现给用户的前端界面上进行优化,增强前端界面的友好程度,整个竞争的链条就会不断下移,更加适合用户的需求。
3.数据库支持的转向:由简单的、有限的数据库转向非结构化的大数据库
目前的舆情监测和研究所依据的数据库相对来说比较简单,结构单一、数据量有限,还停留在TB级别,主要因为这些数据库的数据源要么是基于抽样进行数据抓取的,要么仅抓取重点网络站点,数据量有限,数据库标准相对较低,能针对小规模、有结构或类结构的数据进行分析,谈不上深层次的数据挖掘,现有的数据挖掘算法在不同行业中难以通用。大数据的数据体量巨大,从TB级别,跃升到PB乃至ZB级别,因此大数据所涉及的资料量规模巨大到无法通过目前主流软件工具进行处理和识别,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力,这需要巨大的数据库作为支撑。另外,大数据的数据资源相对驳杂,是一种非结构化的数据呈现,因此需要相应的非结构化的数据库相对接。
4.舆情研究主体的转向:由小作坊式的单打独斗、面面俱到舆情监控转向分工明确、高度聚合集约的舆情分析
目前实践中的舆情监测和研究主体比较多,仅用于商业运营的软件监测主体就有几百家之多,这些舆情监测主体多半是软件服务商,通过网络爬虫技术、分词技术和议题聚合等技术,开发出相关软件,为企业、政府部门和科研院所安装和维护,进行简单的数据采集和分析,类似于小作坊式的舆情监测方法,这种运作方式急功近利,为了眼前的商业利益,不重视产品研发和数据源的扩充,通过吃回扣等商业贿赂方式尽量多卖几套“软件”。各舆情主体之间的竞争显得低层次化和粗放型。
未来大数据使得舆情研究主体在同一个层面上竞争,即数据处理和呈现的能力上,在大家可以获得同一数据源的前提下,双方的竞争必将在数据处理、算法精进、界面友好、可视化等层面展开竞争,分工会进一步明晰,行业内部会进一步聚合集约,加速行业洗牌,行业有机化程度增强。
5.舆情研究重点的转向:由舆情监测转向为舆情预警乃至预测,从单向度的危机应对、品牌营销转向各领域的综合信息服务
目前的网络舆情研究主要集中在监测,主要是对一些显著性事件的舆情动态,包括传播范围、影响力等进行监测和研判,类似于相面术的“麻衣相”,只知道事件发展的过去,不知道事件发展的未来。大数据的核心是预测,可以通过分析处理整群数据,而不再大量依赖随机采样,通过自然语言处理、模式识别以及机器学习等人工智能技术,结合人工经验,未来实验舆情的预警,研判未来舆情发展的态势和影响,并在此基础上实现超出人类经验范畴之外的精准化预测。如国外研究人员已发现,Google搜索请求中诸如“流感症状”和“流感治疗”之类的关键词出现的高峰要比一个地区医院急诊室流感患者增加出现的时间早两三个星期(而急诊室的报告往往要比浏览慢两个星期左右);而在在经济预测方面,Google上房产相关搜索量的增减趋势相对于地产经济学家的预测而言是一个更加准确的预言者。
另一方面,目前由于数据量和技术等限制,舆情研究还主要集中在危机应对和品牌营销等方面,这种应用主要基于舆情监测和研判这一功能进行的,未来随着大数据在舆情研究中的使用,舆情研究的功能指向必将更加多元化,为政府部门、企业和个人提供更加综合化的信息挖掘服务。
三、大数据分析为品牌传播开辟了新视界
大数据分析的关键其实并不在于掌握大量的数据,而是在于从数据中提取意义的能力,以及发现隐藏的模式与可能的关系的能力。大数据的收集与分析能力的提升,为品牌形象管理提供了新的有利条件。
1.品牌接触点的精准把握
按照美国西北大学舒尔茨教授的定义,品牌接触是指用户接触到关于产品、品牌、市场等的信息的过程。品牌接触点必须准确地适应细分目标受众的习惯和行为诉求,这样才能精确推送品牌信息,从而以点带面,构建用户头脑中关于品牌形象的整个图景。
品牌形象管理必须以公众为核心。品牌定位论认为,品牌形象传播要从用户角度出发,研究了解用户的所思所想,从而由外而内地在用户心目中占据一个有利位置。在新媒体时代,碎片化、多样化的消费者构成了每个品牌的顾客图谱 ,在这种趋势下,品牌个性变得至关重要。个性是品牌的灵魂,具有强烈个性的品牌会更容易引发用户的关注,与用户自身相契合的品牌总能吸引用户的目光,从而引发品牌认知、品牌接触和品牌消费行为。也就是说,精确把握用户对于自身个性与需求的感知,会增加其对品牌个性的认同度,使得品牌形象快速到达。
在大数据时代,基于交互性的传播平台,以及智能的数据库管理,用户的形象被勾勒得更加清晰,并且根据兴趣与需求被重新标签化、归类化,这样就提升了品牌形象推广的精准度。在2012年的美国大选中,奥巴马的团队就充分利用了大数据技术做个人形象品牌的推广决策,大数据技术被广泛应用于竞选策略的实施调整与资源的优化配置。例如,团队认为与其依赖根据直觉与经验决策的顾问,不如将决策建立在内部大数据库上。为了定位迈阿密·戴德35岁以下的女性选民,大数据帮助团队将竞选广告投放到非传统类剧集(如《混乱之子》《23号公寓的坏女孩》)之间的广告时间,而回避了《60分钟》之类新闻之间的广告时间段;竞选后期,团队把奥巴马送到很多顾问助手尚不了解的社会化新闻网站“Reddit”去回答问题,因为大数据显示那里有许多中间派的目标选民。
大数据时代,会带来让人耳目一新的品牌传播思路与路径的转变。早在2011年,麦肯锡在题为《海量数据,创新、竞争和提高生成率的下一个新领域》的研究报告中就已经指出,大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而2012年达沃斯世界经济论坛上,就有报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。这是大数据的价值所在。由于有了对大数据的认知,用户的需求、交流、参与可以被无限细分,媒介经营者更加注重细分市场,寻找利基。基于大数据挖掘与分析,经营者对用户需求高度敏感,预测更加准确,从而找到最佳品牌用户,推送最适合的内容产品与广告服务,而不会以大量无关信息来挑战用户的忍耐度。
2.用户需求交叉点的精准发现
当前媒介竞争日益激烈,广告成本相对提高,推出新产品的风险也大幅增加。因此商家需要通过建立品牌形象来减少产品的销售成本,降低新产品开发的风险,优化用户的决策过程,增加企业的竞争优势。大数据时代开始,数据具有了独立存在的价值。2012年IBM与牛津商学院对英国和爱尔兰的公司对于大数据的使用做了调查,发现近六成的企业承认竞争优势与大数据有关。
理性行为理论(TRA)认为,行动是由一个人做出行动的意愿所决定的,而这个意愿则是这个人对于行为的态度和反映社会影响的主观规范的函数。也就是说,预测用户将采取何种行为,最好的办法是了解其意愿,也就是其头脑既有的对于事物及自身的认知和准则。大数据时代,数据智能使得很多想法变成了可能,例如通过对于个体小数据的分析,可以根据用户的爱好或人际情况定位品牌传播;比如整合碎片信息,通过语义分析,了解用户对于媒介品牌的感知、态度等。
例如Netflix(奈飞)就是基于大数据技术完成了渠道到内容的转型,成功塑造了精品网络剧播出平台的品牌形象。Netflix是美国的一个在线DVD租赁公司,也是一个影视剧的在线播出平台。通过大量的用户数据分析,Netflix发现一个用户需求的交叉点,即喜爱观看1990年《纸牌屋》的用户,同时也喜欢导演大卫·芬奇,并且也喜欢奥斯卡影帝凯文·史派西。剧本、导演、主演三者具备,这一“巧合”促成了新版《纸牌屋》的诞生。据传Netflix在没有任何预告片或样片出来前,就预付了两亿美元订购该剧。在《纸牌屋》开播前两天,Netflix股价最高涨幅达到44.47%,在最近6个月的时间里,Netflix的股价涨幅超过200% ,一跃成为行业内的翘楚。
《纸牌屋》以及Netflix品牌营销的成功,都是对大数据时代的精准判断。大数据技术运用的核心在于精确预测可能性。长期以来,人们用抽样代替普查,但是在碎片化的今天,抽样的代表性和准确性受到了一些质疑。大数据时代为调查研究提供了一个前所未有的全样本的机会,这比以往的基于抽样的问卷统计、电话调查等方法更加强大,也更加便捷。同时,由于品牌体验往往影响用户的下一次购买行为的决策,因此获得用户品牌体验的数据也非常重要。在大数据时代,获得用户的品牌体验也有了不同于以往抽样问卷调查的新方式。对于Netflix来说,在线播出的便利可以使其通过强大的数据库监测系统,分析出《纸牌屋》的线上观看过程中,用户在何处按下了暂停键,有多大比例的用户中途弃剧,有多少用户观看了不止一次,等等。这一系列的用户体验数据的收集与分析,可以提供有价值的参考。
http://journalist.news365.com.cn/xmtxkt/201306/t20130604_1203114.html