当你开车路过一家餐厅的停车场时,你的手机屏幕上弹出了这家餐厅的当日特价菜品推荐,这种体验是不是很棒?如果×××老板把发牌人忘记付给你的20美元亲自送还给你,你的心里是不是有点儿小激动?如果在线视频游戏能够把和我们玩法相近的用户即刻告知我们,这世界会不会变得很美妙?你是不是要下调汽车保险费率?大数据能让这一切变成现实。

网络数据即使不是最原始的大数据源,也是使用最广泛、认可度最高的大数据源。除此之外,还有很多大数据源,它们都有各自的使用价值。其中一些广为人知,而另一些几乎没有名气。我们在此要借用本章的篇幅一起来回顾除网络数据以外的其他9 种大数据源以及它们的用途。我们将站在一个较高的层次上讲解这部分内容,意图是在简单描述各类数据源的基础上,回顾每种大数据源的应用与商业含义。

我们发现了一个非常明显的趋势,各行各业虽然生成了许多大数据源,但其底层的支撑技术却是相同的。而且,不同行业还可以使用相同的大数据源。大数据并非只有单一的用途,它的影响将会非常深远。

我们将要讨论以下几种大数据源

汽车保险业:车载信息服务数据的价值。

多个行业:文本数据的价值。

多个行业:时间数据与位置数据的价值。

零售制造业:RFID 数据的价值。

电力行业:智能电网数据的价值。

×××业:筹码跟踪数据的价值。

工业发动机和设备:传感器数据的价值。

视频游戏:遥测数据的价值。

电信业与其他行业:社交网络数据的价值。

汽车保险业:车载信息服务数据的价值

车载信息服务在汽车保险行业中的关注度非常高。车载信息服务是通过汽车内置的传感器和黑盒来收集和掌握车辆的相关信息。我们可以配置不同的方案,使用黑盒来监测所有的汽车数据。我们可以监测车速、行驶里程,以及汽车是否安装了紧急制动系统。车载信息服务数据能够帮助保险公司更好地理解客户的风险等级,并设置合理的保险费率。如果彻底地忽略隐私问题,车载信息服务装置可以跟踪到汽车去过的所有地点、何时到达的、以多快的速度、使用了汽车的哪些功能等。

车载信息服务可以潜在地降低司机的保险费率,并提升保险公司的收益。它是怎样做到在降低费率的同时提升收益呢?答案就在于保险公司要根据风险评估来进行保险定价。传统的风险评估方法使用的是年龄、人口统计特征以及个人意外伤害历史这类数据,它们只能提供高层次的概要信息。对于驾驶记录没有任何问题的车主,传统方法根本没办法把他们和附近的其他人区分开。

保险公司要未雨绸缪,并做好最坏的打算。它们要弄清楚哪些人放在哪个风险范围上是最安全的,一般情况下,它们会先假定这些人的风险是位于该风险范围较高的一端。汽车保险公司对车主的行为习惯和实际风险了解得越详细,风险范围就会越窄,同时认定范围内出现需要提升费率的最坏情况的可能性就会比较小。这就是为什么可以同时降低保险费率和提升收益的原因。如果保险公司认为投保个体的风险较好,那么保险公司将可以更好地了解每个人的风险状况,预计必须支出的保费就不会发生太大变化。

全球很多国家的保险公司都在使用车载信息服务,而且数量越来越多。早期项目的注意力放在从汽车上收集最少的信息,例如,它们并不关心汽车去过什么地方。早期项目跟踪的是汽车开了多远、什么时候开的车、是否超速和是否使用了大量的紧急制动。这些信息都是非常基本的信息,不牵涉到个人隐私,是故意设计成这样的。因为避免了收集高度敏感的信息,所以才会被广泛地接受。这个道理也同样适用于商业车队。如果保险公司了解到公司车队更多的用车情况,那么它为公司车队确定保险费率也就更容易。

车载信息服务数据最初是作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险。再过一段时间,等到许多交通工具都安装了车载信息服务装置后,那时保险业以外的行业也可以使用车载信息服务数据了。现在,公共汽车已经有了车载计算机管理系统,但是车载信息服务设备可以将其提升到一个新的层次。车载信息服务数据还有一些有趣的应用,我们来看一下这些应用。

使用车载信息服务数据

如果车载信息服务真的开始大规模应用,一定会出现许多令人兴奋的分析应用。想象一下,以后全国有数以千万计的汽车都安装了车载信息服务装置,那时候第三方研究公司会以匿名的方式为客户收集非常详细的车载通信数据。与为保险收集的有限数据不同,这时数据收集是以分钟或秒为频率,且收集内容包括但不限于速度、位置、方向和其他有用的信息。

无论交通是否阻塞,无论什么日期,这种数据反馈方式都会提供大量的车载通信信息。研究人员可以知道每辆车在道路上的行驶速度,他们还可以知道车流开始的时间、结束的时间,以及持续的时间。这种真实的交通流信息视图将会多么令人惊讶!试想这会对交通阻塞和道路系统规划的研究产生多么大的影响!

无心插柳柳成阴

车载信息服务数据的多种用途只是一个例子,它说明了可以用最初预见不到的方式来使用大数据。对于某种特定的数据源,我们最后发现它最有效的用途可能与其创建之初的用途大相径庭。面对我们碰到的每一类大数据源,我们要开拓思路,多想想常规之外的其他用途。

如果研究人员能够掌握大量汽车在每一个高峰时段、每一天、每个城市中的动向,他们就能非常清晰地判断出车流产生的前因后果。此外,还能查明下述问题的答案。

一个在路中央的轮胎会对交通产生什么影响?

左侧车道堵车会发生什么?

如果路口的交通灯不同步,会产生何种结果?

哪些十字路口虽然按照预期设定方式工作,但通行时间的设计仍然不合理?

如果某条道路堵塞,堵塞会以多快的速度蔓延到其他道路?

即使我们集中精力投入到昂贵的测试中,现在要想有效地研究诸如此类的问题也几乎是不可能的。除非我们安排人手来实际地监测每一条道路,记录下所有的信息,只有这样我们才能解决交通堵塞的问题。或者,我们可以安装大量的传感器来监测过往的车辆,还可以安装视频摄像头,但这些选择因为成本问题被严重限制了推广。

交通道路工程师做梦都想得到我们所讲的车载通信信息。如果车载通信装置变得随处可见,那任何交通拥堵的地方都能被发现。城市道路和交通管理系统的革新,以及城市道路建设规划,都将惠及普通大众。车载通信刚开始出现时是为了满足保险定价的需求,但有了它还可以缓解交通压力和驾驶员堵车时焦急等待的心情,它的存在终将使高速公路的管理模式发生革命性的改变。

多个行业:文本数据的价值

文本是最大的也是最常见的大数据源之一。想想我们周围有多少文本信息的存在,电子邮件、短信、微博、社交媒体网站的帖子、即时通信、实时会议以及可以转换成文本的录音信息。文本数据是现在结构化程度最低的,也是最大的大数据源。幸运的是,我们在驾驭文本数据、利用文本数据来更好地做商业决策方面已经做了很多工作。

文本分析一般会从解析文本开始,然后将各种单词、短语以及包含文本的部分赋予语义。我们可以通过简单的词频统计,或更复杂的操作来进行文本分析。自然语言处理中已经有很多诸如此类的分析了,这里我们就不再赘述。文本挖掘工具是主流分析套件中一个不可或缺的组成部分。此外,我们还能找到许多独立的文本挖掘工具包。其中一些文本分析工具使用基于规则的方法,用户需要调整软件才能找到自己感兴趣的模式。另一些工具则使用机器学习和其他算法自动地发现数据模式。每种方法都各有利弊,其相关论述已经超出了本书的范围。我们关心的是如何使用生成的结果,而不是使用工具产生结果的过程。

做完文本解析和分类以后,我们就可以分析这些过程所产生的结果了。文本挖掘过程的输出结果通常是其他分析流程的输入。例如,如果能够分析出客户使用电子邮件的情感,就能利用一个变量将客户的情感标记为正面情感或负面情感。这种标记本身是一种结构化的数据,可以作为分析流程的输入。使用非结构化的文本创建结构化的数据,这个过程通常称为信息提取。

另一个例子是,假定我们能够在客户与公司往来的邮件中识别出他们对公司某些产品的评价,我们就能利用一系列变量来标识客户的产品评价。这些变量本身也是结构化的度量指标,可以用来做分析。上述这些例子解释了如何捕获非结构化数据片段,并从中提取出相关的结构化数据。

从非结构化文本中提取结构数据

文本分析的例子很好地说明了该过程:获取非结构化数据,然后处理该数据,最后创建出可以用于分析和报表过程的结构化数据。驾驭大数据的一个重要部分是,利用这种创造性的方式将非结构化数据和半结构化数据变成可用于分析的数据。

解释文本数据实际上是相当困难的。强调的词汇和语境不同,同一个单词表达出来的意思就不同。面对纯文本,我们根本不知道重点在哪里,也不知道整个语境。这说明我们得事先进行一些假设,我们会在第6 章中更详细地讨论这个问题。

文本分析既是一门艺术,也是一门科学,总会存在一定的不确定性。文本分析往往会有分类错误和含义模糊的问题。没错,如果我们在文本集合中发现了更好的决策支持模式,那就应该使用它。文本分析的目标是改进你的决策,但并不是令你的决策变得完美。文本数据可以有效地提升决策效果,它能提供比没有它时更好的结果,即使数据有噪音或含义模糊时,这一点也成立。

使用文本数据

一种目前很流行的文本分析应用是所谓的情感分析。情感分析是从大量人群中挖掘出总体观点,并提供市场对某个公司的评论、看法和感受等相关信息。情感分析通常使用社会化媒体网站的数据。以下是情感分析的几个例子。

公司或产品的口碑怎么样?

大家正在讨论的是公司的哪些活动?

大家对公司、产品和服务的评价是好是坏?

如前所述,文本分析的难点在于词汇和语境是相关的。我们要考虑到这个问题,但大量的评价会让客户情感的倾向变得明确。如果我们可以解读出人们在社交媒体上所说内容、与客服互动信息的趋势,这会对规划下一步的工作有很大的价值。

如果公司可以掌握每一个客户的情感信息,就能了解客户的意图和态度。与使用网络数据推断客户意图的方法类似,了解客户对某种产品的总体情感是正面情感还是负面情感也是很有价值的信息。如果这名客户此时还没有购买该产品,那价值就更大了。情感分析提供的信息可以让我们知道要说服这名客户购买该产品的难易程度。

文本数据的另一个用途是模式识别。我们对客户的投诉、维修记录和其他的评价进行排序,期望在问题变大之前,能够更快地识别和修正问题。产品首次发布,然后开始出现投诉,文本分析可以识别出客户在哪些方面存在问题。我们甚至可以做到在客服电话接二连三打进来之前,先把问题识别出来。这样我们就能更快地、更积极地做出响应。公司可以及时地做出反应,解决产品未来发行版本中同样的问题,也能主动与客户进行接触,缓解他们当下遇到困难时的焦躁情绪。

欺诈检测也是文本数据的重要应用之一。在健康险或伤残保险的投诉事件中,使用文本分析技术可以解析出客户的评论和理由。文本分析可以将欺诈模式识别出来,标记出风险的高低。面对高风险的投诉,需要更仔细地检查。另一方面,投诉在某种程度上还能自动地执行。如果系统发现了投诉模式、词汇和短语没有问题,就可以认定这些投诉是低风险的,并可以加速处理,同时将更多的资源投入高风险的投诉中。

法律事务也会从文本分析中受益。按照惯例,任何法律案件在上诉前都会索取相应的电子邮件和其他通信历史记录。这些通信文本会被批量地检查,识别出与本案相关的那些语句。例如,哪些电子邮件中有隐藏的内幕消息?哪些人在和别人交流时说的是假话?威胁背后的实质是什么?

在法律案件中应用文本分析的做法称为电子侦察。所有预先进行的分析将帮助起诉获得成功。不使用文本分析,仅通过人工的方式将无法浏览所有的所需文档。即使我们可以做到人工浏览那些文档,但因为任务本身过于单调枯燥,我们很可能会漏掉其中的一些关键信息。

文本数据可能会对所有的行业都产生影响。它可能是如今使用最广泛的一类大数据。对企业来讲,掌握如何收集、解析和分析文本是很重要的。文本是我们必须驾驭的一种大数据源。

多个行业:时间数据与位置数据的价值

随着全球定位系统(GPS)、个人GPS 设备、手机的出现,时间和位置的信息一直在增加。从Foursquare 到Google Places ,再到Facebook Places ,它们提供了大量的服务与应用,可以记录每个人在某个时间点的位置。手机应用程序可以记录我们的位置和移动的轨迹。即使手机没有正式开启GPS ,我们还是可以使用基站信号来获得相当准确的位置信息。

消费者应用程序中有一些新颖的使用这些信息的方法,这些方法可以捕捉到消费者允许其捕获的信息。例如,有一些应用使我们可以追踪锻炼中行进的路线,路线的长度,以及走完该路线所需要的时间。事实上,如果携带了手机,我们就能记录去过的每一个地方。我们还可以选择把数据公开给他人。当更多的人向公众公开了自己的时间和位置数据,就会出现一些非常有趣的事情。

许多公司已经开始意识到掌握客户的时间与位置数据的威力,它们开始尝试从客户那里收集这类信息。当然,这类信息必须建立在筛选的基础上,并且必须制定明确的隐私政策,并严格地遵守这些政策。许多公司推出了令人难以抗拒的位置价值服务,吸引用户把时间和位置信息开放给它们。

我们并非只想了解消费者的时间和位置信息。卡车车队的领导也想掌握每辆卡车在某个时间点的位置,比萨店肯定想知道每名外送人员某个时间在什么地方,养宠物的人肯定想知道宠物在外面的什么地方,大型宴会中组织人员需要知道侍者四处走动的效率和响应顾客的速度。

从收集个人、资产的时间和位置数据开始,企业可以快速地进入大数据领域。如果这些信息能够频繁地更新就更好了。知道每辆卡车每天早晚的位置是一回事儿,知道每辆卡车每秒钟在哪儿就是另外一回事儿了。时间和位置数据被采用、应用的程度将越来越高,其造成的影响也将越来越大。

使用时间和位置数据

时间和位置数据是对隐私最敏感的一类大数据。我们面对的不仅有隐私问题,还有道德和伦理问题。我们是否要在孩子们的胳膊上安装芯片,以便当他们迷路时可以追踪到他们?老年痴呆患者离家出走或者擅自离开护理机构时我们应该怎么做?当然,时间和位置数据被滥用的可能性会相当高。但从好的方面想,它们被合理使用的可能性同样也会很高。下面我们来看一些例子。

可能很快人们就会在警察局和消防部门注册,并提供自己日常会去哪些地方的信息。这样,如果遇到洪水、火灾或封路这类大事件,人们会收到警察局和消防部门发送的警告信息,告诉他们即将路过的地方有情况,提醒他们绕道。如果人们可以主动避开是非之地,就能使交通中断的时间降到最低,这样每个人的时间都能节省下来。最后,在得到你的许可后,当地政府甚至可以接收你的实时位置信息。

一种初露端倪的数据使用方法是开发对时间和位置信息敏感的消息通知,这个市场的未来空间很大。通知不再局限于当天或本周,而是根据客户的时间和位置信息提供最适合的消息通知。现在的做法一般是由客户签到并告知他们的位置,这样他们就能接收到通知信息了。公司能够持续地跟踪到客户的动向,以做出相应的反应。

例如,可能用户会告诉你,他要在5:30 分离开办公室回家,大约5:45 到6:00 之间会开车通过5 号出口。他要找地方吃饭,并且想了解你的商店或餐馆那个时间有什么食物。你需要在那个时间那个地点提供匹配他的需求的可口饭菜。第二天早上才通过电子邮件告诉他相关的信息显然已经太迟了,我们要的是当他通过那个地方的那一刻就主动推送给他通知信息。

按照地点和时间主动推送通知信息

营销领域渐渐显露出来的一个趋势是,只对刚好处在某个时间段和某个地点的客户才针对性地推送通知信息。与根据大范围的时间和地点发送的通知相比,这种通知的效果更好,针对性更强。早期采用这种作法的企业已经取得了令人吃惊的效果。

当然管理这种通知的复杂性要高不少,因为我们要做的不只是跟踪每个人当周的服务推荐这么简单。我们需要关心的是每个用户每时每刻在什么地方,我们在这个时间点为他们推荐什么东西最合适。根据时间和位置推送通知确实大大地增加了复杂性,并且变得难以管理。但我们相信假以时日,如果我们做得不错,这种方式的转化率应该会远远超过传统的个性化推荐。历史经验反复地告诉我们,如果通知信息越精准,转化率就会越高。

使用此类数据的另一种模式是增强型社交网络分析。无线运营公司可以根据语音和文本交流信息识别出用户间的关系,借助时间和位置数据可以识别出哪些人在同一时间出现在了同一个地方。例如,哪些人在听音乐会或看电影?哪些人要去观看某一场体育比赛?哪些人在同一时间同一餐馆就餐?

如果能识别出哪些人大约在同一时间同一地点出现,就能识别出有哪些彼此不认识或者在同一个社交圈子里的人,但是他们都有着很多共同的爱好。想象一下,如果婚介服务能用这样的信息帮助我们找到自己的另一半那该有多好!我们可以鼓励人们建立联系,给他们提供符合个人身份或团体身份的产品推荐。

时间和位置数据不仅可以帮助我们理解客户的历史模式,还可以准确地预测客户未来会出现在什么地方。对于有固定习惯的客户尤其如此。如果我们知道某个人会在哪里出现,要往哪里去,我们就能预测出他们10 分钟或一个小时以后会出现在哪里。如果我们知道客户以前在同一条路上去过哪里,我们就能更准确地做出他现在要去往何处的预测。我们最差也能大大地减少列表上的候选路线,这样就能支持更精准的营销。

未来几年间,时间和位置数据的应用会经历爆炸性的增长,面向消费者的选择流程和激励措施终将成熟。现在我们要小心行事,并在我们使用这些信息之前,获得用户的许可。使用时间和位置数据的消息通知将会更有针对性、更个性化。在不远的将来,如果通知信息不是根据时间和位置推送的,也许会被认为很土。

零售制造业:RFID数据的价值

无线射频标签,即RFID 标签,是安装在装运托盘或产品外包装上的一种微型标签。RFID 标签上有一个唯一的序列号,这个序列号与UPC 类似的通用产品标识码不同。换言之,RFID 标签不仅能够识别出托盘上装的是Model 123 电脑,还能识别出托盘上装运的是独一无二的、特定的一套Model 123 电脑。

RFID 读卡器发出信号,RFID 标签返回响应信息。如果多个标签都在读卡器读取范围内,它们同样会对同一查询做出响应,这样辨识大量物品就会变得比较容易。即使当这些东西堆叠在一起或者放到了墙后面,只要信号可以穿透,我们就能得到响应信息。有了RFID 标签,我们就不再需要人工记录和盘点每个商品,这样清点商品的时间就会缩短。

多数用于高价值应用外的RFID 标签都是被动式的无源标签,意味着这些标签是没有内置电池的。读卡器的无线电波产生磁场,该磁场给标签提供了足够的能量,使得标签可以将内置信息发送出去。RFID 技术已经出现很长时间了,但成本问题限制了该应用的进一步推广。今天,无源标签的成本只有几美分,而且价格还在不断下跌。随着阶格的不断下跌,实际应用情况将会出现持续增长。现在的RFID 技术还有一些问题,例如,液体会屏蔽标签的信号。随着时间的推移,这些技术问题都将会得到有效的解决。

有些RFID 应用很多人都曾经接触过,其中之一就是自动收费标签。有了它,司机通过高速公路收费站的时候就不需要再停车了。它的工作原理是,交通管理局在所发的卡中植入了RFID 标签,同时高速公路上安装了读卡器;当汽车开过时,标签会把汽车数据传到读卡器,这样我们开车通过收费站就被记录下来了。

RFID 数据的另一个重要应用是资产跟踪。例如,一家公司想把其拥有的每一个PC、桌椅、电视等资产都贴上标签。这些标签可以很好地帮助我们进行库存跟踪。跟踪这些物品。如果物品移出指定区域,它们就会发送警告信息。例如,我们可以把读卡器放在出口处,如果公司资产在没有被事先批准的情况下出门,警报很快就会响起来,这样就能起到安全警示的作用了。这种作法类似于零售商店里的物品标签,如果标签变为无效,警报就会被拉响。

RFID 最大的应用之一是制造业的托盘跟踪和零售业的物品跟踪。例如,制造商发往零售商的每一个托盘上都有标签,这样可以很方便地记录哪些货物在某个配送中心或者商店。最终,商店中价格很低的商品也可以配备RFID 芯片,或者使用一种类似的新技术。现在我们已经明白了RFID 数据是什么,下面我们来看一看RFID 数据可以从哪些方面来改善当前的商业模式。

使用无线射频标签数据

RFID 的一种增值应用是识别零售商货架上有没有相应的商品。如果读卡器能够连续不断地确定货架上每种商品的存量,当需要重新配货的时候,我们就能得到准确的信息。使用RFID 可以更好地跟踪货架的供应状况,因为商品脱销和有商品可供应的状态是完全不同的。一种可能的情况是,商店货架上没有该商品了,但后面储藏室里还有5 件该商品。

在这种情况下,任何传统的商品脱销分析都会显示货架上现在仍有存货,因此不需要担心。当销售业绩开始下滑时,人们才会发现问题所在。如果有RFID 标签,就可以跟踪到储藏室中还有5 件该商品,但货架上却没有该商品了。这样,我们只需要简单地从储藏室把商品搬到货架上就能解决问题。这个例子在成本和技术上有一些挑战,但现在大家正在努力克服这些困难。

RFID 还能很好地帮助我们跟踪促销展示影响的效果。通常在促销过程中,商品要摆在商店的许多地点进行展示。从传统的POS 数据中,我们可以知道促销商品的销量,但我们不知道销售来自于哪个展示点。通过RFID 标签我们可以识别出商品是从哪个展示点销售出去的,这样我们就能评估不同的地点对销售效果的影响。

RFID 如果和其他数据结合起来,就能发挥更大的威力。如果公司可以收集配送中心里的温度数据,当出现掉电或者其他极端事件时,我们就能跟踪到商品的损坏程度。也许仓库某一区域在停电期间的温度高达90 摄氏度,且时间长达90 分钟。有了RFID,我们就能准确地知道在那个时刻哪些托盘位于配送中心的那个区域内,然后我们就能采取相应的行动。仓库数据还可以和装运数据匹配起来,如果商品发生了损坏,公司可以有针对性地召回商品,并通知零售商当商品抵达时再次对商品进行开箱检查。

组合显神通

就像许多其他大数据源一样,RFID 数据本身并不能发挥所有的威力。当与其他数据组合起来使用时,它们就能发挥作用。大数据战略的目标是把大数据和其他数据整合到同一个处理流程中,这一点再怎么强调也不为过。使用大数据并不是一个孤立的工作。

RFID 还有一些操作型应用。有些配送中心商品管理不严格,导致商品损坏程度很高。对于某些团队,甚至某些工人来说确实如此。人力资源(HR)系统会报告谁在任意时间点上工作。当RFID 数据和这类数据组合起来,就能显示出商品何时被移动了,还能识别出损坏、损耗、偷窃商品概率更高的员工。数据的组合使用,使我们能够采取更强大、质量更高的行动。

RFID 有一种非常有趣的未来应用是跟踪商店购物活动,就像跟踪Web 购物行为一样。如果RFID 读卡器植入购物车中,我们就能准确地知道哪些客户把什么东西放进了购物车,也能准确地知道他们的放入顺序。即使并非每种物品都配有标签,我们仍然可以识别出购物车经过的道路。通过在店面中使用RFID,Web 数据所能带来的诸多好处都将变成现实。最后两个例子必须考虑隐私问题,因为也许顾客根本不想让他们的购物行为被跟踪。我们可以采用“匿名”购物的方法,不对产生数据的人进行方位识别。

RFID 的最后一种应用是识别欺诈犯罪活动,归还偷盗物品。如果物品贴有RFID 标签,零售商可以通过标签的ID 进行识别,确定返还物品是否属于偷走的同一批产品,并采取适当的行动。事实上,关键在于RFID 的ID 可以作为收据的一部分,辅助返还流程。零售商知道购买商品上贴的是哪个RFID 标签,而不是像平常那样只知道你购买了某种商品。当我们来到退货台,要把贴有那个标签的商品退还。我们肯定不能从货架上拿下来另外一个一模一样的商品,假装跟收据一起返还。以这种方式来使用RFID,欺诈将会变得无比困难。

未来几年RFID 有可能会对制造业和零售业产生巨大的影响。与许多人的期望不同,RFID 的接受速度要慢一些。但RFID 标签价格在持续下跌,标签和读卡器的质量却在不断上升,从经济的角度考虑,RFID 的应用将会更加广泛。

电力行业:智能电网数据的价值

智能电网是下一代电力基础设施。与我们周围经常见到的高压电传输相比,智能电网更先进更可靠。智能电网有非常复杂的监控、通信和发电系统,可以提供稳定如一的服务,如果出现停电和其他问题,可以更好更快地恢复。各类传感器和监控设备记录了电网本身和流经电流的许多信息。

智能电网中的一个环节是我们经常提到的智能电表。智能电表是一种传统电表的替代品。从外观上看,智能电表和我们一直使用的电表没有什么不同,但智能电表的功能更强大。以前抄表人员都是每隔几周或几个月就挨家挨户地抄电表,而智能电表可以每隔15 分钟到一个小时从每一个家庭或企业自动地收集数据,甚至可以跨区或者跨电网收集数据。

虽然我们这里关注的是智能电表,但在智能电网中大量使用的传感器也值得一提。这些遍布智能电网但我们却看不到的传感器,它们收集到的数据从规模上使智能电表数据相形见绌。传感器每秒钟要从发电系统读取60 次同步相量测量值,与记录家用电器开关状态的家庭网络一样,它们都是大数据的例子。普通人并不知道这些传感器的存在,但它们对电网来说十分重要。传感器要读取所有的电流数据和智能电网的设备状态,数据量非常非常大。

智能电网技术已经在欧洲和美洲的某些地方开始使用了。我们相信在不久的将来,世界上每一处电网都会被智能电网取代。电力公司因为使用了智能电网,它们所掌握的耗电数据量会以指数级增长。这类数据要怎样使用?下面我们来看一下。

使用智能电网数据

从用电管理的角度来看,智能电表数据可以帮助人们更好地理解电网中客户的需求层次。此外,这些数据也可以使消费者受益。例如业主可以选择把待测试的电器打开,与此同时保持其他电器的稳定,这时从智能电表处可以监控到详细的电力消耗情况,这样我们就可以明确地测量出各种电器究竟消耗了多少电量。

世界各国的电力公司现在都已经在积极地转向这样的定价模型,即按时间或需求量的变化来定价,智能电网的出现加速了这种趋势。电力公司的主要目标之一是利用新的定价程序来影响客户行为,减少高峰时段的用电量。为了应对用电高峰需要另建发电站,需要一大笔钱而且还会对环境造成很大的影响。如果用电成本可以灵活地根据时间来设定,并由智能电表来测量,我们就可以促使客户改变他们的用电行为。较低的峰值和较为平稳的用电需求等同于更少的对新基础设施的需求和更低的成本。

当然电力公司通过智能电表提供的数据还能识别出其他的各类趋势。哪些地方的用电量有所回落?哪些消费者每天或每周的用电需求比较相同?电力公司可以根据使用模式对客户进行分类,可以选择针对某些特定的群体开发产品和活动。使用这些数据我们还可以识别模式出现异常的那些地方,它们揭示了需要解决的问题。

实际上,电力公司有能力执行其他行业已经使用多年的客户分析工作。例如,电话公司知道我们月底的所有账单,但并不知道我们具体的通话。零售商店只知道整体销售状况,而不知道任何购买的细节信息。一家金融机构知道我们的月终余额,但并不了解我们这个月的资金流动状况。从很多方面讲,电力公司面对的这类数据对于理解客户而言仍略显不足。它们也有简单的月终汇总数据,但这种月结数据往往是估计值而不是实际的耗电量。

大数据可以改变一个行业

有时候,大数据真的可以改变一个行业,可以把分析应用提升到一个全新的高度。电力行业使用的智能电网数据就是一个这样的例子。不再受每月一次抄表的限制,耗电信息会以秒钟或分钟为间隔被测量。遍布电网的精巧传感器,使数据的使用变得与以往完全不同。以此开展的数据分析会在费率套餐、用电管理等诸多方面产生很多创新。

有了智能电表数据,我们就可以进行全新的分析,使大众全都受益。消费者可以根据自己的使用模式定制费率套餐,就像车载信息服务支持个性化的汽车保险费率那样。高峰时段用电客户比非高峰时段用电客户的收费要高。面对这样的刺激政策,我们会改变自己的用电模式,可能我们会在下午晚些时候再使用洗碗机而不是吃完午饭就马上使用。

电力公司也会有更准确的需求预测,它们能更清晰地识别出需求来自于哪些地方。它们还能了解某一类客户在某个时间的用电需求。电力公司可以使用不同的方法来驱动各种行为,使需求更加平稳,并降低异常需求峰值出现的频率。所有这些都会使对昂贵的新发电设备的需求受到抑制。

每一个家庭、每一个行业都能感受到智能电表数据产生的威力,这些数据能够让我们更好地跟踪、更积极地管理用电情况。我们不仅能节约用电,也能使这个世界更加低碳,还可以帮助大家省钱。如果我们能清楚地知道自己的耗电量比预期要多,我们肯定就会根据需要做出适当的调整。如果只使用每月账单,我们将无法识别出这种机会。但是,智能电表数据将使这一切变得简单。

×××业:筹码跟踪数据的价值

前面我们已经讨论了RFID 技术是如何应用在零售业和制造业的。RFID 技术的用途实际上更广泛,许多应用都会产生大数据。RFID 标签的另外一种应用是贴在×××用的筹码上面。每一个筹码,特别是高价值的筹码都有自己的内置标签,这样×××就可以通过标签的串行编号实现唯一的识别。

×××里用的×××已经被跟踪了许多年。一旦我们在×××上刷了经常使用的玩家卡或者信用卡,那我们每次搬动手柄按下按键的动作就会被跟踪。当然你的赌注和你赢的钱也会被跟踪。虽然×××模式的分析历史悠久,但×××仍然没有从桌面游戏中捕捉到足够多的细节。现在这个过程正在发生变化,标签已经开始被植入游戏筹码。

以前×××会用功能强大的安全摄像头网络跟踪筹码,地勤人员的工作是保证筹码上下左右的移动是合理的。赌台经理要寻找常客,估算他们的平均投注和玩的时间,并给这种常客奖励。虽然赌台经理精于此道,同时还能获得其他人员的帮助,但游戏奖励多多少少总会不够准确。如果被监视的玩家碰巧比平常投注多那么一点或少那么一点,就会发生这种不准确的情况。有些玩家如果认为他们自己正在被监视,他们会利用系统规则增加投注来牟利。

同类技术可以驱动多种×××

零售商和制造商都使用了RFID 技术。×××行业也是如此。它们使用RFID 的方法有许多不同之处,但也有许多相似之处。最有趣的是,一种技术可以在不同的行业使用,形成各个行业独特的大数据源。

筹码跟踪是一种特殊的RFID 应用,除了这个例子外,RFID 还有很多其他的应用。这个例子说明了一些底层相同的技术可以支持不同的×××,这些×××本质相同,但范围和应用却完全不同。让我们兴奋的是,这种基础技术有着完全不同的用处,产生了多种行业里形式各异的大数据。

工业发动机和设备:传感器数据的价值

世界各地安装了许多复杂的机器和发动机,例如,飞机、火车、军车、建筑设备、钻孔设备等。因为造价昂贵,保持这些设备的稳定运转是非常重要的。近些年来,从飞机发动机到坦克等各种机器上也开始使用嵌入式传感器,目标是以秒或毫秒为单位来监控设备的状态。

监测工作可以做得相当细,特别是在测试和开发过程中。例如,当新的发动机开发出来,就得依靠获取到的足够多的细节信息,来检查发动机是否可以按照预期设定的方式工作。一旦新发动机进入市场,再想更换有缺陷的部件的花费会相当高,因此我们需要事先详细地进行性能分析。监测是一项不断持续的活动。也许我们并不需要持续收集每一毫秒的细节信息,但如果能够收集到大量的细节信息,我们就可以评估该设备的生命周期,识别出重复出现的问题。

例如,发动机传感器可以收集到从温度到每分钟转数、燃料摄入率再到油压级别等信息,而数据可以根据预先设定的频率获取。当读数频率、读取指标数量和监控项目数量增加时,数据量会迅速增加。为什么我们要关心这一点?下面我们来看一些例子。

使用传感器数据

发动机的结构很复杂,有很多移动部件,必须在高温下运转,会经历各种各样的运转状况。因为它们的成本太高,所以期望寿命越长越好。因此,稳定的、可预测的性能就变得异常重要,因为机器的寿命依赖于此。例如,对故障飞机进行保养维修会花掉航空公司或者空军部队一笔不小的钱,但这种事情我们还必须做,因为我们要识别出飞机是否存在安全隐患。因此,飞机或者飞机发动机以及其他设备的停机时间一定要降到最低,航空公司或者空军部队对此都有非常迫切的需求。

停机时间最小化策略包括准备备件或后备发动机快速割接时需要维修的设备、从诊断结果中快速识别需要更换的部件、针对问题部件投资开发更可靠的新版本。要想有效实施这3 种策略,必须得有数据。我们要用数据生成诊断算法,或者用数据作为输入来诊断某个特定的问题。工程部门可以使用传感器数据准确地定位问题的原因,设计新的措施支持更长、更可靠的操作。不管发动机是飞机的,还是船只的,或者是陆地设备的,这些考虑因素都适用。

通过提取和分析详细的发动机运转数据,我们可以精确地定位那些会导致立即失效的某些模式。然后我们就能识别出会降低发动机寿命的时间分段模式以及更加频繁的维修。多个变量的排列组合数目,特别是一段时间内的排列组合数目,使得这类数据分析活动变成了一项挑战。这个过程不仅会涉及到大数据,就连随之开发出来的分析也会变得异常复杂和困难。以下是我们可以研究的一些问题。

压力骤然下降是否表示一定就会出问题?

温度在几小时内持续下降是否意味着还有其他问题?

振动水平异常是否意味着有问题?

发动机启动时的飞速转动是否让某些部件的性能严重受损,而且还会增加维修的次数?

几个月内油压一直比较低,是否会使发动机的某些部件受损?

结构化数据内缺少结构性

传感器数据给我们带来了一个非常艰巨的挑战。虽然我们收集到的数据是结构化的,独立的数据元素也很好理解,但元素之间的时间关系和模式却根本无法理解。延时和无法测量的外部因素增加了问题的复杂性。如果要考虑所有的信息,识别各种数据长期的作用效果,这个过程会异常复杂。拥有结构化数据并不一定能够保证分析方法就是高度结构化和标准化的。

在出现严重问题的时候,先回头去检查当时发生了什么,一直检查到问题自己露出马脚,这种做法会非常奏效。传感器的作用类似于依靠飞机黑匣子的帮助诊断失事原因。发动机传感器数据可以用于诊断活动和研究行为。从概念上讲,相对于先前我们讲到的汽车保险案例中的信息服务设备,我们这里讨论的传感器是一种更复杂的形式。传感器不断感知周围环境并获得数据信息,这是大数据世界中反复讨论的一个主题。虽然我们这里讨论的是发动机,但传感器还有数不清的各类用途,这里讨论的原则也同样适用。

如果大量传感器都长时间重复着传感器数据收集流程,那会产生大量丰富的分析数据。只要好好地分析这些数据,就能发现设备的缺陷,就有机会主动修复这些问题。我们还可以把设备中的弱点先行识别出来。随后,我们可以制定好流程,缓解这些发现带来的问题。这些措施带来的收益不止是安全级别的提升,还会让我们的成本下降。使用传感器数据,发动机和设备都会更加安全,能够提供服务的时间就会比较长,这样运营会比较平稳,成本也会比较低。这是一种通赢的做法。

视频游戏:遥测数据的价值

遥测数据是视频游戏产业的一个术语,用来描述捕捉游戏活动的状况。其概念与我们在第2 章所讲的网络大数据无异,这是因为遥测数据收集的是玩家在游戏中的活动情况。遥测数据的收集对象多数情况是在线游戏而非掌上游戏。

在曲棍球比赛中,遥测数据收集的是运动员在击球进门时,何时进的球,用的哪种击球方法,球速多少。在战争游戏中,遥测数据收集的是用哪种×××开的火,在哪里开的火,向哪个方向开的火,×××对各种东西的破坏程度。从理论上讲,相关场景和活动的所有细节都能够被收集到。

视频游戏制造商从中不仅可以很容易地了解到有多少客户购买了游戏软件,还能知道游戏被玩了多少个小时。使用遥测数据,游戏制造商可以了解到客户的私人信息,他们实际的玩法,他们是如何与自己创建的游戏进行交互的。我们收集到的游戏数据可能会很大,但视频游戏行业已经开始积极地分析这些数据了。遥测数据对很多领域都产生了影响。从遥测数据的优势和用途来看,很容易发现它和网络数据之间的相似性。下面我们来看一些例子。

使用遥测数据

许多游戏都通过订阅模式挣钱,因此维持刷新率对这些游戏就会非常重要。通过挖掘玩家的游戏模式,我们就可以了解到哪些游戏行为是与刷新率相关的,哪些是无关的。例如,也许在体育游戏比赛时,使用某些辅助功能会大大提升刷新率。游戏制造商会采取措施来吸引玩家尝试比赛,以诱使他们使用以前不曾使用过的功能。

遥测数据只会越来越大

现在,遥测数据捕捉的对象大多是控制手柄或键盘行为。随着交互式游戏的发展,它们可以做到跟踪玩家的动作,而不是依赖于控制手柄,数据量也会因此激增。了解玩家在什么时间按下了什么按钮,这类数据量要比了解他身体上的某个部位在某个时刻的空间位置以及移动方向和速度小得多。

比较新的游戏往往喜欢让玩家花一点小钱在游戏过程中购买物品,这就是所谓的微交易(microtransaction)。例如,一种特殊的武器只卖10 美分。我们可以对游戏进行分析,识别出在哪些地方这类微交易的成功率会比较高。也许游戏中的某个地点提供一种非常顺手的武器,这种武器会引起玩家的疯抢。我们可以使用屏幕的快速提示来告诉玩家现在有武器可以购买,这样许多玩家都会选择购买该武器装备。

与其他行业类似,在视频游戏产业中,客户满意度同样也是一个大问题。视频游戏的独特之处在于要设置一条非常非常精彩的行进路线。游戏要给玩家提供挑战机会,但挑战不能过度,过度的挑战会让玩家有挫败感进而放弃游戏。如果游戏过于简单或者过于复杂,玩家就会感到厌倦并转向其他游戏。

通过游戏分析,我们能够识别出游戏中哪些关卡每名玩家都能轻松过关,哪些关卡即使是最顶级的玩家也很难过关。我们可以增加或减少这些地方的敌人,尽量使难度等级比较平衡。平衡的游戏难度等级可以为玩家提供更加一致的体验,也会让他们更有满足感。这样会导致更高的刷新率和更多的购买行为。

通过遥测数据,玩家还可以根据游戏风格进行分类。使用这类信息既可以设计出更优秀的游戏,又能交叉销售现有的产品。其中某个玩家族群可以全身心地投入到游戏通关中,而另一个玩家族群可以负责在通关前收集所有的奖品,最后一个玩家族群则可以在收关前探索关卡中的所有角落。通过这种组合,每个玩家都可以在游戏中使用自己最喜欢的游戏方法进行训练。

遥测数据能够了解到玩家的认知层次,基于此可以改变整个游戏业。游戏业已经开始使用遥测数据,相信在不久的将来这个领域将会得到长足的发展。依据遥测数据分析的效果,游戏制作和推广的方式将会发生巨大的改变。

电信业与其他行业:社交网络数据的价值

与传统数据相比,社交网络数据本身就是一种大数据源,即使从很多方面来看,它更像是一种分析方法学。其中的原因在于,执行社交网络分析的过程需要处理已经无比庞大的数据集,此外,还要使用行之有效的方法将处理规模提升几个数量级。

有人会争辩说,移动运营商拿到的全部移动电话的话单或者短信记录本身就是大数据,且这种数据可以用于多种用途。但是,社交网络分析关注多个关系维度而非单个维度,从而可以做到更上一层楼。这也就是社交网络分析可以把传统的数据源变成大数据的原因。

对于现代电话公司,仅仅看通话量是不够的,电话公司还需要把通话作为独立实体进行分析。社交网络分析首先要看有哪些人参与了通话,然后再用更深入的视角进行分析。我们不仅要知道自己给谁打了电话,还要知道我致电的那个人还给谁打了电话,这些人接下来又打给了什么人,依此类推。要想得到社交网络的全景图,我们就得触及系统能够处理的上限。多层客户与客户之间的导航关联以及多层通话都会使得数据量倍增。此外,它还增加了分析的难度,尤其是使用传统工具时的分析难度。

同样的概念也适用于社交网络站点。通过分析社交网络中的某个成员,不难分析出这个成员有多少关联关系,她发短信的频率,她访问站点的频率,以及其他一些指标。但是,当成员与其朋友、与朋友的朋友、与朋友的朋友的朋友都有关联关系时,这时了解网络边界所需要的处理量就会大得多。

一千个成员或用户不难跟踪。但是,他们之间的直接关联关系会上升到百万级别,而再考虑到“朋友的朋友”则会升至十亿级别。这就是社交网络分析是一个大数据问题的原因所在。今天,已经有了大量的应用来分析这种关联关系。

使用社交网络数据

社交网络数据及分析有一些影响深远的应用,其中一种重要的应用正在改变着公司评价客户的行为。和以前只看个人的情况不同,现在参考的是他们的网络整体价值。我们这里谈的例子也同样适用于许多其他的行业,在这些行业里我们同样需要了解人与人或者群体与群体之间的关系,但现在我们关注的是手机用户,因为在这里这种方法的应用范围最广。

假定电信运营商有一个价值相对较低的用户。这名用户只有基本的通话需求,不会为运营商带来任何增值收入。事实也是,不能创造利润的客户就是没有价值的。运营商以往的作法是,只根据他或她的个人账户来对其进行评价。以前如果这名客户打电话投诉或者威胁要更换运营商,公司可能不会挽留他,因为它们认为这名客户并不值得挽留。

使用社交网络分析技术,虽然我们的客户通话账单看似价值不高,但我们可以识别出客户曾经和某些人通过电话,而这些人是有着广泛交际圈的重量级人物。换句话说,客户联系对运营商而言是非常有价值的信息。研究表明,一旦某位成员离开通话的圈子,其他成员很可能会跟着离开,更多的成员开始离开,就像传染病一样。很快,圈内成员开始雪崩般地离开,显然这是坏事一桩。

超越个人价值

社交网络数据非常吸引人的一个好处是,它能够识别出客户能影响的整体收入,而不仅仅是他或她自己提供的直接收入。不同的角度会大大影响投资某个客户的决策。能够产生高影响力的客户需要被细心照料,因为他们能产生本身直接价值以外的更大价值。如果要使其网络整体利益最大化,这种最大化的优先级要高于其个体利益的最大化。

使用社交网络分析,我们可以理解本例中客户对企业的总体价值而非只是其所产生的直接价值。这种处理客户的决策完全不同。电信运营商对客户过度投资的原因是要维护客户网络。我们可以准备好商业案例来维护更广的客户圈,而不只是保护客户个体的价值。

上面的这个例子非常棒,它解释了大数据分析是怎样在以往未曾出现过的新决策环境中产生重大价值的。如果没有大数据,客户会被批准更换运营商,当他的朋友们也随之而去,电信运营商将看到雪崩般的损失。现在目标已经从个体账户的利益最大化转向了客户社交网络利益的最大化。

识别有着广泛联系的客户也能帮助我们把注意力放到最能影响品牌形象的地方。我们可以给有广泛联系的客户自由试用的机会,并记录下他们的反馈。我们要做出努力,让客户主动地参与公司的社交网站站点,激励客户写评论和表达观点。有些公司积极地招募有影响力的客户,给他们奖励、提前试用的机会和其他好处。作为回报,那些有影响力的客户会持续地发挥他们的影响力,因为如果受到优待,他们的语气往往会更加积极主动。

LinkedIn 或Facebook 等社交网站正在利用社交网络分析技术来洞察哪些广告会对何种用户构成吸引。我们关心的并不仅仅是客户自己表达的兴趣,与此同等重要的是,我们还要了解他的朋友圈和同事圈对什么有兴趣。社交成员永远也不会在社交网站上表露自己的全部兴趣,我们也不可能了解到关于他的所有细节。但是,如果客户一大部分朋友都对骑单车感兴趣,我们就可以推导出这名客户也对单车有兴趣,即使他永远也没有直接表达过。

执法部门和反恐部门也可以从社交网络分析中受益。我们可以识别出哪些人和问题人群或者问题个人有联系,甚至有间接联系。我们通常把这类分析称为链接分析。有可能是某个个人或者群体、甚至是某个俱乐部或者餐馆跟坏人有联系。如果我们发现有人和许多坏人在多个地方出入,他或她就会被定位,我们会认为这些人值得更深入地监控分析。虽然这会涉及到隐私问题,但实际上这种分析已经开始被使用。

对于在线视频游戏领域,这类分析也是有价值的。谁在和谁玩?游戏内部的模式是如何变化的?社交网络分析拓展了前面讲到的遥测数据的应用范围。我们可以识别出某位玩家在不同游戏中的首选伙伴。前面我们已经讨论过如何根据玩家个人的玩法对玩家进行分类。玩法相近的那些玩家已经在组队玩游戏了吗?玩家们需要的是不是混搭风格?了解这类信息就可以知道游戏制造商是不是想让玩家组队玩游戏(例如,对玩家提出建议,当玩家登录并开始玩游戏的时候,他应该优先选择加入哪个编组)。

关于组织之间联系的方式还有不少有趣的研究。这些研究最开始关注的是通过电子邮件、电话、短信建立起来的联系。公司各部门之间是不是按照期望的方式在联络?是不是有些员工通过典型渠道之外的方法在联系呢?谁在内部拥有广泛的影响力,且是参与研究如何更好地改善公司内部沟通机制的最佳人选?这类分析可以帮助公司更好地理解人与人之间的沟通方式。

社交网络分析的流行度和影响度一定会持续下去。因为社交网络分析流程本身会保持指数级的增长态势,因而数据源就会变得比初始构想的要大得多。也许最有效的功能是提供关于客户整体影响和价值的洞察,而这种洞察可以完全颠覆企业对客户的看法。

总结:

虽然各行各业都有广泛的大数据源,但它们仍有一些共同的主题。虽然目的不同,但各行各业都使用了相同的底层技术,如RFID。