作者:维克托·迈尔·舍恩伯格
序一
传统的计算机无法处理大量、并且不规则的“非结构数据",以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两面:问题和解决方法。
大数据发展的障碍,在于数据的“流动性”和“可获取性”。
译者序
首先,做着提出大数据时代处理数据理念上的三大转变:要全体不要抽样、要效率不要绝对精准、要相关不要因果。
接着,从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车的材质和智力方面向前滚动的最根本动力。
最后,作者描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
作为本书补充,国内出版的一些大数据方面的书籍:
1、《证析》郑毅
对于数据通过交叉复用体现的新价值、大数据战略在企业与政府执行层面的流程和大数据科学家这一新职位,以及围绕这个职位的能力和责任给出了最深刻、最具体的描述。
2、《大数据》子沛
对于数据的公正性、公平性以及信息和数据管理等方面理念、政策和执行的变化,特别是美国在这方面的进展,给出了完整的介绍。
网易云阅读http://yuedu.163.com/source/9553905549624100926ceb6b0deebb13_4
3、《个性化:商业的未来》苏萌、林森
对大数据时代最重要的技术——个性化技术,以及与之相关的新商业模式给出了从理念到技术细节的全景工笔。
网易云阅读http://yuedu.163.com/source/a403d6a0b27341edb357d668244dd35e_4
引言 一场生活、工作与思维的变革
大数据,变革公共卫生
在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。
谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,它保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
更关键的是,他们建立的系统并不依赖于这样的语义理解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上的传播之间的联系。他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到。
大数据,变革商业
大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购买飞机票就是一个很好的例子。
埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当前的机票价格在未来一段时间内会上涨还是下降。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。
如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。这个预测系统建立在41天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因,只能推测会发生什么。
2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。
到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。
大数据,变革思维
数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
大数据,开启重大的时代转型
与其他新技术一样,大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。
欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上相当部分的信息存储份额),而如今大约每三年就能增长一倍。
这种增长意味着什么呢?彼特·诺维格(Peter Norvig)是谷歌的人工智能专家,也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长与图画进行类比。首先,他要我们想想来自法国拉斯科洞穴壁画上的标志性的马。这些画可以追溯到一万七千年之前的旧石器时代。然后,想想一张马的照片,再想想毕加索的画也可以,看起来和那些洞穴壁画没有多大的差别。事实上,毕加索看到那些洞穴壁画的时候就曾开玩笑说:“自那以后,我们就再也没有创造出什么东西了。”
他的话既正确又不完全正确。你回想一下壁画上的那匹马。当时要画一幅马需要花费很久的时间,而现在不需要那么久了。这就是一种改变,虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像。但是诺维格说,想象一下,现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据也一样,量变导致质变。物理学和生物学都告诉我们,当我们改变规模时,事物的状态有时也会发生改变。
我们就以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,你就可以用同样的原料来做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在的时候,这种性质会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做很多在小数据量的基础上无法完成的事情。
有时候,我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫来说,重力是无关紧要的。对它们而言,物理宇宙中有效的约束是表面张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于表面张力毫不在意。
预测,大数据的核心
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。
大数据,大挑战
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。
第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。大数据让我们更清楚地看到了样本无法揭示的细节信息。
第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。我们不会、也不可能用“分”这个单位去精确度量国民生产总值。随着规模的扩大,对精确度的痴迷将减弱。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。
第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系。在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。
对我们而言,危险不再是隐私的泄露,而是被预知的可能性——这些能预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮捕。
第一部分 大数据时代的思维变革
01 更多
不是随机样本,而是全体数据
让数据“发声”
实际上,大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。
●首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
●其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。
●最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。
统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。
利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是当数量无比庞大时,这又不太现实。那如何选择样本呢?有人提出有目的地选择最具代表性的样本是最恰当的方法。1934年,波兰统计学家耶日·奈曼(Jerzy Neyman)指出,这只会导致更多更大的漏洞。事实证明,问题的关键是选择样本时的随机性。
统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。比如,以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机性,因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。
随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。一旦采样过程中存在任何偏见,在细分领域所做的预测就会大错特错。
当人们想了解更深层次的细分领域的情况时,随机采样的方法就不可取了。在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。
随机采样也需要严密的安排和执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题。所以虽说随机采样是一条捷径,但它也只是一条捷径。随机采样方法并不适用于一切情况,因为这种调查结果缺乏延展性,即调查得出的数据不可以重新分析以实现计划之外的目的。
只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。
我们可以用Lytro相机来打一个恰当的比方。Lytro相机是具有革新性的,因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同,Lytro相机可以记录整个光场里所有的光,达到1100万束之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了,也就是收集了所有的数据,“样本=总体”。因此,与普通照片相比,这些照片就更具“可循环利用性”。如果使用普通相机,摄影师就必须在拍照之前决定好聚焦点。
有趣的是,与小规模的研究相比,这个团队发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。这个研究结果非常重要也非常得出人意料。谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢?这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。
02 更杂
不是精确性,而是混杂性
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
大数据的简单算法比小数据的复杂算法更有效
当数据只有500万的时候,有一种简单的算法表现得很差,但当数据达10亿的时候,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的。它的准确率会从86%提高到94%。
后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”
无所不包的谷歌翻译系统
从谷歌的例子来看,它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。
在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们就指出,混杂是关键,纷繁的数据越多越好。
正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。
麻省理工与通货紧缩预测软件
政府采集这些数据每年大概需要花费两亿五千万美元。这些数据是精确的也是有序的,但是这个采集结果的公布会有几周的滞后。2008年的经济危机表明,这个滞后是致命的。政策决策者为了更好地应对变化,需要及时了解通货膨胀率,但如果以传统的依赖采样和追求精确的方式进行数据收集,政府就不可通货膨胀率,但如果以传统的依赖采样和追求精确的方式进行数据收集,政府就不可能及时获得数据了。
混杂性,不是竭力避免,而是标准途径
相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注每张照片就没有意义了。难道真会有人为他的照片取名“像希特勒一样的猫”吗?
恰恰相反,清楚的分类被更混乱却更灵活的机制所取代了。这些机制才能适应改变着的世界。当我们上传照片到Flickr网站的时候,我们会给照片添加标签。也就是说,我们会使用一组文本标签来编组和搜索这些资源。人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的。任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准。标签被广泛地应用于Facebook、博客等社交网络上。因为它们的存在,互联网上的资源变得更加容易找到,特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。
当然,有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确性的人们很痛苦。但是,我们用来编组照片集的混乱方法给我们带来了很多好处。比如,我们拥有了更加丰富的标签内容,同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。我们添加标签时多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。这是对更加精确系统的一种对抗。这些精确的系统试图让我们接受一个世界贫乏而规整的惨象——假装世间万物都是整齐地排列的。而事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。
我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。
Hadoop与VISA的13分钟
Hadoop是与谷歌的MapReduce系统相对应的开源式分布系统的基础架构,它非常善于处理超大量的数据。通过把大数据变成小模块然后分配给其他机器进行分析,它实现了对超大量数据的处理。
Hadoop的输出结果没有关系型数据库输出结果那么精确,它不能用于卫星发射、开具银行账户明细这种精确度要求很高的任务。但是对于不要求极端精确的任务,它就比其他系统运行得快很多,比如说把顾客分群,然后分别进行不同的营销活动。
ZestFinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次验证了“宽容错误会给我们带来更多价值”这一观点。这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。
社会将两个折中的想法不知不觉地渗入了我们的处事方法中,我们甚至不再把这当成一种折中,而是把它当成了事物的自然状态。
第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。
第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理的。因为当时我们收集的数据很少,所以需要越精确越好。如今这依然适用于一些事情。但是对于其他事情,快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
现在,我们能够容忍模糊和不确定出现在一些过去依赖于清晰和精确的领域,当然过去可能也只是有清晰的假象和不完全的精确。只要我们能够得到一个事物更完整的概念,我们就能接受模糊和不确定的存在。就像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你就会发现这是一幅伟大的作品,因为你退后一步的时候就能看出画作的整体思路了。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。
03 更好
不是因果关系,而是相关关系
林登与亚马逊推荐系统
格雷格·林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利。方法的转变使技术发生了翻天覆地的变化。
因为估算可以提前进行,所以推荐系统快如闪电,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。
知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。
关联物,预测的关键
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
沃尔玛,请把蛋挞与飓风用品摆在一起
在许多情况下,沃尔玛不接受产品的“所有权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。
我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。
建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。
美国折扣零售商塔吉特与怀孕预测
对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改变消费观念的开始,也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商店,渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助,看是否有什么办法能够通过一个人的购物方式发现她是否怀孕。
塔吉特公司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠券。
一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。
UPS与汽车修理预测
UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物力,所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需要更换需要更换的零件,从而节省了好几百万美元。
无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件之后生产才能继续进行。收集和分析数据的花费比出现停产的损失小得多。预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就说它并不能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。
“是什么”,而不是“为什么”
在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的增加肯定会发生改变。事实上,实际情况远比我们所想象的要复杂。经过复杂的分析,我们能够发现数据的“非线性关系”。
普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。这是我们对已有的知识和信仰的执著。在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。
即使我们慢慢思考,想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考,即使大部分时候很多因素都会削弱特定的因果关系。
第二部分 大数据时代的商业变革
04 数据化
一切皆可“量化”
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚关灯打向“I”,开始关注信息本身了。
莫里的导航图,大数据的最早实践之一
为了提高精确度,莫里需要更多的信息,因此他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用,返航后再提交表格。商船也拼命地想得到他的图表,莫里就要求以他们的航海日志作为回报(病毒型社交网络的早期版本)。他宣称:“每艘航行在公海上的船舶从此以后都可以被视为一个浮动的天文台,一个科学的殿堂。”为了改进和完善图表,他需要寻求更多的数据(正如谷歌利用网页排名来获得更多的数据)。莫里让船长定期向海里扔掷标有日期、位置、风向以及当时洋流情况的瓶子,然后再来寻找这些瓶子。许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。这些旗帜就是出现在一些网站上的友情链接的前身。
数据,从最不可能的地方提取出来
如今我们经常把“数字化”和“数据化”这两个概念搞混,但是对这两个概念的区分实际上非常重要。我们来看一个更加现代的例子,帮助我们理解数据其实可以从看上去最不可能的东西中提取出来。
日本先进工业技术研究所的坐姿研究与汽车防盗系统
越水重臣和他的工程师团队通过在汽车座椅下部安装总共360个压力传感器以测量人对椅子施加压力的方式。把人体屁股特征转化成了数据,并且用从0~256这个数值范围对其进行量化,这样就会产生独属于每个乘坐者的精确数据资料。
有了这个系统之后,汽车就能识别出驾驶者是不是车主;如果不是,系统就会要求司机输入密码;如果司机无法准确输入密码,汽车就会自动熄火。把一个人的坐姿转化成数据后,这些数据就孕育出了一些切实可行的服务和一个前景光明的产业。比方说,通过汇集这些数据,我们可以利用事故发生之前的姿势变化情况,分析出坐姿和行驶安全之间的关系。这个系统同样可以在司机疲劳驾驶的时候发出警示或者自动刹车。
越水重臣教授把一个从不被认为是数据、甚至不被认为和数据沾边的事物转化成了可以用数值来量化的数据模式。同样,莫里中校从看上去没什么用处的事物中提取出了信息,转化成了极其有用的数据。这样创新性的应用创造出了这些信息独特的价值。
量化一切,数据化的核心
计量和记录为预测和计划奠定了基础。
最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。复式记账法可以使查询每个账户的盈亏情况变得简单容易。它会提供交易的记账线索,这样就更容易找到需要的数据。它的设计理念中包含了“纠错”的思想,这也是今天的技术人才们应该学习的。如果一个账本看着不对劲,我们可以查询另一个相对应的账本。
简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质上的不同。
除了人以外,我们也可以跟踪事物的地理位置信息。随着汽车装上了无线传感器,地理位置信息的数据化深刻变革了保险的概念。这些数据提供了关于时间、地点和实际行驶路程的详细信息,使保险公司能更好地为车险定价。在英国,车主可以根据他的实际驾驶地点和时间购买汽车保险,而不是只能根据他的年龄、性别和履历来购买年险。这种保险定价法激励投保人产生更好的行为习惯。同时,这改变了保险的基础,从考虑一个群体的平均风险转变为个性化的分析。通过汽车定位每个人的地理方位也改变了一些固定资产投入的模式,比方说公路和其他基础设施可以让使用这些资源的司机和其他人分担一部分投入。当然,在实现对所有人和事以数据形式保持持续定位之前,这显然还无法实现,但这是我们的发展方向。
多效地理定位与UPS的最佳行车路径
UPS快递多效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督管理员工并优化行车线路。就像莫里的图表是基于过去的航海经验一样,UPS为货车定制的最佳行车路径一定程度上也是根据过去的行车经验总结而来的。
毋庸置疑,收集用户地理位置数据的能力已经变得极其具有价值。从个人层面上来说,根据他所居住的地点和他要去的地方的预测数据,可以为他提供定制广告。而且,这些信息汇集起来可能会揭示事情的发展趋势。比方说,公司可以利用大量的位置数据预测交通情况,你也许无法想象,这是通过高速公路上的手机而不是汽车的数量和移动速度预测出来的。
当沟通变成数据
Twitter通过创新,让人们能轻易记录以及分享他们零散的想法(这些在以前,都会成为遗忘在时光中的碎片),从而使情绪数据化得以实现。
世间万物的数据化
只要一点想象,万千事物就能转化为数据形式,并一直带给我们惊喜。IBM获得的“触感技术先导”专利与东京的越水重臣教授对臀部的研究工作具有相同理念。知识产权律师称那是一块触感灵敏的地板,就像一个巨大的智能手机屏幕。其潜在的用途十分广泛。它能分辨出放置其上的物品。它的基本用途就是适时地开灯和开门。然而更重要的是,它能通过一个人的体重、站姿和走路方式确认他的身份。它还能知道某人在摔倒之后是否一直没有站起来。有了它,零售商可以知道商店的人流量。当地板数据化了的时候,它就能滋生无穷无尽的用途。
05 价值
“取之不尽,用之不竭”的数据创新
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
ReCaptcha与数据再利用
与雇用人所需要花费的成本相比较,它释放出的价值是非常巨大的。每天完成的ReCaptcha超过2亿,按平均每10秒输入一次的话,一天加起来一共是50万个小时,而2012年美国的最低工资是每小时7.25美元。从市场的角度来看,解疑计算机不能识别的单词每天需要花费约350万美元,或者说每年需要花费10亿多美元。冯·安设计的这个系统做到了这一点,并且,没有花一分钱。
ReCaptcha的故事强调了数据再利用的重要性。随着大数据的出现,数据的价值正在发生变化。
不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这就是经济学家所谓的“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所耗损。因此,亚马逊在向其用户,不论是生成这些数据的客户或是其他客户做出建议时,都可以不断地使用过去的交易数据。
在大数据时代,数据就像是一个神奇的钻石矿,在其首要价值被发掘之后仍能不断产生价值。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。
数据创新1:数据的再利用
数据创新再利用的一个典型例子是搜索关键词。消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻的特定功能。乍看起来,这些信息在实现了基本用途之后似乎变得一文不值。但是,以往的查询也可以变得非常有价值。有的公司,如数据代理益百利旗下的网页流量测量公司Hitwise,让客户采集搜索流量来揭示消费者的喜好。
数据再利用的价值对于那些收集或控制着大型数据集但目前却很少使用的机构来说是个好消息,比如在那些线下运作的传统企业。
数据创新2:重组数据
有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。如今,互联网用户都熟悉基本的混搭式应用,即将两个或多个数据源以一种新颖的方法结合起来。例如,房地产网站Zillow.com将房地产信息和价格添加在美国的社区地图上,同时还聚合了大量的信息,如社区近期的交易和物业规格,以此来预测区域内具体每套住宅的价值。
数据创新3:可扩展数据
促成数据再利用的方法之一是从一开始就设计好它的可扩展性。虽然这不总是可能的,因为人们可能在数据收集后很长时间才意识到这一点,但的确有一些方法可以鼓励相同数据集的多种用途。例如,有些零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。在此之前,监控摄像机仅用于安全保卫,是一项纯粹的成本支出,而现在却被视为一项可以增加收入的投资。
谷歌街景与GPS采集
在收集数据时强调扩展性方面,谷歌毫无疑问是做得最好的公司之一。其备受争议的街景汽车不仅拍摄了房屋和道路的照片,还同时采集GPS数据,检查地图的信息,甚至还加入了无线网络名称(以及通过开放无线网络的内容,尽管这可能是非法的)。一辆谷歌街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地图服务,而且对谷歌自动驾驶汽车的运作功不可没。
收集多个数据流或每个数据流中更多数据点的额外成本往往较低,因此,收集尽可能多的数据并在一开始的时候就考虑到各种潜在的二次用途并使其具有扩展性是非常有意义的。这增加了数据的潜在价值。问题的关键是寻找“一份钱两份货”,即如果以某种方式收集的单一数据集有多种不同的用途,它就具有双重功能。
数据创新4:数据的折旧值
随着数据存储成本的大幅下降,企业拥有了更强的经济动机来保存数据,并再次用于相同或类似的用途。但是,其有效性是有限的。
随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如十年前你在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。
数据创新5:数据废气
数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。两个关于拼写检查的故事给我们提供了一个生动的解释。
微软与谷歌的拼写检查
谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。当搜索结果页面的顶部显示“你要找的是不是:流行病学”时,用户可以通过点击正确的术语明确地“告诉”谷歌自己需要重新查询的内容。或者,直接在用户访问的页面上显示正确拼写的结果,因为它很可能与正确的拼写高度相关。
只有谷歌认识到了用户交互的碎屑实际上是金粉,收集在一起就能锻造成一块闪亮的金元宝。谷歌的一名顶级工程师估计,他们的拼写检查器性能比微软至少高出一个数量级。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。
谷歌,从大的“噪音”数据中受益
谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。
这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
巴诺与NOOK快照
电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据:读者阅读一页或一节需要多长时间,读者是略读还是直接放弃阅读,读者是否画线强调或者在空白处做了笔记,这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来,数据废气可以用量化的方式向出版商和作者展示一些他们可能永远都不会知道的信息,如读者的好恶和阅读模式。这是十分具有商业价值的。电子图书出版公司可以将这些信息卖给出版商,从而帮助改进书籍的内容和结构。
数据创新6:开放数据
我们很可能认为谷歌和亚马逊等网站是大数据的先驱者,但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。因此,政府将继续收集和积累大量的数据。
给数据估值
上市的前一晚,银行对Facebook的定价是每股38美元,总估值1040亿美元(也就是说,大约是波音公司、通用汽车和戴尔电脑的市值之和)。那么事实上Facebook价值多少呢?在2011年供投资者评估公司的审核账目中,Facebook公布的资产为66亿美元,包括计算机硬件、专利和其他实物价值。那么Facebook公司数据库中存储的大量信息,其账面价值是多少呢?零。它根本没有被计入其中,尽管除了数据,Facebook几乎一文不值。
与其IPO估值相比,这意味着每条信息(将其视为一个离散数据点)都有约4美分的价值。也就是说,每一个Facebook用户的价值约为100美元,因为他们是Facebook所收集信息的提供者。
20世纪30年代,当时信息类的企业几乎不存在。现行财务报表模式与现状的差异不仅会影响公司的资产负债表,如果不能正确评估企业的价值,还可能会给企业带来经营风险和市场波动。
公司账面价值和市场价值之间的差额被记为“无形资产”。20世纪80年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数字已经增长为75%。无形资产早期仅包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。
“数据是一个平台”,因为数据是新产品和新商业模式的基石。
06 角色定位
数据、技术与思维的三足鼎立
微软以1.1亿美元的价格购买了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。
Decide.com与商品价格预测
2011年,西雅图一家叫Decide.com的科技公司推出了一个雄心勃勃的门户网站,它想为无数顾客预测商品的价格。不过它最初计划的业务范围只限于电子产品,包括手机、平板电视、数码相机等。公司的计算机会收集电子商务网站上所有电子产品的价格数据和产品信息。
网络产品的价格受一系列因素的影响全天都在不断更新,所以公司收集的价格数据必须是即时的。这不仅是一个“大数据”问题,还是一个“大文本”问题,因为系统必须进行数据分析,才会知道一个产品是不是下架了或者是不是有新产品要发布了,这些都是用户想知道的信息而且都会影响产品价格。
大数据价值链的3大构成
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公司。
第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
VISA&MasterCard与商户推荐
像VISA和MasterCard这样的信用卡发行商和其他大银行就站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息。它们的商业模式从单纯的处理支付行为转变成了收集数据。接下来的问题就是,如何使用收集到的数据。
它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠券。
数据中间商,交通数据处理公司Inrix
数据不再是单纯意义上的数据,它被挖掘出了新的价值。比方说,Inrix收集的交通状况数据信息会比表面看上去有用得多,它被用来评测一个地方的经济情况,因为它也可以提供关于失业率、零售额、业余活动的信息。2011年,美国经济复苏开始放缓,虽然政客们强烈否定,但是这个信息还是被交通状况分析给披露了出来。Inrix的分析发现,上下班高峰时期的交通状况变好了,这也就说明失业率增加了,经济状况变差了。同时,Inrix把它收集到的数据卖给了一个投资基金,这个投资基金把交通情况视作一个大型零售商场销量的代表,一旦附近车辆很多,就说明商场的销量会增加。在商场的季度财政报表公布之前,这项基金还利用这些数据分析结果换得了商场的一部分股份。
大数据公司的多样性表明了数据价值的转移。在Decide.com的案例中,产品价格和新产品的发布数据都是由合作的网站提供的,然后合作双方共同分享利润。Decide.com通过人们在这些网站购买产品而赚取佣金,同时提供这些数据的公司也取得了部分利润。相比ITA提供给Farecast的数据不抽取佣金而只是收取基本授权费用的情况,这说明了这个行业的逐渐成熟——如今数据提供者会更占优势。不难想象,埃齐奥尼的下一个科技公司应该就会自己收集数据了,因为数据的价值已经从技术转移到了数据自身和大数据思维上。
Roadnet从客户手中收集大量数据,同时为UPS和它的竞争者提供行业内广受认可的标杆性服务。Roadnet的首席执行官兰·肯尼迪(Len Kennedy)解释说,“如果是UPS Logistics,那么UPS的竞争对手肯定不会交出它们的数据,因此,只有让它变成一个独立的公司,UPS的竞争对手才会愿意拿出它们的数据。”最终,每个公司都从中受益了,因为数据汇集之后,系统的精确性就更高了。
认为数据自身而不是技术和思维更值钱的想法,在大数据时代的多笔商业交易中都有所体现。2006年,微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast。而两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITA Software公司。
大数据,决定企业竞争力
在过去十年里,航空发动机制造商劳斯莱斯通过分析产品使用过程中收集到的数据,实现了商业模式的转型。坐落于英格兰德比郡的劳斯莱斯运营中心一直监控着全球范围内超过3700架飞机的引擎运行情况,为的就是能在故障发生之前发现问题。数据帮助劳斯莱斯把简单的制造转变成了有附加价值的商业行为:劳斯莱斯出售发动机,同时通过按时计费的方式提供有偿监控服务(一旦出现问题,还进一步提供维修和更换服务)。如今,民用航空发动机部门大约70%的年收入都是来自其提供服务所赚得的费用。
苹果,挖出“潜伏”的数据价值
苹果公司在与运营商签订的合约中规定运营商要提供给它大部分的有用数据。通过来自多个运营商提供的大量数据,苹果公司所得到的关于用户体验的数据比任何一个运营商都要多。苹果公司的规模效益体现在了数据上,而不是固有资产上。
大数据也为小公司带来了机遇。用埃里克教授的话说就是,聪明而灵活的小公司能享受到非固有资产规模带来的好处。这也就是说,它们可能没有很多的固有资产但是存在感非常强,也可以低成本地传播它们的创新成果。
消费者可以自行决定把这些数据中的多少授权给哪些公司。当然,不是每个人都只在乎把他的数据卖个高价,很多人愿意免费提供这些数据来换取更好的服务,比如想得到亚马逊更准确的图书推荐。但是对于很大一部分对数据敏感的消费者来说,营销和出售他们的个人信息就像写博客、发Twitter信息和在维基百科检索一样自然。
第三部分 大数据时代的管理变革
07 风险
让数据主宰一切的隐忧
我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。
我们也将分析它是如何加深对我们隐私的威胁的,同时还将面对一个新的挑战,即运用大数据预测来判断和惩罚人类的潜在行为。这是对公平公正以及自由意志的一种亵渎,同时也轻视了决策过程中深思熟虑的重要性。
大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。应用得当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。
我们的隐私被二次利用了
目前所采集的大部分数据都包含有个人信息,而且存在着各种各样的诱因,让我们想尽办法去采集更多、存储更久、利用更彻底,甚至有的数据表面上并不是个人数据,但是经由大数据处理之后就可以追溯到个人了。
比方说,如今在美国和欧洲部署的一些智能电表每6秒钟采集一个实时读数,这样一天所得到的数据比过去传统电表收集到的所有数据还要多。因为每个电子设备通电时都会有自己独特的“负荷特征”,比如热水器不同于电脑,而它们与Led大麻生长灯又不一样,所以能源使用情况就能暴露诸如一个人的日常习惯、医疗条件和非法行为这样的个人信息。
我们把谷歌街景作为一个例子来看,谷歌的图像采集车在很多国家采集了道路和房屋的图像(以及很多备受争议的数据)。但是,德国媒体和民众强烈地抗议了谷歌的行为,因为民众认为这些图片会帮助黑帮窃贼选择有利可图的目标。有的业主不希望他的房屋或花园出现在这些图片上,顶着巨大的压力,谷歌同意将他们的房屋或花园的影像模糊化。但是这种模糊化却起到了反作用,因为你可以在街景上看到这种有意识的模糊化,对盗贼来说,这又是一个此地无银三百两的例子。
另一条技术途径在大部分情况下也不可行,那就是匿名化。匿名化指的是让所有能揭示个人情况的信息都不出现在数据集里,比方说名字、生日、住址、信用卡号或者社会保险号等。这样一来,这些数据就可以在被分析和共享的同时,不会威胁到任何人的隐私。在小数据时代这样确实可行,但是随着数据量和种类的增多,大数据促进了数据内容的交叉检验。
在美国在线的案例中,我们被我们所搜索的内容出卖了。而奈飞公司的情况则是因为不同来源数据的结合暴露了我们的身份。这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。
《少数派报告》所描述的这个令人不安的社会正是不受限制的大数据分析可能会导致的:罪责的判定是基于对个人未来行为的预测。
我们已经看到了这种社会模式的萌芽。30多个州的假释委员正使用数据分析来决定是释放还是继续监禁某人。越来越多的美国城市,从洛杉矶的部分地区到整个里士满(美国弗吉尼亚州首府),都采用了“预测警务”(也就是大数据分析)来决定哪些街道、群体还是个人需要更严密的监控,仅仅因为算法系统指出他们更有可能犯罪。
在孟菲斯市,一个名为“蓝色粉碎”的项目为警员提供情报,关于哪些地方更容易发生犯罪事件,什么时候更容易逮到罪犯。这个系统帮助执法部门更好地分配其有限的资源。
如果大数据预测只是帮助我们预防不良行为,我们似乎是可以接受的。但是,倘若我们使用大数据预测来判定某人有罪并对其尚未实施的行为进行惩罚,就可能让我们陷入一个危险的境地。
这否定了法律系统或者说我们的公平意识的基石——无罪推定原则。因为我们被追究责任,居然是为了我们可能永远都不会实施的行为。对预测到的未来行为判罪也否认了我们进行道德选择的能力。
数据独裁
麦克纳马拉是一个执迷于数据的人。20世纪60年代早期,在越南局势变得紧张的时候,他被任命为美国国防部长。任何事情,只要可以,他都会执意得到数据。他认为,只有运用严谨的统计数据,决策者才能真正理解复杂的事态并做出正确的决定。
美国军方在越战时对数据的使用、滥用和误用给我们提了一个醒,在由“小数据”时代向大数据时代转变的过程中,我们对信息的一些局限性必须给予高度的重视。数据的质量可能会很差;可能是不客观的;可能存在分析错误或者具有误导性;更糟糕的是,数据可能根本达不到量化它的目的。