大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多改变正蓄势待发……
-----《大数据时代》的开篇引言。
舍恩伯格用著名的Google H1N1甲型流感预测以及Farecast票价预测两个例子讲述了大数据对公共卫生和商业实实在在的变革。而更重要的,则是人们对数据价值开始逐渐重新认知,不再认为数据是静止和陈旧的,而是可以反复挖掘的宝藏,这是一种思维的变革。
如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙的用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
这仅仅是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需要关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
舍恩伯格教授在他的书《大数据时代》中是这样描述的:“大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。”也就是说,所谓的大数据是一个比较的概念。它是在人类过去运用小数据库随机抽样获得分析结果比较而来。它的关键是在“大”,数据容量越多越好。大数据的核心作用在于“预测”,也是人们常说的预判未来。
在数据还没如此庞大以及可获得性如此便利的过去,人类需要分析某些问题获取结论往往是靠随机抽样的方法,例如在某一个特定地人群中抽取多少人进行抽样调查。假设我想了解80后婚姻状况的分析,我从上海地区80后中选取5000个人进行调查。这种分析方法就是过去统计学家与社会学家常用的随机抽样,也称为定性分析法。
每时每刻,身边的数据都在飞速的增长。人类存储信息量的增长速度比世界经济增长的速度快4倍,而计算机数据处理速度则比世界经济增长的速度快9倍。如今每隔大约三年,数据都能增长一倍。量变产生质变,大数据也是一样,这项技术必将改变我们的生活。
大数据的特征:
“大数据”与“大规模数据”/“海量数据”的最大区别在于,“大数据”这一概念蕴含着对数据的处理行为,这种行为背后是软件、硬件、算法、方法论等一些列知识的集成与工程实施,绝非数据的简单堆砌。
第一部分大数据时代的思维变革
第一部分名叫“大数据时代的思维变革”,包括01、02、03三章,主要探讨的就是在引言里作者提出的三个重要的思维转变。第一部分01要介绍的就是第一个转变:利用所有的数据而不是仅仅依靠一小部分数据。
让数据“发声”
小数据时代的随机采样,是用最少的数据来获得最多的信息。在过去,统计学的发展是非常源远流长的,因为完全统计所需要耗费的成本太多,就比如说人口的普查、土地的丈量、财富的统计,这些关乎国计民生的大事,不可能不知道,但是要准确的知道又代价太大。一直以来统计学家们的任务,就是要通过采样分析来以尽量少的数据量得出尽量多且准确的知识。为了取得样本的随机性,统计学家们作出了大量的艰苦卓绝的努力,一直以来随机采样也是社会的主心骨。但是问题是,这种随机采样只是一条捷径,是在不可收集和分析全部数量的情况下进行的选择,本身存在着很多固有的缺陷。对于统计人口这样的简单抽样问题,可以采用经典随机抽样;但是毕竟存在着最优抽样的判断标准和最优方法。最近,祝建华教授在一次讨论中指出,如果抽样的对象更加的复杂,例如是一个网络,那么根本找不到一个最优抽样的标准,更不可能奢求抽样得到的小网络能反映总体的结构性特征。另外,随机采样也不适合考察子类别的情况,想了解更深层次细分领域的情况也不可取,成本也不低,需要有严密的安排与执行。而现在,由于我们的计算机存储能力、计算能力以及互联网、云计算、物联网等技术的充分发展,使得我们可以进入大数据时代里的“全数据模式”。
在“全数据模式”里,样本=总体。采样的目的在于用最少的数据得到最多的信息,但是当我们可以获得海量数据的时候,它就没有什么意义了。我们应该让数据自己去发声,而不是靠我们的预测。数据处理技术已经发生了翻天覆地的改变,而我们的思维却还没有能够跟得上这样的改变。之前我们也曾提醒过,数据现在是一种资源,那么用过的数据难道就不要了吗?错了,就如同最一开始举的谷歌的例子还有飞机票的例子一样,你掌握的历史数据资源越多,你的预测结果就越准确,而且这样海量的数据,完全可以克服随机抽样只能“聚焦所提出的调查问题”的限制,而是可以深度分析出许多新的东西。这就好比是说,数据想要告诉你的,比你想要知道的更多。
比如说,经济学家斯蒂夫-列维特在《美国经济评论》上发表了一篇研究论文,在论文中,他研究了关于日本相扑比赛中有人操纵比赛的问题。他和助手使用了11年中超过64000场相扑比赛记录,来寻找异常性。他们获得了重要的发现,那就是非法操纵相扑比赛结果的情况确实时有发生,但是不会发生在大家很关注的比赛上,冠军赛也有可能被操纵,但是数据显示消极比赛主要还是出现在不太被关注的联赛后几场中。后来他们还发现一个问题,那就是在相扑界有“帮对手一把”的习俗。当两个人比赛,比赛的结果对于其中一个人很重要而对于另一个人不重要的时候,需要赢的那个人很可能就会赢。看起来就好像是对手送了他一个礼物,因为在联系紧密的相扑界,帮别人一把就等于给自己留了一条后路,下一次他也会帮你。那么有没有可能是因为那个需要赢的人求胜的决心帮助他去赢呢?有可能,但是数据显示,这样的情况也只能把胜率提高25%。拥有了海量的数据,就可以让数据自己说话,告诉我们一些掩藏在数据下更多的信息,但是如果是随机抽样,就做不到继续深入发掘。
这一章讨论的是第二个思维的转变:不再过分强调精确,而是允许海量数据下的混杂,从而从更佳宏观的角度去深化认知。
在这一章的提要里有这样一段话,我觉得很能说明作者的态度:“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用。只有接受了不精确性,我们才能打开一扇从未涉足世界的窗户。”我个人觉得,不精确绝对不是一种错,而是接受现实的表现;反之,如果一定要假设这个世界是规则的,能够把所有的数据都整理成为精确的,现实条件不允许,现实工作和生活中会受到这种思想的桎梏。
允许不精确
过去,我们生活在“小数据”时代,为了了解大世界,我们必须要依靠统计。所以,对于“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。但是,在不断涌现的新情况里,允许不精确的出现已经成为了一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
这里的混乱都包括哪些混乱呢?1、错误的数据;2、格式不一致的数据;3、容易混淆的数据,比如说全世界简称为IBM的组织可能有成千上万等等。
为什么说数据多了,就可以允许不精确的情况发生呢?或者说为什么大数据就不会害怕混杂错误的数据呢?书里面举了一个小例子:假设你要测量一个葡萄园里面的温度,但是整个园里面只有一个温度测量仪,那么你就必须确保这个测量仪能够一直工作,反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能是错误的,可能会更加的混乱,但是众多的读数合起来就能提供一个更加准确的结果,因为这里面包含了更多的数据,而它不仅能抵消掉错误所产生的影响,还能提供更多的额外价值。况且,大数据其实从来没有说要板着一副“确凿无疑”的面孔,而是通常用概率说话。还有一点就是,当我们想要扩展数据规模的时候,也必须要学会拥抱混乱。
大数据的简单算法比小数据的复杂算法更有效
作者举了翻译的例子。在最初进行翻译的时候,是IBM公司在做,他们根据语法规则、语义序列,将250个词语和六条语法规则定为基础,将60个俄语词组翻译成为了英语,而且对于特定的俄语句子翻译的还特别的流畅。当时人们觉得,只要把规则定的足够全面,那么扩展到全语言将不是问题。但是很快他们就遭受了打击并且不得不承认失败,因为机器翻译不能只是让电脑熟悉常用规则,还必须教会电脑处理特殊的语言情况,而且翻译也不仅仅是记述,还涉及选词。比如法语中的“bonjour”就一定是“早上好”吗?有没有可能是“喂”、“今天天气不错”、“吃了吗”?事实上都有可能,要根据情况而定。但是大数据让人们有了一个更简单但是更有效的处理办法,那就是:与其教给计算机语言的规则和词汇,不如让计算机自己去估算一个词或者一个词组适合于用来翻译另一种语言中的另一个词或另一个词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。所依托的,就是大数据强大的语料库。其实把全人类的语言按照语料库的标准去大概容错式的组合起来的话,就是950亿句话。随着语料库的不断扩展壮大,机器的翻译就越流利、准确。最重要的一点是,这个复杂的翻译问题,就因为有了大数据,而变成了简单的数学概率选择问题!如今,谷歌的翻译由于它在搜索引擎方面强大的收集能力,已经拥有了万亿级别的语料库。与拥有百万英语单词的布朗语料库相比,谷歌的语料库是布朗语料库的退步,因为这里面有未经过滤的网页内容、不完整的句子、拼写错误和语法错误,也没有人工纠错后的详细注解,但是谷歌语料库是布朗语料库的好几百万倍大,这样的优势就完全压倒了缺点。
混杂性,不是竭力避免,而是标准途径
大数据时代,我们需要重新审视精确性的优劣。很多时候,在我们掌握了大量新的数据的时候,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。大数据,不仅让我们不再期待精确性,也让我们无法实现精确性。值得注意的是,错误性也不是大数据本身所拥有的,只是因为技术和手段仍然存在着缺陷,所以说错误并不是大数据固有的特性,而是一个亟需我们去解决的现实问题,并且有可能长期存在。很多时候,我们需要的是一种趋势,而部分的错误并不特别影响这样的趋势,因为数据量足够大。
其实人一贯的认知之中也有着类似于大数据的观点。比如说点赞,当数量不多的时候,人们会关注像“64”这样精确的数字,数量大一些的时候就会关注大概的近似值,比如“4000”,系统正是按照人的这种认知来设计的。再比如说收到邮件,很短的时间内,显示的是“11分钟以前”;但是时间长一点,就显示“2小时以前”就可以了。人一直想追求一个“一直唯一的真理”,但是事实是一个问题的答案可以有很多种,它们都对,反而追求那个一直唯一的真理,在一些情况下是对于注意力的分散了。所以想要获得大数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
我们甚至发现,不精确已经渗入到数据库设计这个最不能容忍错误的领域里了。以前数据库都是关系型的数据库,数据和结构都是一致的、整齐的,而近年来的大转变就是非关系型数据库的出现。它不需要预先设定记录结构,允许处理大量五花八门的数据,因为包容了结构的多样性,这些数据库设计就要求更多的处理和存储资源。但是一旦考虑到大大降低的存储和处理成本,这就是我们可以支付的起的公平交易。来自微软的帕特-赫兰德是最权威的数据设计专家之一,他的一句话一针见血:“我们再也不能假装活在一个齐整的世界。”
其实,现在的社会正在悄然的发展和变化,有两个折中的想法正在不知不觉的渗入到我们的处事方法中,第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据,但是数据量的限制在逐渐消失,通过无限接近于“样本=总体”的方式来处理数据,我们会得到极大的好处;第二个折中是,大数据时代,快速的获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要的多。有一个比方我觉得打得很好,这就像印象派的画风,近看每一笔都感觉是混乱的,但是退后一步就会发现这是一部伟大的作品,因为退后一步,你就能看出来它整体的思想。
大数据要求我们有所改变,我们必须接受混乱和不确定性。精确性似乎一直是我们生活的支撑,就像我们常说的“钉是钉,铆是铆”。但是认为每个问题只有一个答案的想法是站不住脚的,不管我们承认不承认。一旦我们承认这个事实并且拥护这个事实的话,我们离真相就又近了一步。
小数据时代,我们善于去做样本实验,也善于去从实验结果中发现因果,更要依靠这些去作出决策。因为数据量小,所以无法代表总量,因而决策的时候,需要去进行因果关系的分析,以辅助所得到的小数据样本分析结果。但是在大数据时代,借助着先进的计算技术和存储技术,我们发现,因果关系不再像以前那么重要,反而,一些我们一时得不出结论却能够反映问题的相关关系开始大行其道,派上用场。作者开篇就说,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是让数据自己“发声”。往往能够知道跟什么相关而不是为什么相关,就能够解决很多问题,创造很多财富。
最先开始将相关关系使用在商业模式上的恐怕要算亚马逊和谷歌了。亚马逊的总裁,杰夫贝索斯,决定尝试一个极富创造力的想法:根据客户以前的购物喜好,为其推荐具体的书籍。为什么他可以这么做呢,因为亚马逊前期或者说从一开始,就从每一个客户的身上收集了大量的数据。那么这样一套推荐系统,需要做的事就是找到产品之间的关联性。1998年,林登和同事还申请了著名的“item-to-item”协同过滤技术专利。亚马逊以前是请了一大帮书评家去评论每一本书,然后读者根据书评去决定买什么书的,书评家团队曾经是亚马逊最核心的竞争资源。但是,观念的改变却带来了新的结论,那就是,通过数据推荐产品所增加的销售远远超过了书评家的贡献。计算机可能,不,是肯定并不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书,但是这似乎并不重要,重要的是销量。如今,亚马逊销售额的三分之一都是来自于它的个性化推荐系统,它梳理出了有趣的相关关系,却不知道背后的原因。“知道是什么就够了,没必要知道为什么。”作者如是说。
关联物,预测的关键
相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化;或者是,另一个数据也可以大幅变化,只是没有趋势可循。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释清楚每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。但是,如果相关关系强,一个相关链接成功的概率是很高的。就比如说亚马逊的这个利用相关性的协同过滤推荐系统,很多人通过自己都可以证明,他们的书架上有很多书都是因为亚马逊的推荐而购买的。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。比如说A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉和A一起发生的事情,即使我们不能直接测量或者观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。我觉得这种思想很普遍的运用于天文学发现中,比如一开始只是发现了A事件,根据经验猜测A事件是因为和B物体相关,至于为什么相关,是根据过去的观测和研究纪录得来的相关性统计经验,但是往往不能直接测量和观测B物体(比如B物体是黑洞或是其他暗物质),可是可以大概预测未来A事件会怎么继续发生,如果推测符合观测,那么就有很大的把握确信B的存在。这样,就可以通过一些其他的办法去间接推断,再根据各种相关性的研究去总结出因果性,最终用实验或者是进一步的观测证实。我在想,将大数据应用于天文学,或许我们能对于宇宙深空探索有一个质的飞跃。
过去,我们需要先有一个想法,心里拟定一个关联物,然后再收集数据去测试这个想法的可行性,这样很容易出问题,而且出了问题再改就难了,获取的知识也有限;但是现在,我们有了如此多的数据和工具,要找出关联物,寻找正确靠谱的相关关系变得更快更容易。就像在谷歌预测流感趋势的过程中,计算机把检索词条在5亿个数学模型上进行测试以后,准确地找出了哪些是与流感传播最相关的词条。
大数据崇尚的是样本=总体的情况下去遍历所有的模型找知识。有些相关关系是统计的结果而并不需要去假想相关的关联物,关联物其实非常显然,超市里的统计最能说明这一点。美国折扣零售商Target利用大数据能够在完全不和准妈妈对话的前提下预测她什么时候怀孕。公司的分析团队首先查看签署婴儿礼物登记的女性的消费记录,Target注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香的乳液,几个月之后,她们会买一些营养品、比如镁、钙、锌。公司最终找出了大概20多种关联物,这些关联物可以给顾客进行怀孕趋势的评分,这些相关关系使得零售商能够比较准确地预测预产期,这样就能够在孕期的各个阶段给用户寄送相应的优惠券。通过找出一个关联物并监控它,我们就能够去预测未来。
是什么,而不是为什么
小数据时代,相关关系和因果分析都不容易,都要耗费巨大的资源,都要从建立假设做起,那么这些分析由于始于假设,所以都有收到偏见影响的可能,而且极易导致错误。而且大部分的相关关系仅限于寻求线性关系,事实上很多关系都是“非线性关系”。比如说如何衡量幸福。作者在书里提到,对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会逐步提升;但对于收入水平在1万美元以上的人来说,幸福感不会随着收入水平的提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线而不是直线。那么根据这样的统计,决策者就可以调整策略,将策略的重心由提高全民的收入水平以增加全民的幸福感变成提高低收入人群的收入水平以增加他们的幸福感,这样明显更划算。至于为什么人们有这样的差别,有这样不同的心态,探究有意义但是要耗费资源,通过了解是什么就能够达到解决问题的目的。
通过探求“是什么”而不是“为什么”,相关关系可以更好地帮我们了解这个世界。相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来的话,这些视角就有可能被蒙蔽掉。
大数据,改变人类探索世界的方法
在前面,我强调了相关关系是那么的重要,那么的便捷,这是不是意味着我们就可以只要相关关系而不要因果关系啦?再上升一个层面上说,是不是今后人类探索世界,就不再需要理论的指导而只需要建立于实践基础上的相关啦?有人走了这样的极端。2008年,《连线》杂志主编克里斯安德森说,大量的数据从某种程度上来说使得一系列的用因果关系来验证各种猜想的传统研究范式已经不实用了,它将会被无需理论指导的纯粹的相关关系研究所取代。他的核心思想是,我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代,我们不再需要理论了,关注数据就够了。这种思想被称之为“理论的终结”。这种思想当然是荒谬的。大数据,只是改变了人探索世界的方法,使得人们理解的更多,但是它也是在理论的基础上形成的。如何收集数据,我们是看收集的方便程度还是看成本呢,我们做决定的时候就在被理论所影响着,我们的选择在一定的程度上决定了结果。同时,我们在分析数据的时候,也依赖于理论来选择我们所使用的工具。最后,我们在解读研究结果的时候同样会使用理论。所以说,大数据时代绝对不是一个理论消亡的时代,相反的,理论贯穿着大数据时代的方方面面。可以说,有了大数据,人类在理论基础上的认知又前进了一大步,而人类探索世界的方法得到了质的飞跃。
第二部分大数据时代的商业变革
在第一部分的三章里,我们着重讨论了大数据时代的三大思维变革:更多、更杂、更好,说明了大数据是如何认识世界、如何解决问题,主要是从正面指出了大数据的优势。但是其实阅读了第一部分我自己就感觉到,大数据还是一个很新、很待发展的东西,它的理论体系还不够健全,解决问题还不够有针对性,就好比是你从一个盒子里面摸礼物,大数据的成果就是那一个个礼物,如果你没有特别急需要的东西,摸出来什么都是好的;如果你很想要某样东西,但是摸了半天都摸不出来,那就说明大数据还不能满足你的需求。但是它作为一种新的探索世界的办法,我觉得它很有前景、很有未来,而且它现在确实已经改变了这个世界,正在创造着大量的价值。因此我们进入第二部分,大数据时代的商业变革。这一部分也由三章构成,其中包括04章数据化、05章价值和06章角色定位。首先进入04章。
大数据的基础当然是数据,那么数据能覆盖多大的范围呢?作者答曰:一切。大数据最关键的当然是数据的采集,其实大数据的最早实践,在19世纪就已经开始。
莫里的导航图,大数据的最早实践之一
马修莫里是一位美国海军军官,1839年因为执行航海任务,他受了伤,被安排在了海军的图表和仪器厂。谁也想不到,这里竟然成为了他的福地。作为一个年轻的航海家,莫里曾经对船只在水上绕弯儿不走直线感到非常不解。当他向船长们问及这个问题时,他们回答说,走熟悉的路线比冒险走一条不熟悉而且可能充满危险的路线要好得多。但是根据莫里的经验,他明白这样的想法并不完全正确。他曾经经常向老船长学习经验知识,学到了潮汐、风和洋流的知识,相反海军依赖于陈旧的图表,有的可能已经用了百年,有很多错。他在库房的时候,发现了很多航海书籍、地图和图表,还有很多航海日志。他发现,航海日志里,有对于特定日期、特定地点的风、水和天气情况的记录,大部分信息都很有价值,如果把它们整理到一起,有可能呈现一张全新的航海图。莫里和他的20台“计算机”——那些进行数据处理的人,一起把这些破损的航海日志里记录的信息绘制成了表格,这是一项非常繁重的工作。他整合了数据之后,把整个大西洋按照经纬度划分成了五块,并按照月份标出了温度、风速和风向,因为根据时间的不同,这些数据也有所不同。整合之后,这些数据显示出了有价值的模式,也提供了更有效的航海路线。为了提高精确度,莫里需要更多的信息,因此他创建了一个标准的表格来记录航海数据,并且要求所有的美国海军舰船都要使用,返航后再提交表格。商船也想得到他的图表,莫里就要求他们拿航海日志作为回报。他说:“每艘航行在公海上的船舶从此成为一个浮动的天文台,一个科学的殿堂。”为了进一步改善和完善图表,他需要寻求更多的数据。他让船长定期向海里扔有日期、位置、风向以及当时洋流情况的瓶子,然后再来寻找这些瓶子。许多船挂了一面特殊的旗帜,表明它参与了这个信息交流计划。通过分析这些数据,莫里绘制出了能节省一大笔钱和三分之一海上时间的图表。1855年,莫里的权威著作《关于海洋的物理地理学》出版,当时他已经绘制了120万个数据点。在这些图表的帮助下,年轻的海员们不用再去亲自探索和总结经验,而能够通过这些图表立即得到来自成千上万名经验丰富的航海家的指导。
花了这么一大段文字去描述莫里的大数据早期探索,想指出三个问题:1、数据采集和提取的困难,莫里确实想了很多的办法,很重要的有两点,一是统一的表格,二是诸多的测量结果和测量数据;2、利用大数据其实就是一个集思广益的过程,不需要太多的理论支点,只需要大家都能够忠实的遵守要求去提交最真实的数据;3、将普通的经验和直觉转换为具体的数据,就是数据提取和数据化的过程。可以说,在大数据的领域里,莫里是功勋卓著的先驱和开山鼻祖。
数据,从最不可能的地方提取出来
庞大的数据库有着小数据库所没有的价值,莫里中校是最早发现这一点的人之一。大数据的核心就是挖掘出庞大数据库独有的价值。更重要的是,他深知只要相关信息能够提取和绘制出来,脏乱的航海日志就能够变成有用的数据。所以说,莫里是数据化的先驱。大数据的基础当然是数据,那么数据怎么从日常生活中提取出来就成为了核心的问题。在航海的问题上,莫里想了很多的办法,而当今随着计算机网络技术和存储处理技术的发展,从最不可能的地方提取出数据变得可能了。用一句俗话说,只有你想不到,没有数据做不到。比如说,日本先进工业研究所的教授越水重臣就试图去发掘一个人开车时候坐姿的信息,其实真的可以,因为当一个人坐着的时候,他的身型、姿势和重量分布都可以量化和数据化。越水重臣和他的工程师团队在汽车座椅下部安装了360个压力传感器以及测量人对椅子施加压力的方式,把人的屁股特征转化成了数据,并且用从0-256数值范围对其进行量化,这样就可以产生每个乘坐者的精确数据资料。越水重臣就把这样一个从不认为是数据甚至是不被认为和数据沾边的事物转化成为了可以用数值来量化的数据模式。同样,莫里中校也从看上去没有什么用处事物中提取出了信息,转化成了极其有用的数据。这种创新性的应用就创造出这些信息独特的价值。
其实无论是他们的工作还是其他类似的工作都可以说明,大数据时代,将生活中、生产中的一切量化是可以做到的,而且随着大数据思想的深入,完成对世间万物的数据化测量也是必然的要求。我曾看过一本书名叫《丈量世界》,书里的主人公虽然费尽心力到达了人类所没有到达的亚马逊河深处,但是记录的都是见闻而少有数字,实在深感可惜!所谓数据化,就是指一种把现象转变为可制表分析的量化形式的过程。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。
当文字变成数据
数字化和数据化这两个名词是有差异的,最大的体现就是在于书籍领域。谷歌做的一个项目叫做数字化文本,很简单,就是要把全世界的书通过扫描成图片导入到电脑,从而在虚拟世界里传播。但是它也仅仅叫做数字化,而不叫作数据化,因为它扫进去的都是图片,书里面的每一个字都不能被识别,不能被统计。后来,谷歌使用了光学字符软件来识别文本的字、词、句和段落,如此一来,书页的数字化图像就转化成了数据化文本,而计算机也可以处理和分析这些数据了。
当方位变成数据
地球本身构成了世界上最基础的信息,但是历史上它几乎从来没有被数据化和量化过。对于地理位置的数据化需要满足一些前提条件,我们需要能够精确地测量地球上的每一块地方;我们需要一套标准的标记体系;我们需要收集和记录数据的工具。简而言之,就是地理范围、标准、工具,只有具备了这些,我们才能把位置信息当成数据来存储和分析。20世纪40年代,墨卡托方位法把世界划分成为60个区域,提高了地理位置的精确性,后来经过人们的不断努力,地理定位信息终于能够在标准化的数据范式下标记、记录、测量、分析和共享了。如今,GPS还有北斗,欧洲的伽里略都可以准确的提供位置等数据信息。总之,位置信息一被数据化,新的用途就犹如雨后春笋般涌现出来,而新价值也会随之不断催生。
当然,除此以外还有沟通数据化、健康数据化、情感数据化等等,把世间万物去进行数据化,就好像我们正在进行一个重大的基础设施项目,功在当代,利在千秋。有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。今天,我们生活在一个计算型的社会,将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。“它是一种可以渗透到所有生活领域的世界观。”
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。数据资源和其他的资源不太一样,它可以反复用反复用,每用一次,它就多一分价值。这一部分,作者举了很多的例子去说明数据资源价值的巨大和现在就在发生的数据创新。
数据创新1:数据再利用
2000年,路易斯冯安发明了验证码(全称为“全自动区分计算机和人类的图灵测试”)。但是当他意识到每天有这么多人要浪费10秒钟输入这堆恼人的字母,而随后大量的信息被随意的丢弃时,他感觉沮丧。于是他开始寻找能使人的计算能力得到更为有效利用的办法。他想到了一个继任者,恰如其分的命名为ReCaptcha。和原有的随机字母输入不同,人们需要从计算机光学字符识别程序无法识别的文本扫描项目中读出两个单词并输入。其中一个单词其他用户也识别过,从而可以从该用户的输入中判断注册者是人;另一个单词则是有待辨识和解疑的新词。为了保证准确度,系统会将同一个模糊单词发给五个不同的人,直到他们都输入正确了才确定这个单词是对的。在这里,数据的主要用途是证明用户是人,但是它也有第二个目的:破译数字化文本中不清楚的单词。ReCaptcha的作用得到了认可,2009年谷歌收购了这项技术并将其用于图书扫描项目。这个故事充分说明了数据再利用的重要性。
在我们现在生活的这个时代,我们在不同的时间和空间所做过的事情都在被用数据记录着,被一些系统综合着,不仅可以通过定位手机寻找出我们每时每刻的隐性轨迹,也可以通过我们的购买选择寻找出我们的隐性取向,还可以通过社交网络去统计我们的人际关系、想法、喜好、日常生活模式,从而构成我们每一个人的隐性档案。作出判断和统计的这些数据都是我们以前不连续产生的数据,但是大数据时代的数据再利用将它们组合在一起,刻画出了我们每一个人。这就是数据再利用的一种价值体现。所以说,不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。
数据的价值,如果要详细判断,应该是其所有可能用途的总和。数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一分钱两分货”。其实数据的再利用,还有的例子比如说搜索关键词,建立语音识别库,进行不耗成本的拼写检查,预测机票价格和股市走向等等。
数据创新2:重组数据
数据被用完了,暂时用不着的状态可以称之为“休眠状态”。有时,处于休眠状态的数据的价值只能通过与另一个截然不同的数据集结合才能释放出来。用新的方式混合这些数据,我们可以做出很有创意的东西。一个成功的例子是2011年发表的关于手机是否增加致癌可能性的一项有趣的研究。丹麦癌症协会,通过分析1990年至2007年间拥有手机的用户(共涉及358403人)和10729名中枢神经系统肿瘤患者这两个数据集结合的关系去发掘是否手机用户比非手机用户具有更高的癌症发病率。尽管研究的规模很大,数据却没有出现丝毫混乱或含糊不清。最后研究发现,移动电话的使用和癌症风险的增加没有什么关系。研究结果发布在了《英国医学杂志》。这个例子是研究疾病过程中使用大数据的方法作出的方法创新,随着大数据的出现,数据的总和比部分更有价值,当我们将多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。
数据创新3:可扩展数据
促成数据再利用的方法之一是从一开始就设计好它的可扩展性。比如,有些零售店在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户流和他们停留的位置。零售商利用后面的信息可以设计店面的最佳布局并判断营销活动的有效性。还有诸如谷歌街景和GPS采集,不仅优化了地图服务,对于谷歌自动驾驶汽车的运作也是功不可没。
数据创新4:数据的折旧性
虽然数据的价值在于多次使用,历史数据也有意义,这些都激发了企业保存数据的强烈的经济动机,但是有些数据的有效性毕竟有限。随着时间的推移,大多数数据都会失去一部分基本用途,在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如你在十年前在亚马逊上买了一本书,现在可能不喜欢这类书了,如果亚马逊还拿那个数据来做推荐就会让你觉得推荐很不合理。但是这些数据,可能会帮助改善一些现有的东西。比如谷歌拥有着大量的历史数据,它希望能得到每年的同比数据,比如假日购物搜索等,从而改善搜索结果的相关性。例如很多纽约人都会搜索“火鸡”,但经常搜索到关于“土耳其”的网页,那么他们往往会下翻,找那些关于火鸡的靠后的链接。通过算法结合历史数据的改进,通过统计点击量,就可以在今后将他们想看的页面放在排名靠前的位置,方便其他的纽约人查找。
数据创新5:数据废气
还是谷歌,它曾经敏锐的注意到,人们经常搜索某个词及其相关词,点击进入以后却未能找到想要的信息,于是又返回搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接或是干脆放弃所有搜索点击。这些信息是非常有价值的,如果很多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动的在随后的搜索中将它提到页面中比较靠前的位置。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
数据的价值,可以说无从估计,但是未来某些数据也许会被纳入到一些企业的无形资产里,从价值估算的角度来看,要考虑数据持有人在价值提取上所采取的不同策略从而定价。但是数据的价值关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
大数据的价值链:根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
到目前为止,前两种因素一直备受关注,因为在现今世界,技能依然欠缺,而数据则非常多。近年来,一种新的职业出现了,那就是“数据科学家”。数据科学家是统计学家、软件程序员、图形设计师与作家的结合体。与通过显微镜发现事物不同,数据科学家通过探寻数据库来得到新的发现。
大数据价值链中最大获益者
目前看来,应该是那些拥有大数据思维或者说创新性思维的人。就像我们所看见的一样,自从信息时代以来,第一个吃螃蟹的人都发了大财。但是,这种先决优势并不能维持很长的时间。随着大数据时代的推进,别人也会吸收这种思维,然后那些先驱者们的优势就会逐渐减弱。
那么,核心价值会不会在技术上?笔记,一个金矿的价值也只有在它被挖掘出来后才有意义。但是,计算机的历史却否认了这个想法。现在,在数据库管理、数据科学、数据分析、机器学习算法等类似行业的技能确实很走俏。但是,随着大数据成为人们生活的一部分,而大数据工具变得更容易和更方便使用,越来越多的人会掌握这些技能,所以这些技能的价值就会相对减少。当然,这并不是说大数据技能不重要,只是这不适合大数据价值的最主要来源。毕竟,技术时外在的力量。
最终,大数据的大部分价值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧,也会以更高的价格将其出售。因为只有金子才是真正值钱得。
第三部分大数据时代的管理变革
无处不在的“第三只眼”
我们的隐私被二次利用了
预测与惩罚,不是因为所做,而是因为“将做”
数据独裁
挣脱大数据的困境
管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任
管理变革2:个人动因VS预测分析
管理变革3:击碎黑盒子,大数据程序员的崛起
管理变革4:反数据垄断大亨
拓展阅读
历史发展到今天这个时代,数据的产生已经不再受时间和地点的限制。从开始使用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历如下几个过程:
数据的产生经过了被动、主动和自动三个阶段,其中自动产生的数据是未来最根本最重要的来源。
领域 | 用户量 | 响应 | 数据量 | 可靠性 | 精确度 |
---|---|---|---|---|---|
科学 | 小 | 慢 | TB | 中 | 高++ |
金融 | 大 | 快++ | GB | 高++ | 高++ |
社交 | 大++ | 快 | PB | 高 | 高 |
通信 | 大++ | 快 | TB | 高 | 高 |
物联网 | 大++ | 快 | TB | 高 | 高 |
Web | 大++ | 快 | PB | 高 | 高 |
多媒体 | 大++ | 快 | PB | 高 | 中 |
Google首席经济学家 Hal Varian说过,数据是广泛可用的,所缺乏的是从中提取出知识的能力。
大数据的核心是预测,是把数学算法运用到海量的数据上来预测事情发生的概率。预测工作和个性化技术相关,包括个性化排序和个性化推荐。个性化技术是大数据时代最重要的技术。
大数据在我们进行数据分析时带来了三个改变:
在大数据时代,危险往往不是隐私的泄漏,而是被预知的可能性。这种可性能可能会导致人们难以获得贷款和购买保险、被权力机构莫须有逮捕等。人们的权利需要新的规章制度来保障。
大数据给社会带来益处是多方面的。因为大数据已经成为解决紧迫世界性问题,如全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。但是大数据时代也向我们提出了挑战,我们需要做好充足的准备迎接大数据技术给我们的机构和自身带来的改变。
一、大数据和数据库的关系
这里直接引用厦门大学林子雨老师的比喻,“池塘捕鱼”好比传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式。“鱼”是要处理的数据,而“捕鱼”环境的变化直接导致了“捕鱼”方式的变更。
图灵奖获得者、著名数据库专家 Jim Gray 博士观察并总结人类自古以来, 在科学研究上先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用。Jim Gray 提出了一种新的“数据探索型”研究方式,称其为科学研究“第四种范式”(The Fourth Paradigm)。
对于这四种范式:
第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所说的数据思维,这是一种根本的思维转变。比如计算社会科学,基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(data print),以便进行社会解释、监控、预测与规划的过程和活动。
二、大数据和云计算的关系
三、大数据和物联网的关系
物联网(IoT - Internet of Things)通过智能感知、识别技术、泛在网络的融合应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。
物联网架构大致可分为三层:
物联网用途广泛,遍及交通、环境保护、政府工作、公共安全、家居、消防、工业监测、环境监测、照明管控、老人护理、个人健康、水系监测、食品溯源、敌情侦查和情报搜集等多个领域。物联网每天都在产生海量数据,需要利用大数据技术对数据进行筛选、处理和分析,提取出有用的信息,以便支撑自身的创新。而大数据领域的一些专业公司,也非常渴望获取物联网领域丰富多彩的数据信息,丰富自身的内容样本库。
四、大数据和人工智能的关系
正在辛苦的写作中……
大数据价值的完整体现需要多种技术的协同。文件系统提供最底层存储能力的支持。为了便于数据管理,需要在文件系统之上建立数据库系统。通过索引等的构建,对外提供高效的数据查询等常用功能。最终通过数据分析技术从数据库中的大数据提取出有益的知识。
---- 摘自《大数据技术基础》
大数据不是单一的技术,文件系统、数据库系统、数据挖掘与分析系统、数据呈现系统、大数据应用系统自下而上构成了一套技术体系和生态链。同时,虽然底层数据来源多种多样,应用诉求和数据类型不尽相同,但基本的处理流程却基本相同:
整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。
---- 摘自《大数据技术基础》
简单总结就是:异构数据源 ----> 数据抽取与集成 ----> 数据分析 ----> 数据呈现
一、数据抽取与集成
由于数据来源的多样性,在处理数据之前,需要先对数据进行预处理,从中提取出关系或对象实体,经过关联和聚合之后采用统一定义的逻辑结构进行存储。同时也要进行一定的清洗工作,以保证数据的质量和可信度。
数据抽取与集成不是全新的技术,在数据库时代已有成熟的研究和方法论。比如以下常用的几种数据集成方式:
二、数据分析
数据分析是大数据的核心。大数据的目的就是为了通过分析,作出预测,给出决策建议。传统的数据分析技术如数据挖掘、机器学习、统计分析在大数据时代面临新的挑战,需要作出一定调整:
三、数据呈现
再好的分析结果,如果没有良好的呈现,用户可能难以理解,甚至受到误导,这就背离了大数据的初衷。大数据时代要呈现的数据量很大,相互关联关系又变得更为复杂,可以考虑从如下两个方面提升呈现效果:
一、大数据唯快不破
设想我们站在某个时间点上,背后是静静躺着的老数据,面前是排山倒海扑面而来的新数据。在令人窒息的数据海啸面前,我们的数据存储系统如同一个小型水库,而数据处理系统则可以看作是水处理系统。数据涌入这个水库,如果不能很快处理,只能原封不动地排出。对于数据拥有者来说,除了付出了存储设备的成本,没有收获任何价值。
---- 摘自《大数据技术基础》
在老板眼中,数据是成本,是投资,是价值回报。:
时间就是金钱:数据是矿产,“挖矿”效率就是竞争力。
数据价值会折旧:
等量数据在不同时间点上价值不等。NewSQL 的先行者 VoltDB 发明了一个概念叫做 Data Continuum,即数据存在于一个连续时间轴(time continuum)上,每一个数据项都有它的年龄,不同年龄的数据有不同的价值取向,“年轻”(最近)时关注个体的价值,“年长”(久远) 时注重集合价值。
---- 摘自《大数据技术基础》
3. 数据具有时效性:
炒股软件免费版给你的数据有十几秒的延迟,这十几秒是快速猎食者宰割散户的机会;而华尔街大量的机构使用高频机器交易(70%的成交量来自高频交易),能发现微秒级交易机会的吃定毫秒级的;物联网这块,很多传感器的数据,产生几秒之后就失去意义了;美国国家海洋和大气管理局的超级计算机能够在日本地震后 9 分钟计算出海啸的可能性,但 9 分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。
---- 摘自《大数据技术基础》
二、大数据的两种处理模式
数据可能是静止的,也可能是动态的,这也分别对应了批处理和流处理两种处理范式:
Hadoop 就是典型的批处理范式:HDFS存放已经沉淀下来的数据,MapReduce的作业调度系统把处理逻辑送到每个节点进行计算。这非常合理,因为搬动数据比发送代码更昂贵。
----摘自《大数据技术基础》
流处理品类繁多,包括传统的消息队列(绝大多数名字以 MQ 结尾)、事件流处理(Event Stream Processing)、复杂事件处理(Complex Event Processing 或 CEP)(如 Tibco 的 BusinessEvents 和 IBM 的 InfoStreams)、分布式发布/订阅系统(如 Kafka)、专注于日志处理的(如 Scribe 和 Flume)、通用流处理系统(如 Storm 和 S4)等。
----摘自《大数据技术基础》
下面这张图是动静态数据和处理逻辑之间的关系
这两种范式没有谁更好一说,好比生活中,有人喜欢把事情攒成一堆儿一起做,而有些人则喜欢来一件事就处理一件事。一般认为,流处理范式更快一些,但流处理模式往往对应最近的一个数据窗口,只能获得实时智能,而难以实现全时智能,而此又恰恰是批处理范式的优势所在。因此这两种范式常常配合使用,甚至形成了这样的定式:
三、怎么快起来
前面说了大数据唯快不破,也讲了大数据的两种处理范式,那如何才能做到“快”呢?这同时是商业决策者和系统架构师的巨大挑战。
首先,快是要付出代价的。所以,要先搞清楚什么是“快”,需要多“快”。是毫秒级,秒级,分钟级,小时级,天级……快无止境,适度即可。
其次,要考虑当前的系统是否有潜力做到更快,还是要重新重构。基于传统的关系型数据库,大概能做到TB量级,并可以通过分库分表(sharding)以及缓存(memcached)来延续传统数据库架构的生命。但如果有更高的要求,就需要考虑新的架构,是批处理范式,还是流处理范式,或者是两者的结合?这就需要量身定做了。
Intel 有一位老法师说:any big data platform needs to be architected for particular problems (任何一个大数据平台都需要为特定的问题度身定做)。这是非常有道理的。为什么呢?比如说大方向决定了要用流处理架构,落实到具体产品少说有上百种,所以要选择最适合的流处理产品。再看批处理架构,MapReduce 也不能包打天下,碰到多迭代、交互式计算就无能为力了;NoSQL更是枝繁叶茂,有名有姓的 NoSQL 数据库好几十种。
----摘自《大数据技术基础》
上面说的是原则,实际上还是有一些通用的方法论让大数据“快起来”: