【读书笔记】找寻大数据的相关性,开启查看世界的新视角

图片发自App

沃尔玛是世界上最大的零售商,拥有巨大的销售额,也拥有庞大的客户销售数据。2004年,沃尔玛对历史交易记录这个庞大的数据库进行观察,注意到,每当季节性飓风来临之前,不仅手电筒销售额增加了,而且蛋挞的销量也大为增加。因此,每当季节性风暴来临时,沃尔玛就会把库存的蛋挞放在靠近飓风用品的位置,从而增加销量。

2009年,甲型H1N1流感爆发。谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003至2008年间季节性流感传播时期的数据进行了比较。为了测试这些检索词条,总共处理了4.5亿个不同的数学模型,为此,谷歌公司发现了45条检索词条的组合,将他们用于一个特定数学模型后,其预测和疾控中心的官方数据的相关性高达97%。为此,谷歌公司可以及时地通过用户的检索词条判定流感爆发的区域和时间。

中英人寿保险公司,通过分析客户的市场数据,比如常浏览的网站、爱看的节目、收入估计等,来作为部分申请人的血液和尿液分析的关联物,预测他们患高血压、糖尿病的几率,以用于保费的计算。如此,申请者就不再需要繁琐地去提供血液和尿液样本了。

飓风和蛋挞,流感和检索词条,爱看的节目和得不得糖尿病,它们似乎都没有必然的关联,然而观察大数据,我们会发现他们神奇地关联性,像茫茫大雾中,找寻到查看世界的另一种方式。

什么是大数据?大数据并非一个确切的概念。最初,它指需要处理的信息量过大。而今,可以认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。

无可否认,这是个信息爆炸的时代。谷歌公司每天要处理几十拍字节的数据,这些数据处理量是美国国家图书馆所有纸质出版物所含数据了的上千倍。到2013年,世界上存储的数据大约1.2泽字节,而非数字数据只占了不到2%了。

数据的扩张,计算设备的升级,给了我们观察这个世界充足的基础。再也不用字字书写,再也不需费尽心思地随机采样。完整的数据摆在我们面前,只需我们如寻宝一样去探究,便能找到其中不一样的真相。

我们的认知里,总是要一探事物的因果。为什么苹果会降落?为什么他们成功了?因为什么,艳阳高照的日子里,还有那么多人郁郁寡欢了?什么都要问上为什么,原因好找吗?当然不,否则漫漫人类历史,怎么还会有那么多为什么。

换个角度,我们只需去探求是什么,而不是为什么,如此便可了解更多真相。

加拿大麦格雷戈博士经大数据分析,发现早产儿如突然呈现稳定的生命体征,则表明病人实则发生了严重的感染。这和常规相违背,然而,这就是真相。大家都不明确具体原因,但看到了确切的相互关系,为此,也能及时的为挽救病人的生命做好准备。

世界不缺少数据,在混沌的海量数据面前找寻千丝万缕的关联,是我们查看世界的又一扇门窗。

你可能感兴趣的:(【读书笔记】找寻大数据的相关性,开启查看世界的新视角)