《Big Data-大数据时代》的拆书笔记 Part I

两年前就读过这本书,当时还没有养成作笔记的习惯。里面很多新颖的观点仅仅在我的脑海里留下了深深的印象。最近随着AI关注点的聚焦,网络上对大数据和信息智能化的话题讨论越来越热烈。当我也试着在知乎上回答一个关于人工智能的问题时,我发现这本书给我留下的概念和结论还在,只是具体的推理和举证已经还给作者了。

作者Victor Mayer-Schönberger被誉为“大数据时代的预言家”,现任牛津大学网络学院互联网研究所与监管专业教授。曾给很多信息业大公司甚至政府机构做过咨询,也是欧盟互联网官方政策背后的制定者。此人做过研究,从过商,参与过政治,可以说他的观点应该是从各个行业第一线传来的最前沿、最可靠的情报了。

整本书分为三个部分, 思维变革,商业变革和管理变革。这份笔记主要对思维变革部分做了整理。

第一部分 大数据时代的思维变革

这里主要记住以下三个“不是...而是...”

1. 更多:不是随机样本,而是全体数据

受数据收集和处理技术的限制,小数据时代的随机采样,最少的数据获得最多的信息。比如大规模人口普查就是耗时耗费的事,每隔几年才做一次。统计学家证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。一个比较简单的解释是,当样本数量达到某个值后,从新个体上得到的信息会越来越少——边际效应递减。这个新思路让我们通过收集随机样本用较少的花费做出高精度的推断。政府每年都会随机采样对人口进行多次小规模普查。在商业领域,随机采样被用来监管商品质量。

随机采样的缺陷:绝对随机性非常难—比如以固定电话用户为基础进行投票民调没有考虑使用移动电话的用户,这些用户更年轻,更热爱自由;不适合考察子类别—整体数据如果有3%的误差,再做细分误差会更大;提前要严密安排,无法应对突发问题—对某人一小部分DNA进行排序,标注出几十个特定的基因缺陷,这只是该人整个基因密码的样本,只能回答标注过的基因组表现出的问题,发现新标注时,该人相关部分的DNA必须重新排序。

大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。书中提到的一个例子很有意思。

相扑中的消极比赛:11年超过64000场摔跤比赛显示,消极比赛主要还是出现在不太被关注的联赛后几场。选手需要在15场联赛中的大部分场次取得胜利才能保持排名和收入。这样会出现利益不对称得问题。当一个7胜7负的选手碰到一个8胜6负的对手时,比赛结果对第一个人及其重要,对他的对手没那么重要,那么对手很可能在这时放水,也给自己留条后路。当然,赢的决心可能帮助这个选手获胜,比如求胜心比平常高25%,但经过分析发现,与他们在前三四次比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方多3-4倍的胜率。

2. 更杂:不是精确性,而是混杂性

对小数据而言,因为收集的信息少,最基本的就是减少错误,保证质量。

随着数据的增多,我们要与各种各样的混乱做斗争。首先,混乱可能是错误率的增加。其次混乱还可以指格式的不一致性。虽然收集到的信息不再精确,大数据可以关注到更多的细节,捕捉到可能被错过的变化。虽然如果我们能够下足够多的功夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。

大数据通常用概率说话,而不是板着确凿无疑的面孔。整个社会要习惯这样思维需要很长的时间,在我们试图扩大数据规模的时候,要学会拥抱混乱。

社会从“大数据”中做能得到的,并非来自运行更快的芯片或更好的算法,而是更多的数据。2000年,微软寻求改进word程序中语法检查的方法,但他们不确定是努力改进现有的算法、研发新的方法,还是添加更细腻精致的特点更有效。结果:当数据只有500万的时候,有一种简单的算法表现得很差,但数据达到10亿时,它变成了最好的,准确率从75%提高了95%。相反,在少量数据情况下运行得最好的算法,当加入更多的数据时,也会像其他算法一样有所提高,但却变成了从大量数据条件下运行得最不好的,准确率从86%提高到94%。

3. 更好:不是因果关系,而是相关关系

在小数据时代,都要从建立假设开始,然后进行实验。假设就会受偏见影响,而其极易导致错误。 以前,大部分相关关系分析仅限于寻求线性关系,但随着数据的增加,我们能发现数据的“非线性关系”。

在哲学界,关于因果关系是否存在的争论持续了几个世纪。如果凡事皆有因果的话,那么我们就没有决定任何事的自由了——所有的生命轨迹都只是受因果关系的控制了。哲学家有时认为,因果关系时与自由意志相对立的。

首先,我们的直接愿望就是了解因果关系。即使它不存在,我们还是会假定其存在,这是我们的偏见和认知方式,与每个人的文化背景、生长环境以及教育水平是无关的。当我们看到两件事情接连发生的时候,我们会习惯性地从因果关系的角度来看待它们。——快思维(直觉)和慢思维(逻辑)。前者能使古人在信息量缺乏但必须快速做出决定的危险情况下化险为夷。与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但我们可能因此完全陷入了理解误区中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。在小数据时代,很难证明由直觉而来的因果关系是错的,在大数据时代,快速思维会遭受各种考验,最终表明,统计关系也不存在多少真实的因果关系。

但即使是慢思考,发现因果关系也是很难的。实验室通过是否有诱因这两种情况,分别来观察多产生的结果是不是和情况相符,如果相符就说明确定存在因果关系。与相关关系一样,因果关系被完全证实的可能性几乎是没有的。但证明相关关系的实验耗资少,费时也少,并且可以为研究因果关系奠定基础。

相关关系不仅因为它能为我们提供新视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

因果关系还是有用的,但不再是意义来源的基础。我们依然指望用因果关系来说明我们所发现的相互联系,但是因果关系只是一种特殊的相关关系。相关关系分析通常能取代因果关系起作用,即使不可取代,也能知道因果关系起作用。

建立在相关关系分析法基础上的预测是大数据的核心。 通过找出一个关联物并监控它,我们就能预测未来。

你可能感兴趣的:(《Big Data-大数据时代》的拆书笔记 Part I)