Big Data - 03. 更好

不是因果关系,而是相关关系

林登与亚马逊推荐系统

格雷格·林登(Greg Linden)——亚马逊的软件工程师

  • 亚马逊的内容最初是人工的(书评家、编辑写书评、推荐新书),成本高。
  • 杰夫·贝索斯(Jeff Bezos),亚马逊创始人,决定尝试“根据客户个人的购物喜好,为其推荐具体的书籍,(通过样本分析找到客户之间的相似性),成效不好。
  • 林登和通识申请了“item to item”协同过滤技术的专利,因为估算可以提前进行,所以推荐系统快如闪电。(找到产品之间的关联性),系统使用了所有的数据,推荐会更理想。

知道人们为什么对这些信息感兴趣可能是有用的,但是这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅是电子商务。


关联物,预测的关键

相关关系的核心是量化两个数据之间的数理关系。

  • 相关关系强是指当一个数据值增强时,另一个数据值恒友可能也会随之增加。
  • 相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。
  • 相关关系没有绝对,只有可能性。
    通过给我们找到一个现象的良好的关联物。相关关系可以帮助我们捕捉现在和预测
    未来

沃尔玛,请把蛋挞与飓风用品摆在一起

  • 2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,包括每一位顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。
  • 每当季节性飓风来临之际,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以便行色匆匆的顾客从而增加销量。
  • 我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不容易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于我们经常忽略了它的创新性。

FICO,“我们知道你明天会做什么”

  • 2011年,FICO提出“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来怪异的变量。这个评分会帮助医疗机构节省开支,因为它们会知道那些人需要得到它们的用药提醒。
  • 有私家车和使用抗生素并没有因果关系,这只是一种相关关系。

美国折扣零售商塔吉特与怀孕测试

  • 在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。
  • 公司分析团队查看了签署婴儿登记簿的女性的消费记录,找出了大概20多种关联物,这些关联物可以给顾客进行“怀孕趋势”评分。
  • 这些相关关系甚至使得零售商能够准确地预测预产期,这样就能够在孕期的每个阶段给客户送相应的优惠券,这才是塔吉特公司的目的。

UPS与汽车修理

  • UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规模的车队,这样就能及时地进行防御性的修理。
  • 以前UPS没两三年就会对车辆的零件进行定时更换。但这种方法不太有效。
  • 通过监测车的各个部位,UPS如今只需要更换要更换的零件,从而节省了好几百万美元。

安大略理工大学的卡罗琳·麦格雷戈博士和一支研究队伍与IBM一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产儿的病情诊断。系统会监控16个不同地方的数据,在明显感染症状出现的24小时前,系统就能监测到早产儿细微的身体变化发出的感染信号。这个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为什么发生。这正是这个系统的价值!


“是什么”,而不是“为什么”

幸福的非线性关系

  • 多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。
  • 但对于收入在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。

  • 相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。
  • 因果关系只是一种特殊的相关关系。
  • 大数据推动了相关关系分析。
  • 相关关系分析通常情况下能取代因果关系其作用,即使不可取代的情况下,它也能指导因果关系其错用。

改变,从操作方式开始

  • 纽约沙井盖爆炸
  • 鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本。
  • 杂乱的数据整理好给机器处理,由此发现了大型沙井盖爆炸的106种预警情况。
    我们需要改变我们的操作方式,使用我们能收集的所有数据,而不仅仅是使用样本。我们不能把精确性当成重心。我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。

大数据,改变人类探索世界的方法

  • “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念 ,这实在荒谬。
  • 大数据是在理论的基础上形成的。

你可能感兴趣的:(Big Data - 03. 更好)