大数据观点:Big data is nothing without big analysis

     大数据,变革着我们生活的方方面面:2009年甲型H1N1流感爆发的时候,谷歌能够通过及时分析关键词,预测流感。2003年,埃齐奥尼根据大量的飞行记录创建了机票价格预测系统Forecast,帮助人们节省了大量资金(这和我们现在的qunaer还不同,qunaer提供的是一种比价和机票订购服务)。这是一种新型能力:通过对海量数据进行分析,获取巨大的产品或服务。大数据是人们在大规模数据的基础上可以做到的事情,而这种事情在小规模数据的基础上是无法完成的。

     国外对于大数据有一个比较公认的观点:Big data is nothing without big analysis。确实,离开了分析,数据什么都不是。Google将电子书数据化,方便公众的检索同时也将其作为google 翻译的语料库,极大的发挥了数据的威力,亚马逊虽然拥有很多的数字图书,用于其kindle阅读器,但是它没有对其进行分析。相比Google,这不是大数据。分析,预测是大数据的核心。

     大数据的核心代表着我们分析信息时的三个转变,这些转变将改变我们理解社会的方法:第一个转变是大数据时代我们可以分析更多的数据,甚至可以处理和某个特别现象相关的所有数据,而不依赖于随机采样;第二个转变是,我们不再热衷于追求精确度;第三个转变是我们不再热衷于寻找因果关系,而是寻找相关关系。

      统计学家证明:采样分析的精确性随着采样随机性的增加而大幅度提高,但与样本数量的增加关系不大。美国的很多选情预测公司就是基于此成功的预测了多位美国总统的诞生。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。Google流感预测和乔布斯将自己所有DNA和肿瘤DNA进行排序治病,就是采用的样本=总体的大数据方法。  

     假设需要测量一个葡萄园的温度,但是这个葡萄园只有一个温度计,那我们就必须保持这个测试仪是精确的并且一直能够工作。相反,如果我们有100个温度计分布在园中的各个角落,这其中的数据有可能是错误的,但是众多的数据不仅仅能够抵消掉错误数据造成的影响,还能提供更多额外的信息。大数据通常用概率说话,而不是板着确凿无疑的面孔。不敢接受不精确性来源于一直以来我们默认自己不能处理使用更多的数据,因而我们处理少量的,并对这些数据质量要求严格。

     通过给某个现象找到关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A发生了。沃尔玛公司注意到,每当在季节性飓风来临的时候,不仅手电筒销量增加了,而且蛋挞的销量也增加了,因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便形色匆匆的顾客从而增加销量。通过去探求是什么而不是为什么,大数据分析能够帮助我们更好的了解这个世界。

      目前,出现了三种和大数据相关的公司:这三类公司分别是提供数据的公司,分析数据的公司,对大数据提出创新思想的公司。第一类公司拥有大量数据或是至少可以收集到大量数据,却不一定有从数据中提取价值或用数据催生创新思想的技能。最好的例子就是twitter,它拥有海量数据,但其数据都是通过两个独立公司授权给别人使用;第二类公司是基于技能的公司,它们掌握了专业技能但并不一定拥有数据或具有提出数据创新用途的才能,例如,沃尔玛就是借助天睿(Teradata)公司的分析来获取营销点子,天睿就是一家大数据分析公司;第三类公司是通过想法获取价值的公司。Jetpac公司通过用户分享到网络上的旅游佛照片来为人们推荐下次旅行的目的地。毫无疑问,Google是一家三者兼具的公司。

  

 --------------------------------------------------------------------------------

参考文献:《大数据时代》【英】维克托 迈尔-舍恩伯格 肯尼思 库克耶 著 盛阳燕 周涛 译

你可能感兴趣的:(大数据观点:Big data is nothing without big analysis)