1)更多:不是随机样本,而是全体数据 (大数据让我们更清楚地看到了样本无法揭示的细节信息,让数据发声)
2)更杂:不是精确性,而是混杂性
3)更好: 不是因果关系,面是相关关系 (只需要知道是什么,而不需要知道为什么)
大数据,改变人类探索世界的方法。
1)数据化:一切皆可“量化”
2)价值:“取之不尽,用之不竭”的数据创新
3)角色定位:数据、技术与思维的三足鼎立(大数据价值链的构成:大数据掌控公司<如:ITASoftware>、大数据技术公司<如:Farecast>、大数据思维公司和个人、全新的数据中间商)
大数据,决定企业的竞争力。
1)风险:让数据主宰一切的隐忧
2)掌控:责任与自由并举的信息管理
大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。
1)验证(数学模型)预测是否准确的方法:根据过去几年的数据进行计算,看是否与过去的结果一致(Google预测流感采用此方案)。
2)Farecast:埃齐奥尼创立的一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站<ITASoftware>上搜集的。这个预测系统并不能说明原因,只能推测会发生什么。它只知道利用其它航班的数据来预测未来机票价格的走势,能帮助消费者抓住最佳的购买时机。在Farecast得到投资之后 ,找到了一个行业机票预订数据库,如今Farecast已经拥有约2000亿条飞行数据记录。在Microsoft以1.1亿美元收购之后,其预测准确度高达75%,平均每张机票可节省50美元。
3)数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
4)大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构、以及政府与公民关系的方法。
5)真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。
6)量变-->质变: 如纳米技术,是让一切变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,就可以用同样的原料来做以前无法做的事情。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做多在小数据的基础上无法完成的事情。
7)亚马逊可以帮我们推荐想要的书,google可以关联网站排序,facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在的犯罪分子。
8)大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。
1)随机采样的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样的随机性存在任何偏见,分析结果就会相去甚远。