02|更杂:不是精确性,而是混杂性

第一部分 大数据时代的思维变革
01|更多:不是随机样本,而是全体数据
02|更杂:不是精确性,而是混杂性
03|更好:不是因果关系,而是相关关系

第二部分 大数据时代的商业变革
04|数据化:一切解渴“量化”

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的;剩下95%的非结构化数据都无法被利用。

允许不精确

小数据:减少错误、保证质量。

与各种混乱作斗争(随着数据的增加,错误率也会相应增加):

  1. 格式不一致(清洗数据)
  2. 萃取or处理数据

I.B.M、T.J.Watson Labs、International Business Machines IBM都可以用来指代IBM

对错误的包容会带给我们更多的好处。

摩尔定律:每块芯片上晶体管的数量每两年就会翻一倍。

大数据的简单算法比小数据的复杂算法更有效

【谷歌翻译系统】接受错误的数据

  • 2006年,谷歌翻译,利用互联网。寻找官方的文件。
  • 2012年,谷歌数据库涵盖60+语言。把英语作为中介语言。

谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、愈发错误以及其他各种错误。BUT!!!谷歌语料库是布朗语料库的几百万倍大。

纷繁的数据越多越好

【麻省理工与通货紧缩预测软件】

  • 登门拜访,打电话等,(滞后性、花费大)
  • 通过一个软件在互联网上收集信息

混杂性、不是竭力避免,而是标准途径

新的数据库设计的诞生

【hadoop与visa的13分钟】
通过把大数据变成小模块。不过预设硬件可能会瘫痪,所以在内部建立了数据的副本。

  • hadoop的输出结果没有关系型数据库输出结果那么精确。
  • 不适合正规记账,但是当可以允许少量错误的时候它就非常实用。

折中:

  1. 默认自己不能使用更多的数据,所以不会去使用更多的数据。
    2.数据的质量上。

你可能感兴趣的:(02|更杂:不是精确性,而是混杂性)