大数据思维 -- 全量数据、纷杂与错误、相关关系

Introduction

大数据的核心是预测。人类所能处理的数据是有限的，计算能力和算法的能力也永远有限；但是随着数据量变大、算法的作用被削弱（与其说被削弱，不如说是数据本身的能量增大，需要的算法能量没有以前那么多）。因此，在大数据时代，数据是最重要的，算法其次，而计算能力则与这两个相辅相成。

全量数据

以前受制于数据样本量的限制，对数据本身的结构化和精确度要求都比较高，因为只有这样，有限数据能发挥的最用才能最大化（这与统计学中的“用尽可能少的数据来证实尽可能重大的发现”这一目的不谋而合）。但是，如今随着数据量的剧增（虽然算法的性能和计算能力都在发展），对数据结构化和标签化、增进精确度这些行为的难度和成本剧增先抛开不谈，光是用之前为少量数据设计的复杂算法而骤降的性价比来说，对数据样本的限制都是不科学和不值得做的。因而，在大数据时代，“样本=全量”这一统计学悖论变得有价值。因为此时追求的是全面，追求数据的精确度意味着损失和遗漏。

纷杂与错误

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能够适用于传统数据库的。如果不接受数据的纷杂和混乱，剩下95%的非结构化数据都无法被利用，只有接受不精确性，包容纷杂混乱，我们才能打开一扇从未涉足的世界的窗户。
大数据通常是用概率说话，而不是板着“确凿无疑”的面孔。少数据下运行的好的算法会随着数据量的增多而丧失优势，大数据不仅让我们不再期待精确性，也让我们无法实现精确性，而且大数据所带来的好处足够让我们接受不精确的存在（精确是为了掩饰某一方面的贫乏，数据精确很有可能实在假装世界井然有序）。
随着数据的增加，错误率也会相应增加。但在多数情况下，与致力于避免错误相比，对错误的包容会带给我们更多的好处。

Conclusion

大数据的核心是预测，而建立在相关关系分析法基础上的预测也是大数据的核心；
追求精确数据是因为数据贫乏，接受非结构化数据，才有可能用好大数据，获得其带来的增益，大数据更强调数据的完整性和混杂性；
只有接受数据的不精确，包容错误，大数据能带来更多的好处；
因果关系类似于“直觉”，相关关系更关注可能性。

大数据思维 -- 全量数据、纷杂与错误、相关关系

Introduction

全量数据

纷杂与错误

相关关系

Conclusion

你可能感兴趣的:(大数据思维 -- 全量数据、纷杂与错误、相关关系)