白话大数据：大数据究竟有多大？

图片发自App

所谓的大数据，不是指这个数据要有多大才能叫大数据，而是指数据几乎是全部的数据了，没有抽样的处理过程。

在技术还没发达的以前，不久的以前，人类要采集海量的数据很难，尤其是信息化还没普及之前，主要靠一支笔一张纸记录的时候，要把海量的数据采集起来，需要投入的人力物力财力太大了，一般的个人或企业根本没这个条件。哪怕政府，搞一次大型的数据采集，也是够呛的，例如我们国家的人口普查，想想都是很恐怖的一件事。

以我们国家的人口普查为例。哪怕就是倾一国之力，爬山越岭，走村访户，想想我们幅员辽阔的祖国大好河山吧，哪怕是投入上百万的普查员，整个过程想想都还是挺酸爽的。

即便这样，把数据采集起来了，面对堆积如山纷繁复杂的资料，要整理清楚又是一项浩大的工程。（不说了，说多了都是泪）

好了，数据好不容易也整理好了，最后做统计，又是一场浩大的工程，然后才知道中国有多少亿人。但我还是很遗憾的告诉你，哪怕就是这样，这个数据都还是有误差的，有误差的，有误差的·····

这三大工程下来，不说投入的上百万人的工资吧，就是打印的表格和填写表格的笔，这个钱就不知该怎么算了。

所以说，这种要全数据的方式，也只有国家政府愿意做？

因此，几百上千年来，人类还是发现了动不动就要采集全部数据这个事不是随便都能做的，然后慢慢就发展出了统计学的各种理论，各种模型。目的呢不外乎都是既要有用，又要经济。

在林林总总的统计学知识中，就有这么一个概念——抽样，就是在整体中抽一部分，别搞什么全覆盖了，那样太费钱。但是，抽样只是在整体中抽一部分啊，可如果我们抽出来的这一部分，不能代表整体的情况怎么办啊？

我也不知道怎么办。因为你都无法对整体有一个精确的把握，你怎么知道抽出来的那一部分就能完全准确反映整体的情况呢？所以人们为了尽可能避免这个偏差，就想各种办法来让抽样尽可能的具有代表性（记住，是尽可能），让抽出来的这部分就几乎等同于全部一个鸟样。就像完全一样的父子一样的，希望儿子是父亲的缩小版一样，这样就可以通过研究儿子样子来反映父亲的样子。虽然要完全做到这样是很难的，但尽力而为嘛。

但是，今时不同往日了，我们的技术发达了，我们不但可以完全实现信息化数字化了，我们设备还具有强大的计算能力了。我们所有的业务行为都可以通过电子终端形成闭环了，而电子终端产生的所有数据都在那，再加上牛逼的计算能力，再多的数据，计算起来都是小菜一碟，不费劲！

我们有全部的数据了，我们有牛逼的计算能力了，我们还需要抽样吗？还需要毛线抽样啊，想怎么计算就怎么计算，想计算什么都全部数据一起上，就这么任性！

好了，最后划重点了，什么叫大数据？我们不扯高大上故作高深唬人的玩意，就强调一点：不需要抽样，全部数据一起上的就是大数据。

白话大数据：大数据究竟有多大？

你可能感兴趣的:(白话大数据：大数据究竟有多大？)