白话大数据:大数据究竟有多大?

图片发自App

所谓的大数据,不是指这个数据要有多大才能叫大数据,而是指数据几乎是全部的数据了,没有抽样的处理过程。

在技术还没发达的以前,不久的以前,人类要采集海量的数据很难,尤其是信息化还没普及之前,主要靠一支笔一张纸记录的时候,要把海量的数据采集起来,需要投入的人力物力财力太大了,一般的个人或企业根本没这个条件。哪怕政府,搞一次大型的数据采集,也是够呛的,例如我们国家的人口普查,想想都是很恐怖的一件事。

以我们国家的人口普查为例。哪怕就是倾一国之力,爬山越岭,走村访户,想想我们幅员辽阔的祖国大好河山吧,哪怕是投入上百万的普查员,整个过程想想都还是挺酸爽的。

即便这样,把数据采集起来了,面对堆积如山纷繁复杂的资料,要整理清楚又是一项浩大的工程。(不说了,说多了都是泪)

好了,数据好不容易也整理好了,最后做统计,又是一场浩大的工程,然后才知道中国有多少亿人。但我还是很遗憾的告诉你,哪怕就是这样,这个数据都还是有误差的,有误差的,有误差的·····

这三大工程下来,不说投入的上百万人的工资吧,就是打印的表格和填写表格的笔,这个钱就不知该怎么算了。

所以说,这种要全数据的方式,也只有国家政府愿意做?

因此,几百上千年来,人类还是发现了动不动就要采集全部数据这个事不是随便都能做的,然后慢慢就发展出了统计学的各种理论,各种模型。目的呢不外乎都是既要有用,又要经济。

在林林总总的统计学知识中,就有这么一个概念——抽样,就是在整体中抽一部分,别搞什么全覆盖了,那样太费钱。但是,抽样只是在整体中抽一部分啊,可如果我们抽出来的这一部分,不能代表整体的情况怎么办啊?

我也不知道怎么办。因为你都无法对整体有一个精确的把握,你怎么知道抽出来的那一部分就能完全准确反映整体的情况呢?所以人们为了尽可能避免这个偏差,就想各种办法来让抽样尽可能的具有代表性(记住,是尽可能),让抽出来的这部分就几乎等同于全部一个鸟样。就像完全一样的父子一样的,希望儿子是父亲的缩小版一样,这样就可以通过研究儿子样子来反映父亲的样子。虽然要完全做到这样是很难的,但尽力而为嘛。

但是,今时不同往日了,我们的技术发达了,我们不但可以完全实现信息化数字化了,我们设备还具有强大的计算能力了。我们所有的业务行为都可以通过电子终端形成闭环了,而电子终端产生的所有数据都在那,再加上牛逼的计算能力,再多的数据,计算起来都是小菜一碟,不费劲!

我们有全部的数据了,我们有牛逼的计算能力了,我们还需要抽样吗?还需要毛线抽样啊,想怎么计算就怎么计算,想计算什么都全部数据一起上,就这么任性!

好了,最后划重点了,什么叫大数据?我们不扯高大上故作高深唬人的玩意,就强调一点:不需要抽样,全部数据一起上的就是大数据。

你可能感兴趣的:(白话大数据:大数据究竟有多大?)