数据的局限性

图片发自App

当前时代被很多互联网公司定义为DT(data time)时代,甚至提出数据为王的口号,仿佛一家公司只要掌握了海量数据就意味着前途无限。而且生活中的每一个人从衣食住行到刷过的网页都无一例外以数据的形式记录起来了。这确实是一个数据大爆炸的年代,以至于让人烦恼起信息过载。信息过载根本原因一是不知道什么数据有用,其二是怎么用可用的那部分数据,就像飘在汪洋大海里,一口水也喝不上。

这里便有数据有效性的问题考量,不是所有数据都有效,尤其在这纷杂交织的海量数据里,怎么大浪淘沙出真正需要且有效的数据。在开始这个问题的探索之前,不妨把视野放大点:数据有哪些局限性?正如排除错误选项便是正确答案,在淘数据之前先理清它的“缺点”必然对它的获取和使用大有裨益。

※ 数据是微观层面铺展显现

数据是充分量化后的序列,这听起来挺拗口,其实这是对一件事物、一个动作进行细化后的结果。如果说长江之水滔滔不绝连绵千里,除了多也并无多大概念,要是说长江主河道长多少千公里,一小时流入东海多少万吨水,这就很容易让人体会到那种体量的巨大。也正因为充分量化,数据也就是在微观层面的展现,如果说要通过数据推导的结果也是微观层面下的特定角度下的结果,这是有效;反之,要是想要通过数据来展示宏观大局,指望数据来“见微知著”,恐怕这里会有比较大的偏差。正如长江之水,仅仅河道长度和每小时流量来进行防汛抗旱恐怕就要失望了。

※ 个性化、宏观性

任何事物,充分量化之后,有共性也有特性。也许宏观看起来相差无几,一旦拆分细化往往又各有差异。一个品牌一个车型的汽车,外观可能一模一样,可里面的发动机、内饰、辅助功能就有“微观上”较大的差异。要是以一个价格来统计这个车型的销售额,相信没有谁会同意这种算法。与之类似,数据的来源、渠道、格式甚至里面的标点符号都一样,也许不同的时间上统计起来就有差异。例如,空调的销售数据在不同的季节就不一样,因为它受季节气候的影响,也许同样的季节不同的年份又有不同,要是再遇上个厄尔尼诺年份,这里面就潜藏更多差异了。

※ 数据有效性和广泛性

消息过载给每个人都带来了不同程度的焦虑,我们可以接收到的、感知到的数据信息一方面大部分是无效的,再有部分是不具广泛通用。每天睁开眼,各式不同的数据如洪水般涌来,都来不及挑剔筛选,下一波又来了。新闻就有强烈的时效性,商品价格亦如此,用上一个小时的数据来分析当下的行情,这数据就是无效的。加之全球话浪潮,同样的商品、事务在不同的区域、时间维度下都有它特定的结果。橘生淮南则为橘,生于淮北则为枳。多少国内运营风生水起的企业一到海外就铩羽而归,又多少外企全球都能顺风顺水,一到中国就宏图难展,最近的亚马逊既是一例。难道它们的数据不够充足不够多样性?依然无法做到极度的广泛。

※ 数据展示因素不全面

一个商品它也许有不下10中属性因子,从品牌、价格、产地、有效期到包装容量、成分、使用说明以及注意事项,我们关心的也许不过2~3项,企业平台展示的也不会无一例外全部突出。无论线下的商超小店还是线上的平台微店,它们也非常懂得迎合顾客的心思,给你想要知道的,对于有些不那么重要的则略去,更可怕的是甚至有故意隐瞒不合适的数据因素。每年都有各种商品安全事故,究其原因就是数据因素不全面,客户掌握内容过于片面甚至是被隐藏过的内容。

※ 数据统计具有概率性

也许获得的数据非常全面、准确、真实,并且这些数据受时空影响也没有那么大,最简单的比如个人、企业信息,城市分布等等,使用这些数据来对某项需要的目标进行分析,这些数据本身就是个抽样,或者说是某个时间范围内的全面统计,例如经济年度、月度统计、人口普查,终究是个抽样统计,它具有概率性,不是百分百准确无误。也许这个概率非常高,准确度也很高,可哪怕有百分之零点几的误差,终究还是不全面存在漏洞和风险。

※ 创新性内容无数据

这个世界最有价值的事物是新创造的,这些创造、创新是无数据原始的。用马车的数据来推算汽车、用PC机来预测移动电话销售,这听起来就滑稽。是的,创新创作更多的是人思维、主观能动性综合智慧、劳动、勇气和不懈努力的结果。而这些恰恰是极度个性化的,创新必然是极少数范围下产生,并大规模应用开来。但要强调一点,这不是说数据对创新毫无益处,量变引起质变也是创新的必然阶段,足量的过程数据,如果应用恰当,对创新本身必然能加速其进度。

数据无所不包,但也并不是无所不能。了解数据的局限性是为了更好地重视它,仔细分辨自己需要的数据,充分加以应用,不断迭代更新。去成就新,突破数据的局限和边界,才能获得数据更多的支持。(全文完)


更多分享请关注公众号

你可能感兴趣的:(数据的局限性)