闲侃数据统计

在大数据时代里,数据统计的作用变得越来越高。某种角度上来说,掌控着数据统计的个体或组织间接地掌控着未来。然而,受制于当前的技术水平与社会发展,数据统计在实际操作当中仍然会碰到一些问题,过大的夸张数据统计的作用还为时过早,无论是进行信息检索,用户心理分析,亦或是实践社会指导,这些都需要积累大量的数据加上超强的分析手段才能够有成果出现。如今利用数据还存在许多问题,下面就以三大块来简单聊一聊。

信息搜集

在具体某一领域进行信息搜集的时候,因为个体的这首边界永远是有限的,所以搜集的时候人们容易想当然的去寻找与结果或规律相关的信息,将大部分的时间花在强联系、大概率的数据上面,忽略掉弱联系、小关联的事件。另外还有一些信息往往很难被个体或是群体预测得到,比如黑天鹅现象,由于黑天鹅现象不可预测、影响重大、事后可解释的三大特点,在相关研究领域的黑天鹅事件及信息很容易被忽略。

行为分析

拥有足够的数据的确可以用来分析用户的习惯与心理,但是在业界能达到这种水平的必定只有顶尖公司,绝大多数一般的公司掌握的信息十分有限,按照目前业界的技术水平,分析用户心理与习惯,这个结论仅仅在宏观上分析才成立,想要达到个体上的微观预测几乎不可能(目前很难)。

数据分析遵从大数法则的原理,长期实践中得来的数据在随机现象的大量重复当中往往会出现几乎必然的规律,这一点的确没错。但从群体上搜集来的数据必然与个体实际行为有所差异,因此如果单纯仅靠宏观数据来预测微观个体,从从逻辑上就有纰漏。要想预测细微的个体行为,就需要长期针对个体的相关数据来进行分析,但是这一点受制于目前的科技水平很难做到。

另外关于这一点,复利效应当中的“达到临界触发点”同样可以应用在这个理论上面。虽然不同领域对应的触发临界点基数不同,但他们都遵从这个规律——只有数据积累达到临界出发点,才会在实际预测当中出现成效。

决策指导

​用相关数据与信息分析来指导决策的时候,还有一项事实容易被人们所遗忘。生活是一个各项条件随机发生的概率分布,历史有可能按照之前的推理进行,也有可能,采取同样的行为,结果却以另外一种方式,来呈现,过去的每一件事情的结果,都是众多可能的结果之一。

即便我们拥有的数据再先进,也应该认识到概率不是固定值,而是动态值。所谓的艺术和科学都是通过人类简化使之具备规律的产物。人们容易编造理由或逻辑关系来将事实的解释和事实混在一起,使其变得容易记忆。大脑天生喜爱拥有逻辑与规律的事物,因此在实际解释事物的时候,我们也容易故意降低事情的复杂性。美化的东西和柏拉图式的讲话东西天生容易被看见,人类天性不愿理解抽象事物,此外,由于人性当中的认知自大,我们往往有一种内在的倾向,以为我们比实际上知道的更多,我们一旦形成观点就很难改变。

另外,还有一些事物本来就具备很大的偶然性。稀有事件分两种:一种是黑天鹅现象,第二种是无人谈及的黑天鹅现象,这两种情况都会极大的掩盖事物背后的真相,让我们产生误解。

在实际操作当中,要想用信息与数据来更好地指导决策,需要从感性和理性两个层面上进行努力。

从理性的角度上面,人们需要不断地提高收集信息的数量及质量,同时应用更开放、更科学的分析方法对数据进行分析、猜想、检验。(比如受启发于贝叶斯定理,对于新事物人们可以先估计一个概率,然后在做这件事情的时候,根据新的信息要反馈来调整原先的估计,从而得到更准确的概率判断)

从感性的角度上来说,我们需要对已有的现象始终保持开放的怀疑态度,不受制于前人的理论研究与个人情感色彩偏见,开放的怀疑与灵活的结论才是人类心智的最高体现

(即使是霍金这种具有巅峰知识水平的个体也会对自己以前的黑洞观点承认错误,即使是亚马逊谷歌这种IT巨头也会承认自己无法用完全依靠引擎搜索来预测流感)

以上便是这三个层面上容易出现的问题。诚然,数据统计在不久的将来一定会爆发出令人难以想象的能量,让世人所侧目。但这一切都需要人类孜孜不求的积累、技术的前进、社会的发展,三者共同来推动。认识到目前手头的不足才能够在不久的将来走得更远。

你可能感兴趣的:(闲侃数据统计)