大数据的风险与陷阱

马克吐温说过:”让我们陷入困境的,不是无知,而是看似正确的谬误论断。”换句话说,我们会以特别谨慎的态度面对我们所不了解的事物,但当面对那些我们自以为正确的事情,却往往容易犯下错误。


在数据急剧增长的今天,我们极为看重数据的价值,企业的各种运营和战略,甚至包括投资决策,都是建立在数据驱动之上 ,人们迫不及待的相信并按照数据分析的结果行事。假如你是一位大数据从业者,不了解大数据分析的过程中所蕴含的各种风险和陷阱,这是一件极其可怕的事情。一旦失误,就有可能会导致严重的后果。


过度依赖相关性


什么是相关性?一个变量的数据模式取决于另外一个变量的数据模式。比如,天气越冷,家庭用电量越大,这是一种正相关关系;天气越热,冬衣的购买量越少,这是一种负相关关系。


统计学意义上的相关性,指的是统计显著性的相关性,统计显著性由P值的大小来检验。但是,实际的生活场景中,统计显著性水平的相关性出现的概率是非常低的。但数据分析人员认为,在超大样本规模的条件下,某种程度下事物之间都存在相关性,不需要考虑显著性。即使数据之间只存在微弱的关系,他们也会认为两个变量之间是有某些关系的。这就是一个潜在的风险,其实他们认为的数据相关关系在实际上往往是不存在的现象。



人为判断的缺陷


当我们不能总是依靠统计方法或者机器学习方法来分析数据找出自己所预期的规律的时候,人们往往会倾向于依靠自己的人为判断来获取想要的结论。所以,我们必须对人为判断的缺陷要有所了解。行为经济学告诉我们,所有人都可能会误解数据,优秀的数据科学家也不例外。


能够理出头绪找出数据的规律,对于任何数据分析人员而言,都是十分重要的认知能力。在分析数据的时候,当我们很难区分数据是随机的还是有规律的。面对实际是随机的数据时,我们可能会因为看上去存在某种程度的有序或者不够稳定的数据结果而认为数据之间是存在规律的。


比如,二战期间,美国就如何在飞机上安装钢板来降低飞机被轰炸的损失问题展开研究。下图是根据实际的着弹数据绘制出来的飞机着弹统计图,通过统计图很容易发现,轰炸机的机翼和机身容易中弹,飞行员的座舱和飞机尾翼一片空白,没有着弹点,于是大家就建议在机翼和机身处安装钢板。有一位数学家沃尔德并不这么认为,这些数据都是统计能飞回来的飞机,而对于那些座舱中弹,飞行员就完了,不可能飞回来,因此座舱也就统计不到着弹位置。


讲故事的陷阱


人们寻找规律的愿望越强烈,想要通过讲故事的方式来理解实际的问题的倾向就越显著。但问题的关键在于,一个故事只是人们对某一事件的一种解释,不同的人会有不同的解释,并且很少有重复的。


我们天生就会讲故事,也需要故事,但听故事的人必须意识到这是对数据的一种解释,应该对其观点持有质疑的态度。他们是怎样编故事的?我们是否应该质疑贯穿其中的一些隐含假设?


因为讨厌不确定性,人们还会挑选容易理解的故事。更可怕的,故事给我们留下的印象越深刻,对我们产生的影响就越大。比如,尽管发生空难的概率微乎其微,但是因为媒体对空难的报道更多,所以相对车祸,我们更担心自己会死于空难。


混淆故事和因果的关系


为了能够解释和理解事件,我们会努力试图建立因果关系,有了因果关系就不再需要应对复杂和随机无序的世界,因为人们讨厌无序和不确定性。讲故事和因果关系,都是可以明确事情的先后顺序,两者也都可以让事情朝着单一的方向发展,所以很容易混淆使用。


以前,在商界、主流媒体和主流文化中,人们普遍认为“计算机是加强版人脑。”这个观点在历史上影响到我们认识世界的方式和对科技作用的期待。结果也就随之带来的问题是,我们很容易落入这一比喻说法的陷阱,它会使我们认为,只要掌握科技知识就能了解人类行为。


这样的观点,会给社会带来严重的后果。对组织而言,最大的风险便是思维的单一化,阻碍企业的发展,固化企业看待世界的方式,使企业不再能够灵活地思考目标市场的复杂性。


忽略理论的重要性


有人认为,在处理大数据时,我们完全没必要考虑理论、原理和科学定律,因为“发生了什么”才是唯一重要的,而不是“为什么会发生”。只要运用信息处理能力找出重要的规律和趋势即可,不再需要理解消费者或者掌握人类行为理论。


比如以失眠患者为例,在运用大数据分析处理了几百万份失眠患者的医疗报告之后,研究人员发现,服用了维生素和橘子汁的患者晚上都能够睡好。在这种情况下,确切的原因并不重要,重要的是失眠问题得到了解决。用他们的话来说,大数据的目的是结果,不是原因。我们并不是总是需要了解现象的原因,我们要让数据说话。


然而没有理论的指导,大数据就会容易产生误导。由于生活和社会的高度复杂性,在理解复杂体系方面,理论比以前更加不可或缺。原因在于,在任何复杂的体系中,输入和输出的数量都是无限的,所以,即使有再多的数据,也满足不了实证研究的需求。


大数据时代,我们应该如何处理数据?既然统计显著性存在缺陷,而人为解读数据又存在问题,我们应该采用何种方法呢?我想说的是,运用理论框架指导实践或许就是问题的答案。


结尾:


企业如果以前很少甚至完全没有做过数据分析,他们即使付出相对较少的努力,也能获得巨大的回报。但是,随着带来的暂时优势也会在市场日益竞争的环境中逐渐丧失。那么接下来他们面临的就是,一场数据处理能力的军备竞赛,需要通过深入了解消费者行为而获取更大的收获。当大家被卷入到这场军备竞赛中,就要时刻警惕以上所说的大数据给带来的风险和陷阱。


你可能感兴趣的:(大数据的风险与陷阱)