大数据时代的解析

大数据时代的到来,数据仓库日显重要,如何建立好的数据部门,其实是每个公司都应该重视的问题,做数据是需要数据思想+工程思想结合。
第一、数据是分为处理、规范存储、建模分析的三个过程。  
     1、“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。
     2、规范存储,其中最主要是建立数据仓库。

     3、建模分析,主要体现在离线数据分析和实时在线流的分析和建模。

       其中这个就会产生三个不同工作内容的小组:数据统计(报表)、数据分析(报告)、数据挖掘(基于机器学习+统计规则,面向应用)。这三个小组的工作如果进行统一管理、组件沟通流畅等,协同工作效率达到最大,将是一个公司很大的财富,但问题来了,这样的也是需要好的领导的,这样的领导不好找,目前少见。

 
第二、大数据的价值来源于整体和局部数据特性,局部数据特性是数据挖掘中一直再探索的问题。
 数据的局部特性(兼容不精确)Vs用全量代替样本 
        在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。
  其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。

  哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。
  我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。

  随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。
  另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的

 
 
第三、大数据更加关注相关规律。

         大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。

         由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。   而经过大数据的分析,已经基本上可以保证关联关系的准确性,   而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,   至少结果不会太糟(除非分析方法严重有误)。   在追求效率的今天,这种“先斩后奏”还是值得尝试的。  况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。

   所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,    相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。

你可能感兴趣的:(大数据时代的解析)