也谈《大数据时代》

大数据时代这本书近几年很火,这本书浅显易懂地讲了大数据对当前社会各个行业的影响,比较适合各种背景的人阅读,IT背景的人可能读的过程中能有些更深入的思考或者联想,总结一下中心思想:


1.不是随机样本,而是全体数据

相对于以前的抽样调查,样本分析,如今的计算机处理能力能够对浩瀚的全体数据进行处理,另外抽样的方式得出的结论不完整,比如对跨境洗钱交易的分析,只能在全部数据中做分析。


2.不是精确性,而是混杂性 

容忍误差,即使数据量够大,依然不能说明未来,人类登月前,即使用几十万年的结果看,人类的活动范围也不可能到月球,但是却在上世纪得以实现。


3.不是因果关系,而是相关关系 

我的理解是这个相关关系是指不必然得出的结论,只能代表相关性,比如google在对全美搜索的词条进行数据分析时可以得出流感可能发自哪个州,也就是与某地具有相关性,还有那个以前很经典的案例,沃尔玛发现买啤酒的通常要买婴儿尿不湿,因此把货架位置摆的近以提升销量,这个都是相关关系。


其实大数据虽然是近些年的概念,就像以前炒过的各种概念一样,其实很多年前就有数据挖掘数据分析的方法,只是没有像近些年来在应用上走得这么远,以前也没有深入意识到数据的重要性,如今在计算能力,存储能力,各个行业既有数据爆炸性增长的时候,这个概念来的更合适。


比如互联网企业收集了庞大的用户资料及用户行为,从中分析目标用户的习惯及购买趋势,购买关联性,广告投放目标的锁定,还比如金融业用庞大的交易数据,庞大的信用数据来进行信用评级,反欺诈,反洗钱,这些早已不新鲜,但是大数据的利用价值可能还远远被低估,比如道路路网设计可以根据车流历史数据,比如疾病防治可以利用历史数据,甚至很多行业的历史数据还没有被数据化,难以进行分析,另外还有很多潜在的数据没有被采集,那是因为以前没有意识到,这可能又关系到物联网的概念。


未来几年我想云计算和大数据还是炙手可热的词语,因为云计算赋予了公司甚至个人庞大的,近乎无穷的计算和存储能力,以前做不到的或者没有资源做的东西可以变为现实,大数据也才拉开序幕,人们对数据的认识还远远不够,人脑是有限的,所以即使人类发展了千万年的历史,经验也只能靠所有人类所延续,一个人的脑袋是装不下以往的历史经验的,可是计算机不一样,在计算能力和存储能力以及数据挖掘算法分布式系统的提高下,理论上一个终端能够掌握所有历史数据所蕴含的道理。


在这个基础下,也许人类又能前进一步,我相信大数据在各个行业的应用上有着尚未挖掘的无数现实意义,也相信大数据在天文,物理等基础学科上有着重大的意义,以前可能是从A推导到B,现在可能发现A可以到B,然后返回来找其中的原因,这个意义也非常重大。


你可能感兴趣的:(〖技术相关〗)