忽如一夜春风来,千“数”万“数”梨花开。近年来,大数据成为最时髦、最火热的话题,国家出台大数据产业发展规划,大数据科技公司如雨后春笋般冒出,电视节目中经常有各种大数据统计,就连微信段子也有戏说大数据。然而,虽置身于大数据时代,我们却多多少少不识其庐山真面目。通过阅读《大数据时代》《为数据而生》《数据之巅》《爆发》等有关大数据书籍,笔者试图通过以下十个方面认识大数据。
1.到底什么是大数据(BIG DATA)?当我们不知道方向时,最好的办法是回到原点找答案。最早提出大数据概念的,是美国学者维克托·迈尔·舍恩伯格及肯尼斯·库克耶,提出时间为2008年8月,他俩在合著的《大数据时代》提出,大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理,也就是说样本=全部。著名的IBM公司认为大数据有5V特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。我感到,可从以下四个方面理解大数据:
ⅰ.数据量巨增。随着传感器设备的大量布设,随着社交媒体的迅猛发展,随着科学研究的深入发展,世界每天产生的数据量大大增加了,而这些数据又能够通过各种各样的载体被记录、测量和使用。
ⅱ.数据样式更杂。这些数据,有单纯的测量数据,更有文本、图像、声音、视频等人类行为数据;有结构化的数据,但更多的是非结构化的数据。统一数据格式将变得更加复杂甚至不可能。
ⅲ.数据共享共用。通过各种各样的信息系统和平台,各种各样的数据尤其是人类行为数据能够共享共用。通过数据的共享共用,我们能够更好的预测未来。
ⅳ.数据本无大小。其实,数据无所谓大小之分,也不能清晰的划定一定界限,超过了多少 TB或EB就是大数据,关键是使用数据的立场发生了改变。不再是抽样部分数据,而是使用所有数据;不再是把数据看作孤立的,而把数据当成整体;不再是把数据当作过去的记录,而使用数据预测未来、改变未来。
2.为什么提到大数据都会讲到云计算?可以想像一种场景,我们每天被大量、多样的数据包围,而我们的计算能力还停留在珠算或者286、386的时代,那带来的结果必然是数据汪洋虽大,我也只有能力取其中一瓢。大规模生产、分享和应用数据,必将依赖强大的计算能力(当然也包括存储能力),这也就是为什么互联网BAT(俗称大佬)提到大数据肯定会讲到云计算。大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。正因为计算能力的快速发展特别是云计算的实践应用,大数据才有生根发芽的土壤,也才会成长为一颗参天大树。
3.大数据发展的核心动力是什么?大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。早在人类早期,我们的祖先就发明了立竿见影、结绳记事的测量、记录方法,进而又出现了“准、绳、规、矩”的测量手段,《孙子兵法》还提出“算则胜,不算则不胜;多算胜,少算则不胜”,但我们国家的数据意识、数据思维却没有随之兴起,我们分析世界的方法更多的是靠经验、直觉和判断。相反,美国建国仅两三百年,从建国初期就通过人口普查分配议员名额,进而随着数据分权进程形成了数据文化、兴起了数据技术、深化了数据治国理念。可以想见,随着信息技术的发展,语言文字、地理数据甚至沟通交流都可以数据化,进而一切皆可量化,世界将成为数据海洋。这为我们提供了一个从未有过的审视现实的视角,这也可能成为渗透到我们所有生活领域的世界观。
4.大数据的核心价值在哪里?大数据驱动了新工业革命,推动了生活、工作与思维的大变革。然而,我感到大数据最为核心也最为独特的价值就是预测未来。我们可以通过以下两种情形来理解预测这个问题:
ⅰ.出行大数据。现在,每逢重大节假日,新闻频道都会实时播报出行大数据。这些数据,既有出行人数和出行方式,也有交通和景点的拥堵点,并有较为实时的统计数据。通过统计这些数据,于政府部门,有利于针对性加强管控措施;于我们个人,有利于计划出行的人们进行更好的规划。这也就是说,通过统计分析,我们能够更强的洞见未来。
ⅱ.猜你喜欢。想必每一个网络购物的人,都会注意到购物网站会推送“猜你喜欢”的物品。这些物品,都是根据以往在该网站购物时浏览过、购买过的物品,浏览时长、搜索记录,以及正在浏览物品,经过一定的模型分析,进行个性化推送的。这是因为,一个人的行为不是孤立的,也不是无缘无故的,通过关联分析,是能够进行预测的。复杂网络研究权威巴拉巴西就认为,人类行为93%都是可以预测的。
5.大数据时代,我们该如何进行角色定位?《大数据时代》一书,认为大数据价值链有数据本身、技能与思维三大构成,即基于数据、基于技能、基于思维。基于数据,指拥有海量数据,这对我们普通人、一般公司都很难做到。基于技能,应该说,技能性人才依然非常欠缺,尤其是精通统计理论、计算机理论的大数据科学家更为稀少。基于思维,应该成为我们的不懈追求。培养大数据思维,跳出旧有模式和框架的束缚,通过新思维激发新动力,更好的胜任本职工作。就如谷歌某位高管所讲的那样,“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人”。当我们掌握了他人所不具备、符合时代潮流,同时又能更好的推动工作的武林秘笈,也就有了更多的选择和机会,心胸也不会再拘禁于小圈子、眼睛也不会再盯着小得失。
6.如何处理数据?美国斯坦福大学教授阿图尔·布特说:“隐藏在成堆数据内部的知识能改变一个病人的生活或者改变世界。”诚然,数据无处不在、大量繁杂、不断产生,我们该用什么方法来处理数据,从而挖掘出数据背后蕴含的巨大价值。电子科技大学教授周涛认为:“统计理论和机器学习对于理解和应用大数据最有帮助。这两者背后各有一套认识和处理‘数据世界’的理念,其中前者能够帮助我们更深刻地理解这个世界并且揭示新的现象,而后者能够帮助我们去解决遇到的问题。”关于统计理论和机器学习,就我的认识来说,如果我们不专门从事大数据相关工作,掌握一定的统计理论,日常工作中注意加强数据分析和数据统计,会使我们的工作更富有数据理性;如果再把数据以可视化的图表等形式显示出来,可能会让领导更满意于我们的工作。至于机器学习,听起来很玄奥,我的理解是机器运算过程能够自适应,以目标为方向,自动调整系数,实现最大优化。
7.如何培养数据意识?从认识到行动向来都有一段很长的路要走。说大数据是当今尤其是未来时代的主流声音,估计没人会反对,也没人会反对数据的重要性,然而,真正落实到细节上,用数据来管理、靠数据来说话,就没有那么容易了。不过,无论接受也好、拒绝也好,该来的总是会来的,不能只看到什么力量很强大,关键是要看到什么力量正在生长。我感到,既使不掌握复杂的统计理论和机器学习算法,也可以从以下三个方面入手,培养自己的数据意识、增强数据素养。
ⅰ.自觉积累数据。在日常工作中,主动搜集、积累与业务相关的数据,形成自己的业务数据库,并分门别类加以整理。这里的数据,不只指具体的数字,也包括文本、图像和视频等非结构化的数据。
ⅱ.加强数据统计。业务数据库建立起来后,不能成为闲置的“数据仓库”。不妨对一些重要的数据,进行分类统计,并形成可视化的图表。比如,单位人员的性别分布、年龄分布、学历分布、专业分布等等。
ⅲ.强化数据分析。光有简单的统计分析,还不足以充分挖掘数据背后的价值。还应该根据工作需要,提取关键特征,并根据这些特征进行分析,给出更有说服力的结论。比如,考察某个老师的课受欢迎程度,就可以分析选课学生的数量、与老师交流的人次、上课打瞌睡的人数、学生的评价等次等关键特征,并与平均水平进行比较分析,从而作出相对客观的评价。
8.大数据带来哪些隐忧?我们走在大街上,经常处于摄像头的注视之中;我们用淘宝买东西,我们的购物习惯被阿里巴巴记录,并能够分析出我们的经济状况;我们用手机与朋友打电话聊天,我们的通话记录被移动、联通等公司收集……更可怕的是别有用心的骗子能够获取我们的个人信息,了解我们的需求,进行针对性更强的诈骗。比如,有的学生这边刚收到录取通知书,准备办理助学贷款,那边骗子就电话告知如何办。如果各类信息进一步关联,我们时刻生活在“第三只眼”的监视之中,那我们的个人隐私如何保证?除了隐私受到威胁,《大数据时代》一书还提到了另一个隐忧:我们会不会因为根据大数据预测出我们将会做什么而受到惩罚,而实际上我们什么也没做,这就威胁到了我们的自由。
9.越是数据扑面而来,越要懂点哲学。毋庸置疑,大数据必将在未来绽放出耀眼的光芒,特别是在人工智能和行为预测方面,大数据为我们认识世界和改造世界提供了一种新的选择和路径。然而,大数据是一种资源,也是一种工具,这取决于能够被正确使用。我们不能盲目信任数据的力量和潜能而忽略了它的局限性,更不能单纯为了数据而数据。为了更加深刻理解数据、运用数据,我们还是要懂点哲学,掌握科学的方法论。这样,可能我们会更加辩证的看待数据,而不是让数据主宰一切;更加系统的运用数据,而不是过于放大某个数据的作用;更加理性的掌控数据,而不是让数据隐忧成为现实,等等。
10.数据是冰冷的,人性才是鲜活的。大数据将改造我们的生活,优化、提高、高效化我们的工作,并很大可能成功预测我们的行为,甚至随着人工智能的发展,真的出现《未来简史》中所预测的无用的人、没有自主的人、神人三类人。然而,人是能思想的存在,人类最本质的东西即是理性思维和自由选择。大数据终究很难抹煞人类的创造力、直觉和天赋,也很难体现人类所特有的意外、错误和冒险精神。美国前国防部长麦克纳马拉,是典型的数据控,但也不得不在一次演讲中说道:“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分点或者资产负债表上的数字”。我们在使用大数据这个工具时,还是应当怀有谦恭之心,铭记人性之本。