一、概述
大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社会的每个角落,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。
对一个国家而言,能否紧紧抓住大数据发展机遇,快速形成核心技术和应用参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为计算机科学与技术专业的重要核心课程。
二、数据
大数据时代最重要的产物就是数据,下面我们来认识一下数据。
概念
数据:是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,是可以识别的、抽象的符号。【数字、文字、图像、声音等】
信息:较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念的方法,而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
数据类型
文本文件:若干行字符构成的计算机文件,是一种非常常见的文本类型;
图片:由图形、图像构成的平面的媒体文件,有点阵图和矢量图两种:
点阵图:JPG
矢量图:flash生成的SWF、Photoshop生成的PSD
音频:存储声音内容的文件,MP3等;
视频:是指动态影像的存储格式,MP4等。
组织形式
计算机系统中的数据组织形式主要有两种,即文件和数据库。
文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等等;
数据库:计算机系统中另一种非常重要的数据组织形式就是数据库,今天,数据库已经成为计算机软件开发的基础和核心。
层次数据库:层次模型是数据库系统中最早出现的数据模型,层次数据库系统采用层次模型作为数据的组织方式。它采用树形结构来表示各类实体以及实体间的联系;
网状数据库:满足以下两个条件的基本层次联系的集合为网状模型:
允许一个以上的结点无双亲;
一个结点可以有多于一个的双亲。
备注:层次模型实际上是网状模型的一个特例。
关系型数据库-主流数据库:关系模型要求关系必须是规范化的,关系必须满足一定的规范条件,这些规范条件中最基本的一条就是,关系的每一个分量必须是一个不可分的数据项,也就是说,不允许表中还有表;
NoSQL数据库:非机构化数据存储。
随着web2.0的兴起,非结构化数据迅速增加,目前人类社会产生的数字内容有90%是非结构化数据,因此,能够更好地支持非结构化数据管理的NoSQL数据库应用而生。
生命周期
数据生命周期:数据从创建–>修改–>发布利用–>归档销毁,不同时期内,各阶段的利用价值不同,所以需要在不同的阶段采用不同的数据处理方式。
分类:对数据进行自动分类,分离出有效的数据,对不同类型的数据制定不同的管理策略,并及时清洗无用数据;
存储:构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储需求,对关键数据进行数据备份保护,对处于生命周期末期数据进行归档并保存到适合长期保存数据的存储设备中;
根据不同的数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备中,提高数据可用性和管理效率。
数据使用
数据清洗:数据分析计划的第一步就是数据清洗,也就是把数据转换为一个可用的状态。这个过程需要借助于工具去实现数据转换,比如AWK、XML解析器、Python等。完成数据的解析,就要开始关注数据的质量。对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,需要采取措施解决;
数据管理:数据清洗以后,被存放到数据库系统中进行管理和使用。从上世纪70年代开始,关系型数据库提供SQL语句进行各种查询操作,同时支持事务一致性功能,很好地满足了各种商业需求,但随着web2.0应用的不断发展,非结构化数据开始迅速增加,对于大规模非结构化数据则暴露了很多难以克服的问题,NoSQL数据库的出现,有效地满足了对非结构化数据进行管理的市场需求,并得到了迅速发展;
数据分析:存储数据是为了分析数据,分析数据需要借助数据挖掘和机器学习算法和使用相关大数据处理技术。Google提出了面向大规模数据分析的分布式编程模型MapReduce,Hadoop对其进行了开源实现。
统计分析 - R语言
可视化
数据的价值
在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
数据爆炸
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移。
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代。
三、大数据时代
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。
大数据发展的三个阶段
三次信息化浪潮
第一次浪潮:
时间:1980年前后
标志:个人计算机
解决问题:信息处理
代表企业:Intel、AMD、IBM、苹果、联想、戴尔等等
第二次浪潮:
时间:1995年前后
标志:互联网
解决问题:信息传输
代表企业:雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮:
时间:2010年前后
标志:物联网、云计算和大数据
解决问题:信息爆炸
代表企业:阿里云、华为云等等
可以发现:大数据发展的三个阶段和信息化浪潮的三个阶段是并行出现的
信息科技为大数据时代提供技术支撑
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
四、大数据概念
4V理论
数据量大
根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律);
人类在最近两年产生的数据量相当于之前产生的全部数据量;
每天大概有2.5万亿字节的数据被产生。
数据类型繁多
大数据是由结构化和非结构化数据组成的。
10%的结构化数据,存储在数据库中
90%的非结构化数据,它们与人类信息密切相关
科学研究【基因;地球与空间检测】
企业应用【Email、文档、文件;应用日志;交易记录】
Web 1.0数据【文本、图像、视频】
Web 2.0数据【查询日志/点击流;Twitter/ Blog / SNS;Wiki】
Web 3.0数据【区块链、元宇宙】
数据处理速度快
从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少;
1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值。
五、科学研究的四种范式
大数据最根本的价值就是为人类提供了认识复杂系统的新思维和新手段。
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结了人类自古以来在科学研究上,先后历经了实验、理论、计算和数据四种范式。
实验科学
伽利略在比萨斜塔做两个铁球同时落地实验。
1590年重量不同的两个铁球同时落地,推翻了亚里士多德物体下落速度与物体重量成正比的结论,实验纠正了持续了接近2000年的错误结论。
理论科学
实验科学的研究会受到当时条件的限制,比较难以完成对自然现象更精准的理解,随着科学的进度,我们开始采用数学,几何,物理等来构建问题的模型和解决的方案;很多理论的证明和运用对人类的生活和思想产生了很大的影响,并且在很大程度上推动了人类进步和发展。
几何理论
牛顿三大定律
计算科学
1946年人类历史上第一台计算机ENIAC诞生,人类社会步入了计算机的时代,人类的科学研究进入了以计算为中心的全新的时期,在实际应用中,计算科学主要用于对各个科学问题进行计算机的模拟和其他形式的计算,通过设计算法,并通过编写相应的程序,然后输入计算机去运行,我们就可以借助于计算机高速的运算能力去帮我们解决各种各样的问题,而且计算机具有存储容量大,计算速度快,精度高,可重复执行这些特点,所以说它是科学研究的利器,极大推动了人类社会的发展。
大数据
大数据时代,以数据为中心
随着数据日益累计,其宝贵的价值日益得到体现,物联网和云计算的出现更是促成了事物从量变到质变的转变。从此人类社会开启了全新的大数据时代。这时计算机不仅仅是做一次模拟仿真,而且还能进行分析总结,并且帮助我们得到结论。在大数据环境下,一切都是以数据为中心,从数据中发现问题,解决问题,从而真正体现数据的价值,而且大数据也成为我们科学工作的保障,从数据中挖掘未知的模式和有价值的信息,从而更好地服务于生产和生活,来推动科技的进步和社会的创新。
虽然第三和第四范式都是利用计算机来进行计算,但是他们是有本质区别的:
在第三种范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证;
第四种范式,现有大量已知的数据,然后通过计算机得出之前未知的理论,比如我们比较熟悉的啤酒尿布的案例。
在大数据时代,数据不再是静止与陈旧的,任何被遗忘在服务器中的数据,都可能被重新利用,从而发现其中与我们,与行为,与现象的相关性,感谢科技的进步,让我们可以窥探数据更多真实的价值。