1. 数据定义:数据是对客观事物的性质、状态以及相互关系等进行记载的物理符号,是可识别的、抽象的。
2. 数据和信息是两个不同概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等;而数据则是构成信息的基本单位,离散的数据没有任何实用价值。
3. 数据资源已经和物质资源、人力资源一样,成为国家的重要战略资源,影响着国家和社会的安全、稳定与发展。因此,数据也被称为 “未来的石油”。
1. 常见的数据类型包括:文本、图片、音频、视频等。
2. 从数据的结构化程度看,可分为结构化数据、半结构化数据、非结构化数据。
类型 | 含义 | 本质 | 举例 | 技术 |
---|---|---|---|---|
结构化数据 | 直接可以用传统关系数据库存储和管理的数据 | 先有结构后有管理 | 数字、符号、表格 | SQL |
非结构化数据 | 无法用传统关系数据库存储和管理的数据 | 难以发现同一的结构 | 语音、图像、文本 | NoSQL,NewSQL,云技术 |
半结构化数据 | 经过转换用传统关系数据库存储和管理的数据 | 先有数据,后有结构 | HTML、XML | RDF、OWL |
1. 计算机系统中的数据组织形式主要有两种:文件和数据库。
2. (1)文件:计算机系统中的很多数据都是以文件形式存在的,比如一个WORD文件、一个文本文件、一个网页文件、一个图片文件等。 (2)数据库:数据库已经成为计算机软件开发的基础和核心,数据库在人力资源管理、固定资产管理、制造业管理、电信管理、销售管理、股市管理、图书馆管理、政务管理等领域发挥着至关重要的作用。
1. 数据都存在生命周期。数据生命周期是指数据从创建、修改、发布利用到归档或销毁的整个过程。
2. 数据生命周期管理工作主要包括以下三个方面:
1. 数据的使用分为三步:(1) 数据清洗。 (2) 数据管理。 (3) 数据分析。
2. 数据清洗:任何数据分析计划的第一步就是数据清洗,也就是把数据变成一个可用的状态。这个过程需要借助于工具去实现数据转换。
3. 数据管理:数据经过清洗以后,被存放到数据库系统中进行管理和使用。NoSQL数据库的出现,有效满足对非结构化数据进行管理的市场需求,并得到了非常迅速的发展。
4. 数据使用:存储数据是为了分析数据,分析数据需借助于数据挖掘和机器学习算法和使用相关大数据处理技术,Google提出了面向大规模数据分析的分布式编程模型MapReduce,Hadoop对其进行了开源实现。
例题:
解析:
非结构化数据是不可以直接以数据结构为手段进行数据分析的数据。这类数据一般以媒体或非数字形式(如文字、图形、图像、音频、视频等)存在。因此,网络语音数据和视频监控数据属于非结构化数据,而财务系统表格数据属于结构化数据,电子邮件既可以是结构化数据也可以是非结构化数据,具体取决于如何处理和存储。
ETL过程是数据从源系统提取、转换并加载到目标系统或数据库的过程,包括三个主要阶段:数据抽取、数据转换和数据加载。A. 数据抽取 - 这个环节是从各种源系统中提取数据。B. 数据转换 - 在这一步,数据会经过清洗、验证、格式化等处理,使其满足目标数据结构的要求。C. 数据装载 - 将转换后的数据加载到目标系统或数据库中。D. 数据稽核 - 这个环节主要是对数据质量进行校验,确保数据的准确性和完整性。
1. 数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
2. 在大数据时代以前,最有价值的商品是石油,而今天和未来则是数据。
3. 数据爆炸例子:(1)在1分钟内,新浪产生2万条微博,Twitter产生10万条推文,苹果下载4.7万次应用,淘宝可卖出6万件商品,百度可以产生90万次搜索查询,Facebook可以产生600万次浏览量。(2) 随着物联网的推广和普及,各种传感器和摄像头将遍布各个角落,每时每刻都在自动产生大量数据。
4. 数据爆炸对科学研究提出更高要求,需要设计出更加灵活高效的数据存储、处理和分析工具,应对大数据时代的挑战,必将带来云计算、数据仓库、数据挖掘等技术和应用的提升或者根本性改变。
1. 大数据是大到无法通过现有手段在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
2. 大数据特点:数据量大、数据类型繁多、处理速度快、价值密度高。
从大数据的发展历程来看,总体上可以划分为三个重要阶段:萌芽期、成熟期和大规模应用期。
阶段 | 时间 | 内容 |
---|---|---|
第一阶段:萌芽期 | 上世纪90年代至本世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等 |
第二阶段:成熟期 | 本世纪前十年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道 |
第三阶段:大规模应用期 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高 |
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。
产业链环节 | 包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 |
数据源层 | 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源 |
数据管理层 | 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
参考资源:林子雨编著的《大数据导论》