第1章 大数据概述

三次信息化浪潮

信息化浪潮

发生时间

标志

解决的问题

代表企业

第一次

1980年前后

个人计算机

信息处理

Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等

第二次

1995年前后

互联网

信息传输

雅虎、谷歌、阿里巴巴、百度、腾讯等

第三次

2010年前后

大数据、云计算和物联网

信息爆炸

亚马逊、谷歌、IBM、VMware、Palantir、Hortonworks、Cloudera、阿里云等

根据IBM前首席执行官郭士纳的观点,IT领域每隔15年就会迎来一次重大变革。

信息科技为大数据时代提供的技术支撑

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

人类社会的数据产生方式

1、运营式系统阶段

数据库的出现使数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录数据库中,数据的产生方式是被动的。

2、用户原创内容阶段

数据爆发产生于Web2.0时代,而Web2.0的最重要标志就是用户原创内容

智能手机等移动设备加速内容产生

数据产生方式是主动的

注:WEB1.0 2.0 3.0,见附件:WEB1.0、WEB2.0、WEB3.0

3、感知式系统阶段

感知式系统的广泛使用(物联网的发展最终导致了人类社会数据量的第三次跃升)

人类社会数据量第三次大的飞跃最终导致了大数据的产生

大数据

大数据发展的历程

阶段

时间

内容

第一阶段:萌芽期

20世纪90年代 ~ 21世纪初

随着数据挖掘理论和数据库技术的逐步成熟 ,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等

第二阶段:成熟期

21世纪前10年

Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始盛行

第三阶段:大规模应用期

2010年以后

大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

大数据的特点

大数据的特点包含4个层面的内容:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)、Veracity(真实性)

大数据的影响

(1)在科学研究方面

大数据使人类科学研究在经历了实验科学、理论科学、计算科学3种范式之后,迎来了第4种范式 – 数据密集型科学;

注:第3种范式,一般是先提出可能的理论,再搜集数据,然后通过计算来验证;第4种范式,是先有了大量已知的数据,然后通过计算得出之前未知的理论。

(2)在思维方式方面

大数据具有“全样而非抽样、效率而非精确(针对算法来讲的)、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;

(3)在社会发展方面

大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用不断涌现;

(4)在就业方面

大数据兴趣使得数据科学家成为热门人才;

(5)在人才培养方面

大数据的兴趣将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。

大数据决策与传统的基于数据仓库的决策的区别

从20世纪90年代开始,数据仓库和商务智能工具就开始大量用于企业决策。发展到今天,数据仓库已经是一个集成的信息存储仓库,即具备批量和周期性的数据加载能力,也具备数据变化的实时探测、传播和加载能力,并能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策(如宏观决策和长远规划等)和战术决策(如实时营销和个性化服务等)的双重支持。但是,数据仓库以关系数据库为基础,无论是在数据类型还是数据量方面都存在较大的限制。现在,大数据决策可以面向类型繁多的、非结构化的少量数据进行决策分析,已经成为受到追捧的全新决策方式。

大数据关键技术

从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。

大数据技术层面

功能

数据采集与预处理

利用ETL工具将分布在异构数据源中的数据,如关系数据、平台数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析

数据存储和管理

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化少量数据的存储和管理

数据处理与分析

利用分布式并行编程模型和计算框架、结构机器学习和数据挖掘算法,实现对海量数据的处理笔分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据

数据安全和隐私保护

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建数据安全体系和隐私数据保护体系,有效保护数据安全和个人隐私。

大数据计算模式

大数据计算模式

解决问题

代表产品

批处理计算

针对大规模数据的批量处理

MapReduce、Spark等

流计算

针对流数据的实时计算

商业级:IBM InfoSphere Streams、IBM StreamBase

开源:Twitter Storm、Yahoo! S4、Spark Streaming、Flink、Streams

公司级:百度 DStream、Super Mario、淘宝 银河流数据处理平台、Cloudera Flume、Facebook Puma

图计算

针对大规模图结构数据的处理

谷歌 Pregel、Spark生态 GraphX、Flink生态Gelly、开源 Giraph、PowerffGraph、Google Pregel的开源实现Hama、Golden Orb等

查询分析计算

大规模数据的存储管理和查询分析

谷歌 Dremel、Hive、Facebook Cassandra、Cloudera Impala等

流数据(或数据流):是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。

大数据产业

产业层次

包含内容

IT基础设施层

包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Red Hat等

数据源层

大数据生态圈里的数据提供者,是生物(生物信息学的各类研究机构)大数据、交通(交通主管部门)大数据、医疗(各大医院、体检机构大数据、政务(政府部门)大数据、电商(淘宝、天猫、苏宁云商、京东等电商)大数据、社交网络(微博、微信等)大数据、搜索引擎(百度、谷歌等)大数据等各种数据的来源

数据管理层

包括数据抽取、转换、存储和管理等服务的各类企业或产品,如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatice、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)

数据分析层

包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,如分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等

数据平台层

包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,如阿里巴巴、谷歌、中国电信、百度等

数据应用层

提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

云计算

云计算概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标的、动态可扩展的网络应用基础设施,是近年来最有代表性的网络计算技术与模式。

云计算包括3种典型的服务模式,即基础设施即服务(Infrastructure as a Service,IaaS)、平台即服务(Plartform as a Service,PaaS)和软件即服务(Software as a Service,SaaS)。

云计算包括公有云、私有云和混合云3种类型。公有云面向所有用户提供服务,只要是注册付费的用户都可以使用;私有云只为特定用户提供服务;混合云综合了公有云和私有云的特点,因为对于一些企业而言,一方面出于安全考虑需要把数据放在私有云中,另一方面又铭记在心可以获得公有云的计算资源 ,为了获得最佳的效果,就可以把公有云和私有云进行混合搭配使用。

云计算的关键技术

云计算的关键技术包括虚拟化、分布式存储、分布式计算、多租户等。

虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多台逻辑计算机,每台逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的资源可以是硬件,也可以是软件。

Hyper-V、VMware、KVM、VirtualBox、Xen、QEMU等都是典型的虚拟化平台。还有近年来提出的容器技术Docker。

云计算产业链

第1章 大数据概述_第1张图片

物联网

物联网概念

物联网是物物相关的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、计算机、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

从技术架构上来看,物联网可分为四层:感知层、网络层、处理层和应用层。

层次

功能

感知层

如果把物联网系统比喻为人体,那么感知层就好比人体的神经末梢,用来感知物理世界,采集来自物理世界的各种信息。这个层包含了大量的传感器

网络层

相当于人体的神经中枢,起到信息传输的作用。网络层包含各种类型的网络,如互联网、移动通信网络、卫星通信网络等

处理层

相当于人体的大脑,起到存储和处理的作用,包括数据存储、管理和分析平台

应用层

直接面向用户,满足各种应用需求,如智能交通、智慧农业、智慧医疗、智能工业等

物联网关键技术

物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

物联网中的网络与通信技术包括短距离无线通信技术和远程通信技术。短距离无线通信技术包括Zigbee、NFC、蓝牙、Wi-Fi、RFID等。远程通信技术包括互联网、2G/3G/4G/5G移动通信网络、卫星通信网络等。

物联网产业链

第1章 大数据概述_第2张图片

大数据与云计算、物联网的关系

区别

大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;

云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;

物联网的发展目标是实现“物物相连”,应用创新是物联网发展的核心。

联系

从整体上看,大数据、云计算和物联网这三者是相辅相成的。

大数据根植于云计算,大数据分析的很多技术都来自云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力。没有这些云计算技术作为支撑,大数据分析就无从谈起。

反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的价值。

物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助云计算和大数据技术,实现物联网大数据的存储、分析和处理。

可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。

你可能感兴趣的:(大数据技术原理与应用,-,概念,存储,处理,分析与应用,大数据)