第一章:大数据概述

1.1大数据时代
1.存储设备容量不断增加
2.多核CPU
3.网络带宽不断增加

大数据的三个阶段:
1.运营式系统阶段
2.用户原创内容阶段
3.感知式系统阶段(物联网,物联网底层是感知层,如RFID,摄像头,传感器)
Internet of Things (loT):物联网(loT)实现万物互联。

1.2大数据的概念和影响
概念:
1.数据量大
2.大数据是由结构化和非结构化数据组成
3.存储在关系型数据库中的结构化数据
4.数据类型繁多
影响:
1.全样而非抽样(有足够的空间、包含众多CPU的服务器集群)
2.效率而非精确
3.相关而非因果(用户在网店购买一本书,网店自动推荐相关的另一本书)

1.3大数据的应用
1.影视剧的投拍有风险
2.谷歌预测流感趋势

1.4大数据关键技术
大数据技术的层次:
1.数据采集
2.数据存储与管理(核心技术)
3.数据处理与分析(核心技术)
4.数据隐私与安全
第一章:大数据概述_第1张图片
两大核心技术:
分布式存储:解决海量数据的存储问题(单机无法存储,采用集群分布式存储)
分布式处理:解决海量数据的处理问题(单机无法高效完成,集群分布式处理)

大数据技术以谷歌公司技术为代表
1.分布式数据库BigTable
2.分布式文件系统GFS
3.分布式并行处理技术MapReduce

不同的计算模式需要使用不同的产品,正如“不同的锁需要使用不同的钥匙”企业中不同的应用场景属于不同的应用场景属于不同的计算模式,需要使用不同的大数据技术。有些需要使用批处理、有些需要使用实时计算,有些需要使用交互式计算

典型的计算模式:
1.批处理计算:
批处理:把一堆数据一起拿过来进行批量处理,它不适合做实时交互式的计算,不可能作为秒级响应。
**MapReduce:**是批处理计算模式的典型代表。不可以做高效的迭代计算
**Spark:**它也是批处理,但它的实时性要比MapReduce强,并且它解决了MapReduce中的缺点。MapReduce不可做高效的迭代计算,但是Spark可以做高效的迭代计算

2.流计算:
流计算是专门针对流数据的事实计算。
流数据需要实时处理给出实时响应,否则分析结果就会失去商业价值。
第一章:大数据概述_第2张图片
3.图计算
图计算代表软件:Google Pregel
例如:社交网络数据就是图结构数据

4.查询分析计算
具有非常高的实时性,交互式查询
代表查询:Google Dremel、Hive、Cassandra

下表需要理解不同的产品它是服务于不同的计算问题的。对于不同的业务问题要有针对性的选择能够解决这类问题的产品。 第一章:大数据概述_第3张图片

1.5 大数据与云计算、互联网之间的关系
第一章:大数据概述_第4张图片
1.5.1 云计算:
云计算解决两大核心问题:分布式存储、分布式处理
云计算典型的特征:
虚拟化
多租户
云计算的概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
云计算的优势:企业不需要自建IT基础设施,可以租用云端资源。(企业不用去自建机房,不用自己安装硬件设备,不用自己安装软件,不用自己进行系统维护)
第一章:大数据概述_第5张图片
第一章:大数据概述_第6张图片
公有云:百度云—面向所有用户提供服务
私有云:中国移动/中国电信—面向企业内部
混合云:部分给自己,部分给外面
第一章:大数据概述_第7张图片
IaaS–基础设施即服务:直接搭建好平台,内存和CPU全给你提供了。在它的平台上安装你的系统和应用就可以了
将基础设施(计算资源和存储)作为服务出租

PasS–平台即服务
第一章:大数据概述_第8张图片
SaaS–软件即服务
典型案例:云财务软件
第一章:大数据概述_第9张图片
多租户:云计算不是为单个用户服务,云计算同时为多个用户服务
虚拟化
第一章:大数据概述_第10张图片
(VPN:虚拟专用网,也是一种虚拟化技术)

云计算数据中心:数据中心是云计算的温床。各种数据和应用,并非在“天上云端”,而是谓语数据中心里。
第一章:大数据概述_第11张图片
数据中心建设在地质结构稳定的地方。
数据中心建设在气候凉爽的地方。
数据中心能耗非常大。
第一章:大数据概述_第12张图片
第一章:大数据概述_第13张图片

1.5.2 物联网
物联网概念:物联网(IoT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸。
第一章:大数据概述_第14张图片掌上智能公交是典型的物联网应用
第一章:大数据概述_第15张图片
例如:公交车读卡器(RFID:无线射频),线圈刷卡时就是切割磁力线产生电流,给芯片充电,瞬间完成信息交互。
第一章:大数据概述_第16张图片
第一章:大数据概述_第17张图片
第一章:大数据概述_第18张图片
物联网:感知–>传输—>存储
(物联网里面它底层要感知数据,感知完数据要进行传输,传输的数据要进行存储。物联网产生这么多海量数据,目前越来越多会存到借助于云计算的基础设施去存储,云计算里面大量服务器构建了服务中心,就可以存储我们大量的物联网的数据,而存储的这些数据必须借助于大数据进行分析)
第一章:大数据概述_第19张图片

你可能感兴趣的:(big,data,mapreduce,hadoop)