1.大数据技术概述

一、大数据关键技术

1.大数据技术概述_第1张图片

(1)数据采集

1.大数据技术概述_第2张图片

(2)数据存储

1.大数据技术概述_第3张图片

1.大数据技术概述_第4张图片

(3)数据处理

1.大数据技术概述_第5张图片

1.大数据技术概述_第6张图片

 1.大数据技术概述_第7张图片 

(4)数据安全

1.大数据技术概述_第8张图片

 

二、大数据计算模式

1.大数据技术概述_第9张图片

1.批处理计算

特点:无法实时响应,但是能得到接近准实时性。

1.大数据技术概述_第10张图片

1.大数据技术概述_第11张图片

2.流计算

特点:数据量少,源源不断到达,但是响应时间要求非常短,一般是秒级/毫秒级

1.大数据技术概述_第12张图片

1.大数据技术概述_第13张图片

1.大数据技术概述_第14张图片

1.大数据技术概述_第15张图片

1.大数据技术概述_第16张图片

3.图计算

应用场景:社交网络、物流

1.大数据技术概述_第17张图片

1.大数据技术概述_第18张图片

4.查询分析计算

1.大数据技术概述_第19张图片

1.大数据技术概述_第20张图片

三、代表性大数据技术

1.Hadoop

1.大数据技术概述_第21张图片

 

(1)HDFS

功能:海量数据的分布式存储

(2)YARN

功能:负责为上层计算框架MapReduce提供资源调度(集群)和管理服务

1.大数据技术概述_第22张图片

 

1.大数据技术概述_第23张图片

 

1.大数据技术概述_第24张图片

(3)MapReduce

功能:完成分布式并行计算任务

1.大数据技术概述_第25张图片

(4)Hive数据仓库

功能:一个时间维度上保存连续数据

存储:数据仓库的数据保持在HDFS基础之上

查询:将SQL语句自动转换对HDFS的查询分析,得到结果

1.大数据技术概述_第26张图片

数据库 与 数据仓库区别:

  • 数据库:保存某一时刻的状态数据,不能记录历史状态信息
  • 数据仓库:数据仓库以天/周为单位,每天保存一次它的镜像,形成一个时间维度上保存连续数据。

 (5)Pig

功能:在数据放入数据仓库之前,将数据进行集成、转换、加载

1.大数据技术概述_第27张图片

1.大数据技术概述_第28张图片

(6)Mahout 

功能:基于MapReduce的数据挖掘算法的接口

1.大数据技术概述_第29张图片

1.大数据技术概述_第30张图片

1.大数据技术概述_第31张图片

(7)HBase

功能:分布式数据库,HBase的底层数据是借助于分布式文件系统进行保存的

(8)Zookeeper

功能:负责分布式协调一致性服务

(9)Flume

功能:日志采集分析

(10)Sqoop

功能:完成Hadoop系统组件之间的互通(Hadoop组件与MySQL的互导),例如,HDFS<==>MySQL

 

2.Spark

功能:类似MapReduce

1.大数据技术概述_第32张图片

1.大数据技术概述_第33张图片

spark架构:

(1)Saprk SQL

功能:分析关系数据

(2)Spark Streaming

功能:进行流计算

(3)MLlib

功能:提供机器学习算法库

(4)GraphX

功能:编写图计算应用程序

(5)Spark Core

 

MapReduce缺点:

  • 表达能力有限
  • 磁盘IO开销大
  • 延迟高(存在任务衔接等待的开销)

1.大数据技术概述_第34张图片

 

1.大数据技术概述_第35张图片

spark优点:

  • 支持多种数据集操作类型
  • 编程模型更灵活
  • 提供了内存计算
  • 基于DAG(有向无环图)的任务调度执行机制

1.大数据技术概述_第36张图片

1.大数据技术概述_第37张图片

 

1.大数据技术概述_第38张图片

 

1.大数据技术概述_第39张图片

 

1.大数据技术概述_第40张图片

 

3.Flink

功能:类似Spark

1.大数据技术概述_第41张图片

 

1.大数据技术概述_第42张图片

 

Flink 与 Spark的对比:

1.大数据技术概述_第43张图片

 

1.大数据技术概述_第44张图片

4.Beam

Beam是一整套编程接口,并没有完全开源

1.大数据技术概述_第45张图片

 

你可能感兴趣的:(1.大数据技术概述)