大数据技术之Hadoop(二)

目录

一、Hadoop的诞生

二、大数据概述

三、大数据软件生态

3.1 数据存储相关技术

3.2 数据计算相关技术

3.3 数据传输相关技术

四、什么是Hadoop


Hadoop绍。

一、Hadoop的诞生

大数据技术之Hadoop(二)_第1张图片

大数据的发展与日益庞大的数据量是密不可分的。从2000年左右开始,全球互联网逐步建成。各大企业和政府机构有海量数据亟须解决。

08年之前,大数据技术是大型企业的高精尖技术。08年之后,因为Hadoop的开源,使得一些中小企业也能运用大数据技术,处理日益庞大的数据量了。

从Hadoop开始,大数据就开始蓬勃发展起来了。从它上面推生出众多的技术栈。

二、大数据概述

使用分布式技术完成海量数据的处理,得到数据蕴藏的价值。

大数据的5个主要特征

大数据技术之Hadoop(二)_第2张图片 一句话总结就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。

由此得出大数据的三大核心工作海量数据计算存储传输

大数据技术之Hadoop(二)_第3张图片

三、大数据软件生态

3.1 数据存储相关技术

Apache Hadoop框架内的组件HDFS

大数据技术之Hadoop(二)_第4张图片

是大数据体系中使用最为广泛的分布式存储技术

Apache HBase

大数据技术之Hadoop(二)_第5张图片

HBase是大数据体系内使用非常广泛的NoSQL kv型数据库技术

HBase是基于HDFS之上构建的技术。

Apache Kudu

大数据技术之Hadoop(二)_第6张图片

Apache Kudu同样为大数据体系中使用较多的分布式存储引擎。

云平台存储组件

各大云平台厂商也有相应的大数据存储组件。如阿里云的OSS,AWS的S3等等。

3.2 数据计算相关技术

Apache Hadoop框架内的组件MapReduce

 大数据技术之Hadoop(二)_第7张图片

Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献!

Apchache Hive

 大数据技术之Hadoop(二)_第8张图片

Apache Hive是一款以SQL为主要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术。

Apache Hive诞生很早,至今仍活跃在大数据一线,被许多公司使用。

Apache Spark

大数据技术之Hadoop(二)_第9张图片

Apache Spark是目前全球范围内最火热的分布式内存计算引擎

是大数据体系中的明星计算产品。

Apache Flink

大数据技术之Hadoop(二)_第10张图片 

Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大数据的国内市场。

3.3 数据传输相关技术

Apache Kafka

 大数据技术之Hadoop(二)_第11张图片

Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

Apache Kafka在大数据领域也是明星产品。

Apache Pulsar

 

Apache Pulsar同样也是一款分布式的消息系统。在大数据领域中也有非常多的使用者。

Apache Flume

大数据技术之Hadoop(二)_第12张图片

Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

PS:以上只是列举了大数据技术中的一部分,实际上还包含很多技术。这里就不一一列举了。

四、什么是Hadoop

简单说,Hadoop包含:

分布式数据存储技术(HDFS)

分布式数据计算技术(MapReduce)

分布式资源调度技术(YARN)

从前面讲解中,我们可以清楚的发现,Hadoop包含了大数据三大核心任务的前两个:海量数据的计算和存储。

关于Hadoop的版本分为两种,一种是Apache官方的开源社区版,另一种是各商业公司根据开源社区版个性化定制的商业发行版。本教程主要以开源社区版为例进行讲解。

大数据技术之Hadoop(二)_第13张图片

 

你可能感兴趣的:(大数据技术,大数据,hadoop,分布式)