大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

以上都是大数据相关的系统和技术,大数据又属于数据管理系统的范畴

数据管理系统无非就两个问题:

1.数据怎么存

2.数据怎么算

再进入信息爆炸时代后,数据的容量越来越大,导致一台服务器存不下,所以要用集群来存储、处理信息,但是管理一台服务器容易,怎么去统一管理集群的信息成了问题。所以用到了Hadoop生态来管理信息。

Hadoop生态中HDFS:处理存储,管理信息的分布式存储、提供接口,让用户感觉集群中的信息好像是存储在一台服务器上。

Hadoop生态中Mapreduce:处理计算,提供任务并行的框架,通过它的API抽象让用户把并行程序分成两个阶段,(1)map阶段:把任务分成若干份,分给集群中的服务器去完成(2)reduce阶段:等各个服务器把任务完成然后得到最终结果

Hadoop生态中Yarn:资源管理和任务调度

Hadoop生态中Hive:是为了方便用户在Mapreduce上写比较简单的SQL,免去写复杂的并行程序

spark:经常与Hadoop来对比,更精确的说是与Hadoop中的Mapreduce对比,因为spark本身也是一个计算框架。与Mapreduce不同的是,spark是基于内存计算,而Mapreduce是基于磁盘计算,所以spark的优点就是快。一般快2-3倍左右

大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系_第1张图片

 

你可能感兴趣的:(大数据,hadoop,hive)