hadoop(HDFS、MapReduce)

hadoop三大核心组件:

1、HDFS:分布式存储系统(实时key-value查询hbase、HiveQL离线统计分析hive都是基于此开发的技术)

2、MapReduce:分布式计算系统

3、YARN: hadoop 的资源调度系统

 

1、在HDFS上存储文件的时候,文件会按照配置的大小进行分块,每个分块会按照设置的副本的数目,在hdfs上面存储。HDFS不支持文件的修改,因为是分块储存,且有多个副本,修改的代价太高,直接删除重建吧。

 

2、MapReduce采用“分而治之”策略,map(映射)+ reduce (归约),输入数据自动分割为M个数据片段的集合,这些输入的数据片段能够在不同的机器上并行map处理,使用分区函数将map调用产生的中间key值分成R个不同分区,这些中间数据在多台机器上调用Reduce处理。最终输出写入 HDFS。

你可能感兴趣的:(杂记)