菜鸟进阶(hadoop生态圈的简单知识点串联)

hadoop生态圈
 1、common
 
 
 2、hdfs—分布式存储(多台节点协同工作)
  2.1 角色—NN DN SNN
  2.2 工作机制、
   读写机制----block块(1.x 64M    2.x 128M)
   为了数据的安全—备份机制
   为了增强传输效率----pipeline管道机制
  2.3 NN工作太繁忙,为了节省他的时间----SNN
   只是热备,不能替代NN-----把NN中的元数据备份到磁盘上(edits.log  fsimage))
   启动的条件
   安全模式
  2.4 节点之间的通信—心跳机制
  
  
 3、mapreduce(思想:分久必合,合久必分------原则:计算找数据)
  3.1 map----split切片    1splite=1block=1map----但是,为了保证数据的完整性  splite约等于block
        为了增加一个map的并行度,降低split的大小   2splite=1block=2map
        
  3.2 shuffle
   3.2.1 shuffle write
    1、split切出来的文件(k v p(分区号))
    2、将切割的文件写入到buffer缓冲池(默认100M)分为80+20,当写入的数据超过80之后,将这80进行合并排序,将排序过程中的数据写入到20里面
    3、80M数据在处理完成之后,会溢写到磁盘
    4、溢写到磁盘之后会进行一次大的combiner(聚合)
   
   3.2.1 shuffle read
    1、reduce会将磁盘中数据fetch(拉取)—内存(默认1G)分为70+30,当写入的数据超过70之后,将这70进行合并排序,将排序过程中的数据写入到30里面
    2、进行聚合排序
    
  3.3 reduce–大合并 
   将从map传过来的数据进行聚合,根据业务需求合并形成我们需要的文件
   
 4、yarn
  1.x mapreduce自己管理资源信息,(maptask和reducetask—计算线程)—jobtracher(负责资源分配)
  为了解决资源冲突与浪费—因为资源管理(yarn)—2.x版本
  -----

你可能感兴趣的:(菜鸟进阶(hadoop生态圈的简单知识点串联))