hadoop 简述

Hadoop架构的特性




1.官网:http://hadoop.apache.org
2.Apache  孵化器项目  升级到顶级的项目
3.特性
可靠性:
数据存储的可靠性,机器宕机的情况出现后,考虑数据是否会丢失
HDFS策略,多个副本,一般是3个,存在不同节点上
用户自定义副本数量
数据的安全性(以硬盘空间的消耗作为代价)
HDFS存储文件的方式:以block为单位,块的大小在2版本中是128M,1版本中是64M
用户自定义设置块的大小


存储的块损坏了怎么办?对每个存储的文件生成校验码,定期检测。读取的时候也会生成校验码,进行匹配,查看块是否损坏。
可扩展性:
一个集群可能出现多台机器宕机损坏的情况,可去下磁盘修复
可增加硬盘数
集群搭建扩展性是个难点,同步一致性是个难点




HDFS文件系统
1.分布式:主从架构master/slaves
2.主节点和从节点
主节点:nameNode 管理
存储管理元数据(内存)
从节点:DataNode 执行
3.海量文件存储建立在物理机器上,数据在物理磁盘上
4.设计理念:一次写入,多次读取。(不能修改)
5.HDFS目前只能一个用户写入,不能多用户写入
6.文件系统:存储文件>文件属性
名称:
位置:
副本数:
权限:
存储块:
7.  文件大小小于块的大小,是不会占据整个空间的
        多个文件是不能放在块中的
    8.HDFS文件系统的读写
    9.Hadoop的很多组件是通过RPC协议进行通讯的(大部分情况)
    10.HDFS就近原则机制    
    11.HDFS不适合存储大量的小文件
    淘宝文件系统可以存储大量小文件TFS(已在GitHub上开源)


YARN框架
1.分布式(主从架构:master/slaves)
2.主节点:ResourceManager  管理型
集群资源的管理分配
3.从节点:NodeManager
nodemanager和datamanager会放在同一台机器上
datanode是消耗磁盘空间,nodemanager是消耗资源的
集群的单个节点资源都是在nodemanager上
每个container容器都是在nodemanager节点上运行的
4.集群资源的管理分配,多任务的调度
5.运行的很多任务
需要时间
需要资源
6.任务调度流程
client提交给job(MapReduce)》ResourceManager
job>map01,map02,map03
每个map任务都需要一个管理者
应用管理者ApplicationMaster
任务的管理、监控、调度
MapReduce中有个经典案例:单词统计wordcount
一片文章氛围多个块,对应到不同的map块,最后统计结果进行汇总
提交Wordcount-》ResourcemManager会为这个任务分配一个ApplicationMaster
ApplicationMaster为job任务下的map和reduce去向ResourceManager申请资源
每个map任务需要在一个独立的资源状态下运行
在YARN中有container的概念,可以理解为一个容器。
每个map任务在各自独立的container中执行任务
ResourceManager返回给ApplicationMaster多个container
container提供的是隔离的作用
所有的任务执行完成之后,ApplicationMaster会向ResourceManager提交信息
无论成功或者失败都会提交信息
如果运行失败,重新运行任务,重新提交申请,重新分配资源
当任务运行完成之后,任务会关闭,资源会释放。
ApplicationMaster也需要运行,也需要在container中启动
YARN是Hadoop 2.x中才有的

你可能感兴趣的:(hadoop)