hadoop第五天

Hadoop下载下来的是32位
云主机(华为)分为内网ip和外网ip
配置的时候要配内网ip和主机的映射关系
10台主机

集群规划:
主机名:ip: 机器配置(出故障的时候可以判断是否是硬件原因) 安装的软件 运行的进程
(1)NameNode 搭配DFSZKFailoverController(监控namenode状态)
(2)resourceManager (nameNode要和resourceManager分开部署(占用大量资源)
(3)datanode nodemanager journalNode QuorumPeerMain(这些最好一起因为nodemanager要运行mapreducer最好从本地读数据(datanode保存了数据),journalNode存放共享的edits,journalNode进程数据存放在zookeeper上)
配置隔离机制
sshfence (controller进程出问题了但是没有宕掉,无法通知zookeeper)
shell(/bin/true) namenode和controller进程都出问题了,无法通知zookeeper 超时检测(重要加了这个HA解决方案,机器宕机也不怕))
slaves(配置的是datanode,也就是hdfs子节点)
集群进程停止顺序:namenode->datanode->journalnode->zkfc
集群进程启动顺序:namenode1,namenode2->datanode1,datanode2,datanode3->journal node1,journal node2,journal node3->zk
启动hdfs
启动namenode用ssh协议(主机名:starting namenode)(读配置文件hdfs.site.xml)
启动datanode(读配置文件slaves)
启动journalnode(读配置文件hdfs.site.xml)
启动zkfc(读配置文件hdfs.site.xml和namenode在一起)

启动yarn:
启动resourcemanager(读配置文件yar-site.xml)
启动nodemanager(读配置文件slaves)
8088是yarn的管理界面的端口,50070是hdfs管理界面的端口

zookeeper是用来协调namenode
zookeeper最好基数台,最好3台,保证高可靠性,可以运行1台down掉
保证一半以上的机器运行就可以
zookeeper没必要很多,3台,5台,7台(2000个主机)
zookeeper可以使数据同步
zookeeper可以确保整个nemeservice下只有一个活跃的namenode
zookeeper可以确保Hbase只有一个老大HMaster

zookeeper可以同步数据只能同步zookeeper文件系统下的目录
namenode非常重要,一个namenode宕了集群就不可用
Hadoop2.0解决了这个问题:对namenode进行了抽象nameservice
一个nameservice有两个namenode
Hadoop HA原理
解决activie namenode和standby namenode同步的解决方案
1:NFS(网络文件系统)
2.journalNode(依赖zookeeper)存放edits文件

mrappmaster是用来监控mr任务,
yarnchild是任务执行启动的线程

mapreducer只有map也能运行,sqoop就是只执行mapper阶段
sqoop需要依赖hdfs和yarn
sqoop是数据迁移工具
sqoop的默认分隔符是‘,’,导入时改了分隔符,导出的时候也要设置对应的
shell很重要
set -x可以显示变量的值
多人修改一个文件会产生一个swap文件,要修改的时候选择delete
定时器用的非常多:crontab

你可能感兴趣的:(hadoop第五天)