Hadoop学习总结(一)

1.SNN checkpoint 多久?什么参数配置?参数在哪?
3600s
参数:dfs.namenode.checkpoint.period: 3600 秒 
hdfs-default.xml
2.ZooKeeper是做什么的?

统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理、Leader 选举、队列管理等

3.ZooKeeper的作用?

Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等

Zookeeper 作为一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题,它能提供基于类似于文件系统的目录节点树方式的数据存储, Zookeeper 作用主要是用来维护和监控存储的数据的状态变化,通过监控这些数据状态的变化,从而达到基于数据的集群管理

简单的说,zookeeper=文件系统+通知机制。
参考:zookeeper的详细介绍及使用场景
ZooKeeper典型应用场景一览

4.ZooKeeper部署节点个数多少?
公式:2n+1(n>=0)
5.怎样配置多台机器互相信任关系?语法是什么?
ssh-keygen
6.ZooKeeper的mode有哪两种?
leader
follower
7.ZooKeeper客户端的shell脚本是什么?然后常用命令是什么?

假如有个场景,比如hdfs ha的信息存储在zk,这时ha需要重新部署,这时需要手工清除zk中的ha信息,请问怎样进去console,怎样删除呢
比如kafka的配置信息也会存在zk中,这时kafka损坏了,需要重新安装,那么必须先检查zk中没有kafka,假如有,先去删除

zkCli.sh
使用h或者help查看帮助:
stat 命令:查看节点的状态信息
set命令:修改节点数据,可携带版本号
ls命令:列出某一节点下的子节点信息
rmr命令:

8.Hadoop集群的HDFS、YARN HA的架构原理

HDFS 和YARN HA 简介

9.HDFS的JN 进程是干什么的?
NameNode之间共享数据
10.HDFS ZKFC是进程还是线程,作用是什么?
进程
11.YARN ZKFC是进程还是线程
线程
12.HDFS的NN的两个状态是什么?怎样使用命令查看NN状态?什么命令是NN1变为active状态呢?
状态:active、standby

查看NN状态命令:

hdfs haadmin -getServiceState master5(实际操作主机名)

使用以下命令将 NameNode1 主机上的 namenode 状态切换到 active 或 standby 状态:

    hdfs haadmin -transitionToActive NameNode1 
    hdfs haadmin -transitionToStandby NameNode1  

但是需要注意的是这两个命令不会尝试运行任何的 fence,因此不应该经常使用。应该更倾向于用 hdfs haadmin -failover 命令。

13.HDFS进入安全模式,什么命令去退出?

安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。

hadoop dfsadmin -safemode 

command的可用取值如下:

command

功能

get

查看当前状态

enter

进入安全模式

leave

强制离开安全模式

wait

一直等待直到安全模式结束

14.NN active 有读写权限,那么standby可以仅仅读取吗? 无法读取的权限

两个NameNode为了数据同步,会通过一组称作JournalNodes的独立进程进行相互通信。当active状态的NameNode的命名空间有任何修改时,会告知大部分的JournalNodes进程。standby状态的NameNode有能力读取JNs中的变更信息,并且一直监控edit log的变化,把变化应用于自己的命名空间。standby可以确保在集群出错时,命名空间状态已经完全同步了。

15.为什么DN(数据存储)和NM(计算)部署在同一台?
数据本地化 减少网络消耗,让计算更加的快
16.A机器去无密码执行B机器的SHELL脚本,pub文件用谁的?copy到哪了?
用A机器的,copy authorized_keys到B机器的.ssh目录
17.start-dfs.sh 进程顺序是什么?
NN
DN
SNN
18.怎样动态添加DataNode(含NodeManager)节点(不修改dfs.replication)
19.怎样添加DataNode节点后,更改文件复制策略dfs.replication
20.怎样动态删除DataNode(含NodeManager)节点(修改dfs.replication)
21.Hadoop2.x 性能调优,操作系统参数有哪些?
22.Yarn的内存调优参数是什么?

参考:YARN and MapReduce的【内存】优化配置详解
YARN的Memory和CPU调优配置详解

23.HDFS 和 YARN 的 HA 故障切换

参考:HDFS 和 YARN 的 HA 故障切换
YARN (MRv2) ResourceManager High Availability

你可能感兴趣的:(java,hadoop,学习,kafka,java-zookeeper,linux)