本文翻译翻译自http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/ClusterSetup.html
具体的实践,请参阅:搭建两个节点的简单hdfs集群。
译注:仅仅是翻译,内容关于搭建一个纯净,简单的hadoop集群。实际的集群,需要考虑高可靠,性能,安全。
参考:高可靠
安全(保全):保全模式 和 服务器级别授权
1.目的
告诉读者如何搭建具有几个节点或者成千上万个节点的集群。
但不包含高可靠和保全内容。
2.前提
- 安装必要的java版本
- 下载稳定版本
译注:如果是生产库,千万不要使用稳定版本之外的。除非你愿意支付这种代价。
3.安装
通常包括在所有节点上解压软件,或者也可以使用打包系统。
划分硬件的功能很重要。
通常,一台机器作为名称节点,另外一台作为资源管理器。这两台是核心机器。
其它服务(诸如web应用代理服务器和mr作业历史服务器)可以运行在专有机器上,也可以在大机上共存,具体取决于负载。
其它的机器,用作数据节点和节点管理器。它们属于从属。
译注:原文分别使用master和slave划分几种服务。以为把它们分别翻译为“核心","从属".
4.非保全模式的配置
hadoop的java配置通过两种配置文件进行:
-
只读默认配置 - core-default.xml, hdfs-default.xml, yarn-default.xml 和mapred-default.xml.
-
节点特定配置 - etc/hadoop/core-site.xml, etc/hadoop/hdfs-site.xml, etc/hadoop/yarn-site.xm和etc/hadoop/mapred-site.xml.
此外,我们可以控制位于bin目录下的hadoop脚本,方式是修改 etc/hadoop/hadoop-env.sh 和 etc/hadoop/yarn-env.sh
为了配置hadoop集群,我们需要配置运行hadoop守护程序用户的环境变量,并配置守护程序有关的参数。
HDFS守护程序包含NameNode, SecondaryNameNode, and DataNode。YARN的是ResourceManager, NodeManager, 和WebAppProxy。如果有使用MR,那么还包含MapReduce Job History Server。
在大型集群中,这些守护程序通常是在不同的主机上分开运行(应为压力实在大)。
4.1配置hadoop守护程序环境
管理员应该使用etc/hadoop/hadoop-env.sh,etc/hadoop/mapred-env.sh ,etc/hadoop/yarn-env.sh来设定节点有关的定制环境。
有些情况下,还必须设定JAVA_HOME。(译注,这个是通过实践,是严重推荐的,因为有的人的机器上可能有许多JAVA环境).
管理员可以使用下表中环境变量为每个独立的守护程序设定特定的选项:
Daemon | Environment Variable |
---|---|
NameNode | HADOOP_NAMENODE_OPTS |
DataNode | HADOOP_DATANODE_OPTS |
Secondary NameNode | HADOOP_SECONDARYNAMENODE_OPTS |
ResourceManager | YARN_RESOURCEMANAGER_OPTS |
NodeManager | YARN_NODEMANAGER_OPTS |
WebAppProxy | YARN_PROXYSERVER_OPTS |
Map Reduce Job History Server | HADOOP_JOB_HISTORYSERVER_OPTS |
例如,为了让名称节点可以使用JAVA并行的GC(垃圾回收),那么可以在 hadoop-env.sh 中添加如下语句:
export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC"
etc/hadoop/hadoop-env.sh 中有更多的例子。
译注:要启用什么java配置? 这个如果不是很熟悉hadoop的内核,还是不要轻易调整。 但如果是研究性的集群,不烦可以试试,或者遇到死马的时候,也可以考虑下。
其它一些配置也可以定制,包括:
- HADOOP_PID_DIR - 守护程序进程id文件所在路径。
- HADOOP_LOG_DIR - 守护程序日志路径。
- HADOOP_HEAPSIZE / YARN_HEAPSIZE - java虚拟机所使用最大内存,单位MB。例如如果是1000就是1000MB。默认就是1000MB.可以根据集群的需要调整大小。
大部分情况下,我们应该设定HADOOP_PID_DIR 和 HADOOP_LOG_DIR,这样只有启动守护程序的用户可以写。否则有潜在的连接攻击。
一般来说,也需要在系统级别shell环境中配置HADOOP_PREFIX,例如可以在目录/etc/profile.d下的脚本中设定:
HADOOP_PREFIX=/path/to/hadoop
export HADOOP_PREFIX
译注:关于是否设置系统级别的环境变量,要看具体环境而定。
Daemon | Environment Variable |
---|---|
ResourceManager | YARN_RESOURCEMANAGER_HEAPSIZE |
NodeManager | YARN_NODEMANAGER_HEAPSIZE |
WebAppProxy | YARN_PROXYSERVER_HEAPSIZE |
Map Reduce Job History Server | HADOOP_JOB_HISTORYSERVER_HEAPSIZE |
4.2配置hadoop守护程序
译注:这个小章节,需要读者格外注意。但本章节中提到的配置仅仅是一些关键性的部分,并不包含所有。建议读者详细阅读各个配置文件的default文档说明。
HDFS设置
- etc/hadoop/core-site.xml
Parameter | Value | Notes |
---|---|---|
fs.defaultFS | NameNode URI | hdfs://host:port/ 有的地方如果有启用viewFs,可能前缀不同。但本文只说简单的。 |
io.file.buffer.size | 131072 | Size of read/write buffer used in SequenceFiles. 单位字节。具体可以参考core-default.xml说明 |
-
etc/hadoop/hdfs-site.xml
-
NameNode(名称节点):
Parameter | Value | Notes |
---|---|---|
dfs.namenode.name.dir | Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. | 操作系统本地路径 为了冗余,可以配置多个路径,路径之间使用逗号分隔。既然是冗余,建议路径是位于不同的磁盘上。或者是使用raid磁盘,一个路径即可。 |
dfs.hosts / dfs.hosts.exclude | List of permitted/excluded DataNodes. | 允许/禁止的数据节点名称。具体值是一个文件的全路径。文件中一行一个主机名称。也可以不设置。如果允许就可以连接名称节点。 译注:不太清楚这个有什么作用,也许仅仅是为了便于替换加入,或者做扩展测试。 |
dfs.blocksize | 268435456 | 数据块大小。可以后缀单位为(k,m,g,t,p,e),例如128m。也可以没有后缀(就是字节为单位),这里是256mb。 译注:数据块设置多大,和操作系统,每个文件大小,java设置,网络都有关系。 |
dfs.namenode.handler.count | 100 | rpc线程个数(LINUX就是进程),用于数据节点和名称节点之间的通讯。 译注:如果你有非常多的数据节点,这个就需要设置很大 |
- DataNode(数据节点):
Parameter | Value | Notes |
---|---|---|
dfs.datanode.data.dir | Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. | 存储实际的数据块。可以有多个路径,之间以逗号分隔。 如果有多个路径,则必须在每个路径后跟上设备类型([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK]) 如果没有跟上,则默认是DISK。如果权限运行,即使目录不存在,也会创建 关于这个详细的信息可以参阅http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/ArchivalStorage.html 译注:在将来,这是必须严重关注的事情,当然也许更新的版本并不关注这个设置。 |
yarn设置
- etc/hadoop/yarn-site.xml
-
ResourceManager 和 NodeManager:
Parameter | Value | Notes |
---|---|---|
yarn.acl.enable | true / false | 是否启用acl,默认不启用 |
yarn.admin.acl | Admin ACL | acl列表。具体可以参考服务级别授权。 |
yarn.log-aggregation-enable | false | 启用或者禁用容器日志。如果启用,就会记录,并且日志会移动到某个文件系统,例如HDFS。 日志可以使用Application Timeline Server来查看。 译注:如果设置为true,则还涉及都许多的配置。 |
- ResourceManager:
Parameter | Value | Notes |
---|---|---|
yarn.resourcemanager.address | ResourceManager host:port for clients to submit jobs. | host:port If set, overrides the hostname set in yarn.resourcemanager.hostname. |
yarn.resourcemanager.scheduler.address | ResourceManager host:port for ApplicationMasters to talk to Scheduler to obtain resources. | host:port If set, overrides the hostname set in yarn.resourcemanager.hostname. |
yarn.resourcemanager.resource-tracker.address | ResourceManager host:port for NodeManagers. | host:port If set, overrides the hostname set in yarn.resourcemanager.hostname. |
yarn.resourcemanager.admin.address | ResourceManager host:port for administrative commands. | host:port If set, overrides the hostname set in yarn.resourcemanager.hostname. |
yarn.resourcemanager.webapp.address | ResourceManager web-ui host:port. | host:port If set, overrides the hostname set in yarn.resourcemanager.hostname. |
yarn.resourcemanager.hostname | ResourceManager host. | host Single hostname that can be set in place of setting all yarn.resourcemanager*address resources. Results in default ports for ResourceManager components. |
yarn.resourcemanager.scheduler.class | ResourceManager Scheduler class. | CapacityScheduler (recommended), FairScheduler (also recommended), or FifoScheduler |
yarn.scheduler.minimum-allocation-mb | Minimum limit of memory to allocate to each container request at the Resource Manager. | In MBs |
yarn.scheduler.maximum-allocation-mb | Maximum limit of memory to allocate to each container request at the Resource Manager. | In MBs |
yarn.resourcemanager.nodes.include-path / yarn.resourcemanager.nodes.exclude-path | List of permitted/excluded NodeManagers. | If necessary, use these files to control the list of allowable NodeManagers. |
- NodeManager:
Parameter | Value | Notes |
---|---|---|
yarn.nodemanager.resource.memory-mb | Resource i.e. available physical memory, in MB, for given NodeManager | Defines total available resources on the NodeManager to be made available to running containers |
yarn.nodemanager.vmem-pmem-ratio | Maximum ratio by which virtual memory usage of tasks may exceed physical memory | The virtual memory usage of each task may exceed its physical memory limit by this ratio. The total amount of virtual memory used by tasks on the NodeManager may exceed its physical memory usage by this ratio. |
yarn.nodemanager.local-dirs | Comma-separated list of paths on the local filesystem where intermediate data is written. | Multiple paths help spread disk i/o. |
yarn.nodemanager.log-dirs | Comma-separated list of paths on the local filesystem where logs are written. | Multiple paths help spread disk i/o. |
yarn.nodemanager.log.retain-seconds | 10800 | Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled. |
yarn.nodemanager.remote-app-log-dir | /logs | HDFS directory where the application logs are moved on application completion. Need to set appropriate permissions. Only applicable if log-aggregation is enabled. |
yarn.nodemanager.remote-app-log-dir-suffix | logs | Suffix appended to the remote log dir. Logs will be aggregated to ${yarn.nodemanager.remote-app-log-dir}/${user}/${thisParam} Only applicable if log-aggregation is enabled. |
yarn.nodemanager.aux-services | mapreduce_shuffle | Shuffle service that needs to be set for Map Reduce applications. |
- History Server:
Parameter | Value | Notes |
---|---|---|
yarn.log-aggregation.retain-seconds | -1 | How long to keep aggregation logs before deleting them. -1 disables. Be careful, set this too small and you will spam the name node. |
yarn.log-aggregation.retain-check-interval-seconds | -1 | Time between checks for aggregated log retention. If set to 0 or a negative value then the value is computed as one-tenth of the aggregated log retention time. Be careful, set this too small and you will spam the name node. |
mr设置(译注:这个不是必须的,如果仅仅想使用hdfs和yarn,而使用其它计算引擎,例如spark,presto,impala等)
- etc/hadoop/mapred-site.xml
-
MapReduce Applications:
Parameter | Value | Notes |
---|---|---|
mapreduce.framework.name | yarn | Execution framework set to Hadoop YARN. |
mapreduce.map.memory.mb | 1536 | Larger resource limit for maps. |
mapreduce.map.java.opts | -Xmx1024M | Larger heap-size for child jvms of maps. |
mapreduce.reduce.memory.mb | 3072 | Larger resource limit for reduces. |
mapreduce.reduce.java.opts | -Xmx2560M | Larger heap-size for child jvms of reduces. |
mapreduce.task.io.sort.mb | 512 | Higher memory-limit while sorting data for efficiency. |
mapreduce.task.io.sort.factor | 100 | More streams merged at once while sorting files. |
mapreduce.reduce.shuffle.parallelcopies | 50 | Higher number of parallel copies run by reduces to fetch outputs from very large number of maps. |
- MapReduce JobHistory Server:
Parameter | Value | Notes |
---|---|---|
mapreduce.jobhistory.address | MapReduce JobHistory Server host:port | Default port is 10020. |
mapreduce.jobhistory.webapp.address | MapReduce JobHistory Server Web UI host:port | Default port is 19888. |
mapreduce.jobhistory.intermediate-done-dir | /mr-history/tmp | Directory where history files are written by MapReduce jobs. |
mapreduce.jobhistory.done-dir | /mr-history/done | Directory where history files are managed by the MR JobHistory Server. |
5.监控节点管理器的健康
hadoop提供了一套机制,管理员可以配置节点管理器,让节点管理器定时运行脚本,以确定节点是否健康。
管理员可以调整脚本,做他们自己需要检查的项目。如果脚本认为节点不健康,它必须在标注输出中答应一行内容,开头是ERROR。节点管理器定时执行这个脚本,并检查脚本输出。如果输出包含ERROR,那么节点就被认为不健康(unhealthy),资源管理器会把该节点列入黑名单,之后,不再为这个问题节点分配任务。然后,因为节点管理器是不停执行这个脚本,所以如果某个节点恢复健康状态,那么这个节点就从资源管理器的黑名单剔除,之后又会被指派任务。
检点的健康情况,可以通过web界面查看。
etc/hadoop/yarn-site.xml中的以下参数可以控制节点健康监控:
Parameter | Value | Notes |
---|---|---|
yarn.nodemanager.health-checker.script.path | Node health script | Script to check for node’s health status. 健康检查脚本浏览路径 |
yarn.nodemanager.health-checker.script.opts | Node health script options | Options for script to check for node’s health status. |
yarn.nodemanager.health-checker.interval-ms | Node health script interval | Time interval for running health script. |
yarn.nodemanager.health-checker.script.timeout-ms | Node health script timeout interval | Timeout for health script execution. |
检查检查脚本不会因为只有一些磁盘有问题,就给出ERROR标记。节点管理器有定期检查本地磁盘的能力(特别地会去简单nodemanager-local-dirs 和 nodemanager-log-dirs),如果发现损坏的目录数已经超过yarn.nodemanager.disk-health-checker.min-healthy-disks所设定的阀值,那么整个节点就会被认标记为不健康。引导磁盘是否raid,引导此否是否有问题,都会被检查脚本检查。
6.slaves文件
slave机器(节点),或者说从属节点,它们必须在文件etc/hadoop/slaves中登记,一个一行。有关程序利用这个文本的内容,一次性在所有的节点上执行相同的命令。为了达成这个目的,各个节点上启动hadoop的系统用户账户必须互相建立ssh信任。
译注:如果节点太多,建议使用脚本来构建这样的信任。
7.hadoop机栈敏感
许多hadoop组件是机栈敏感的,它们利用网络拓扑结构来提升性能和安全。hadoop守护程序通过激活一个管理员可配的模块来获得机栈信息。
具体参考机栈敏感。
严重建议:在启动hdfs之前,需要先配置好机栈敏感。
译注:机栈敏感,更多是一种逻辑拓扑,但和实际的物理拓扑也有密切的关系。
8.日志
修改etc/hadoop/log4j.properties即可启用apache log4j。
9.hadoop集群操作
9.1启动
为了启动hadoop集群,必须启动HDFS和YARN集群。(译注:以下假定hdfs的用户是hdfs,yarn的用户是yarn).
启动之前,必须先格式化
[hdfs]$ $HADOOP_PREFIX/bin/hdfs namenode -format
启动HDFS
在每个名称节点上,执行以下命令
[hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs start namenode
在每个数据节点上执行以下命令
[hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemons.sh --config $HADOOP_CONF_DIR --script hdfs start datanode
如果有配置ssh信任,并且etc/hadoop/slaves有配置,那么可以使用以下脚本:
[hdfs]$ $HADOOP_PREFIX/sbin/start-dfs.sh
译注:本文中这样的配置,会默认启动一个第二名称节点,和名称节点在同一台机器上。
启动YARN
使用yarn用户,在资源管理器节点上运行:
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR start resourcemanager
在节点管理器上运行以下命令:
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemons.sh --config $HADOOP_CONF_DIR start nodemanager
在webappproxy服务器上,运行以下命令:
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR start proxyserver
如果有建立ssh信任和配置etc/hadoop/slaves,那么可以直接使用以下脚本启动
[yarn]$ $HADOOP_PREFIX/sbin/start-yarn.sh
MapReduce JobHistory Server由用户 mapred启动:
[mapred]$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver
译注:mr的作业历史服务器,需要单独启动。
9.2 关闭
关闭HDFS
关闭名称节点
[hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script hdfs stop namenode
关闭数据节点
[hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemons.sh --config $HADOOP_CONF_DIR --script hdfs stop datanode
如果有配置ssh信任,并且etc/hadoop/slaves有配置,那么可以使用以下脚本:
[hdfs]$ $HADOOP_PREFIX/sbin/stop-dfs.sh
关闭YARN
关闭资源管理器
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR stop resourcemanager
关闭节点管理器
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemons.sh --config $HADOOP_CONF_DIR stop nodemanager
如果有配置ssh信任,并且etc/hadoop/slaves有配置,那么可以使用以下脚本:
[yarn]$ $HADOOP_PREFIX/sbin/stop-yarn.sh
关闭yarn的web代理服务器
[yarn]$ $HADOOP_YARN_HOME/sbin/yarn-daemon.sh --config $HADOOP_CONF_DIR stop proxyserver
关闭MR作业历史服务器(如果有负载均衡,需要逐个关闭)
[mapred]$ $HADOOP_PREFIX/sbin/mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR stop historyserver
译注: 实际关闭集群的时候,应该先关闭yarn,再关闭hdfs。
10.web接口
Daemon | Web Interface | Notes |
---|---|---|
NameNode | http://nn_host:port/ | Default HTTP port is 50070,可以查看hdfs文件 |
ResourceManager | http://rm_host:port/ | Default HTTP port is 8088. |
MapReduce JobHistory Server | http://jhs_host:port/ | Default HTTP port is 19888. |