在etc/hadoop/workers文件中,列出所有的worker的hostname或则IP地址。一行一个。辅助脚本将会使用etc/hadoop/workers文件在多台机器上一起运行命令。它不用任何基于Java的hadoop配置。必须为用于运行Hadoop的帐户建立ssh信任(通过无密码ssh或其他方式,如Kerberos)。【注释:这里前面版本不同的是修改文件名称,由slaves文件改为workers文件】
hadoop机架感知 许多Hadoop组件都具有机架感知功能,并利用网络拓扑来提高性能和安全性。
Hadoop守护进程通过调用管理员配置的模块获取集群中worker的机架信息。
有关更多具体信息,请参阅RackAware(http://hadoop.apache.org/docs/r3.0.0/hadoop-project-dist/hadoop-common/RackAwareness.html)文档。
Hadoop通过Apache Commons Logging框架使用Apache log4j进行日志记录。
编辑etc/hadoop/log4j.properties文件以定制Hadoop守护进程的日志配置(日志格式等)。
完成所有必要的配置后,将文件分发到所有机器上的HADOOP_CONF_DIR目录。 一般来说,建议HDFS和YARN作为单独的用户运行。
在大多数安装中,HDFS进程以“hdfs”执行。 YARN通常使用“yarn”帐户。
启动hadoop集群需要启动hdfs和yarn。
第一次启动hdfs,需要格式化.格式化命令:
[hdfs]$ $HADOOP_HOME/bin/hdfs namenode -format
在指定节点上使用以下命令启动HDFS NameNode:
[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon start namenode
在每个指定的节点上使用以下命令启动HDFS数据节点:
[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon start datanode
如果配置了etc/hadoop/workers和ssh信任访问,则可以使用下面命令启动所有HDFS进程。
[hdfs]$ $HADOOP_HOME/sbin/start-dfs.sh
用下面的命令启动YARN,在指定的ResourceManager上运行。
[yarn]$ $HADOOP_HOME/bin/yarn --daemon start resourcemanager
运行一个脚本,在每个指定的主机上启动一个NodeManager:
[yarn]$ $HADOOP_HOME/bin/yarn --daemon start nodemanager
启动一个独立的webappproxy服务器。运行webappproxy服务器为Yarn用户。如果使用多个服务器进行负载平衡,则应该在每个服务器上运行它们:
[yarn]$ $HADOOP_HOME/bin/yarn --daemon start proxyserver
如果配置了etc/hadoop/workers和ssh信任访问(请参阅单节点设置),则可以使用程序脚本启动所有YARN进程。
[yarn]$ $HADOOP_HOME/sbin/start-yarn.sh
用以下命令启动MapReduce JobHistory服务器,在指定的服务器上运行:
[mapred]$ $HADOOP_HOME/bin/mapred --daemon start historyserver
集群关闭
使用下面命令停止namenode,在指定的NameNode 上运行
[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon stop namenode
使用下面命令停止DataNode
[hdfs]$ $HADOOP_HOME/bin/hdfs --daemon stop datanode
如果配置了etc/hadoop/workers和ssh信任访问,则可以使用下面命令停止所有HDFS进程。
[hdfs]$ $HADOOP_HOME/sbin/stop-dfs.sh
使用下面命令停止ResourceManager ,在指定的ResourceManager上运行
[yarn]$ $HADOOP_HOME/bin/yarn --daemon stop resourcemanager
运行脚本停止worker上的NodeManager
[yarn]$ $HADOOP_HOME/bin/yarn --daemon stop nodemanager
如果配置了etc/hadoop/workers和ssh信任访问,则可以使用下面命令停止所有YARN 进程。
[yarn]$ $HADOOP_HOME/sbin/stop-yarn.sh
停止webappproxy服务器。运行webappproxy服务器为Yarn用户。如果使用多个服务器进行负载平衡,则应该在每个服务器上运行它们:
[yarn]$ $HADOOP_HOME/bin/yarn stop proxyserver
停止MapReduce JobHistory Server使用下面命令,在指定的机器上运行
[mapred]$ $HADOOP_HOME/bin/mapred --daemon stop historyserver