翻译自官方文档Pseudo-Distributed Operation一节
wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
tar -zxvf hadoop-2.9.2.tar.gz
vim /etc/profile
添加:
HADOOP_HOME=/usr/local/hadoop-2.9.2
export PATH=$HADOOP_HOME/bin:${CLASSPATH}:$PATH
source /etc/profile
hadoop可以以一个伪集群模式在单机上运行,每个hadoop daemon以一个单独的java线程运行。
vim ${HADOOP_HOME}/etc/hadoop/core-site.xml
添加配置如下:
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://localhost:9000value>
property>
configuration>
vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
添加配置如下:
<configuration>
<property>
<name>dfs.replicationname>
<value>1value>
property>
configuration>
hadoop脚本设置java home
vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
找到
export JAVA_HOME=${JAVA_HOME}
改成
export JAVA_HOME=具体路径
先检查本地是否可以使用免密登录
ssh localhost
如果没有设置,按照下面的操作设置:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
1.格式化hdfs
hdfs namenode -format
2.启动namenode和datanode节点
cd ${HADOOP_HOME}/sbin/
./start-dfs.sh
hadoop节点的日志会写入到 H A D O O P L O G D I R 目 录 , 默 认 是 在 HADOOP_LOG_DIR目录,默认是在 HADOOPLOGDIR目录,默认是在{HADOOP_HOME}/logs目录下
3.查看namenode的管理网页
默认地址是:
http://localhost:50070/
运行hadoop自带的一个example来检测集群搭建是否正常
/hdfs dfs -mkdir /user
/hdfs dfs -mkdir /user/<username>
hdfs dfs -put etc/hadoop input
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar grep input output 'dfs[a-z.]+'
bin/hdfs dfs -get output output
cat output/*
添加一些配置文件,就可以在伪集群模式下再Yarn中运行map reduce任务。另外也可以把ResourceManager 和NodeManager节点跑起来。
vim ${HADOOP_HOME}/etc/hadoop/mapred-site.xml
添加:
<configuration>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
configuration>
vim ${HADOOP_HOME}/etc/hadoop/yarn-site.xml
添加:
<configuration>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
configuration>
启动ResourceManager和NodeManager
./${HADOOP_HOME}/sbin/start-yarn.sh
打开启动ResourceManager的web管理界面
默认:http://localhost:8088/
至此,集群搭建完成。