Hadoop运行环境搭建

解压(/opt/software -> /opt/module)
- tar -zxvf /hadoop-2.7.2.tar.gz -C /opt/module

环境变量

export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

配置集群(etc/hadoop/)

配置core-site.xml(核心配置文件)

vi core-site.xml




fs.defaultFS
hdfs://fan102:9000



hadoop.tmp.dir
/opt/module/hadoop-2.7.2/data/tmp

配置hadoop-env.sh(HDFS配置文件)
- vi hadoop-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置hdfs-site.xml(HDFS配置文件)

vi hdfs-site.xml




dfs.replication
1



dfs.namenode.secondary.http-address
fan104:50090



dfs.webhdfs.enabled
true

配置yarn-env.sh(YARN配置文件)
- vi yarn-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置yarn-site.xml(YARN配置文件)

vi yarn-site.xml




yarn.nodemanager.aux-services
mapreduce_shuffle



yarn.resourcemanager.hostname
fan103

配置mapred-env.sh(MapReduce配置文件)
- vi mapred-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```
配置mapred-site.xml(MapReduce配置文件)
- cp mapred-site.xml.template mapred-site.xml
- vi mapred-site.xml
```
mapreduce.framework.name
yarn
```
配置slaves(服务器注册表)
- vi slaves
```
fan102
fan103
fan104
```

补充：配置HDFS存储多目录

vi hdfs-site.xml

dfs.datanode.data.dirfile:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4

如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）
- bin/hdfs namenode -format
启动HDFS
- sbin/start-dfs.sh
启动YARN
- sbin/start-yarn.sh
  注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。
查看
1. Web端查看
  - http://fan102:50070/
2. Web端查看SecondaryNameNode
  - 浏览器中输入：http://fan104:50090/status.html
3. 查看各个节点状态
  - jps
4. 当启动发生错误的时候
  1. 查看日志：/home/fan/module/hadoop-2.7.2/logs
  2. 如果进入安全模式，可以通过hdfs dfsadmin -safemode leave
  3. 停止所有进程，删除data和log文件夹，然后hdfs namenode -format 来格式化