1.编辑profile文件
export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/sur/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOMR=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME-$HADOOP_INSTALL
通过如上配置就可以让系统找到JDK和Hadoop的安装路径。
然后进入Hadoop所在的目录:
cd /usr/local/hadoop/etc/hadoop
2.编辑hadoop-env.sh文件
vim hadoop-env.sh
加入下面内容:
export JAVA_HAME=/usr/lib/jvm/jdk/
3.配置core-site.xml文件
vim core-site.xml
加入下面内容:
/*这里的值指的是默认的hdfs路径*/
fs.defultFS
hdfs://Master:9000
/*缓冲区大小:io.file.buffer.size默认是4KB*/
io.file.buffer.size
131072
/*临时文件夹路径*/
hadoop.tmp.dir
file:/home//tmp
Abase for other temporary directories.
hadoop.proxyuser.hduser.hosts
*
hadoop.poxyuser.hduser.groups
*
4.配置yarn-site.xml文件
加入下面内容:
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-service.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
/*resourcemanager的地址*/
yarn.resourcemanager.address
Master:8032
/*调度器的端口*/
yarn.resourcemanager.scheduler.address
Master1:8030
/*resource-tracker端口*/
yarn.resourcesmanager.resource-tracker.address
Master:8031
/*resourcemanager管理器端口*/
yarn.resourcemanager.admin.address
Master:8033
/*Resourcemanager的web端口,监控job的资源调度*/
yarn.resourcemanager.webapp.adress
Master:8088
5.配置mapred-site.xml.template文件
加入下面内容:
/*hadoop对map-duce运行框架一共提供了三种实现,在mapred-site.xml.template中通过“mapreduce.framwork.name"这个属性来设置为"classic"、"yarn"、"local"*/
mapreduce.framwork.name
yarn
/*Mapreduce JobHistory.address地址*/
mapreduce.jobhistory.address
Master:10020
/*Mapreduce jobhistory server web ui地址*/
mapreduce.jobhistory.webapp.adresss
Master:19888
6.创建namenode和 datanode文件夹目录,并配置其相应路径
注意在root模式下创建
mkdir /hdfs/namenode
mkdir /hdfs/datanode
7.返回目录/usr/local/hadoop/etc/hadoop,配置hdfs-site.xml文件,在文件中添加下面内容:
/*配置主节点名和端口号*/
dfs.namenode.secondary.http-adress
Master:9001
/*配置从节点名个端口号*/
dfs.namenode.name.dir
file:/hdfs/namenode
/*配置datanode的数据存储目录*/
dfs.datanode.data.dir
file:/hdfs/datanode
/*配置副本数*/
dfs.replication
3
/*将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILEDTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode保存的*/
dfs.webhdfs.enabled
true
8.配置Master和Slave文件
1)Master文件负责配置主节点的主机名。例如,主节点名为Master,则需要在Master文件添加一下内容
Master /*Master为主节点主机名*/
2)配置Slave文件添加从节点主机名,这样主节点就可以通过配置文件找到从节点和从节点进行通信。例如,以Slave1~Slave5为从节点主机名,就需要在Slaves文件中添加如下信息。
/Slave*为从节点主机名*/
Slave1
Slave2
Slave3
Slave4
Slave5
9.将hadoop的所有文件通过pssh分发到各个节点
执行如下命令:
./pssh -h hosts.txt -r /hadoop /
10.格式化namenode(在Hadoop根目录下)
./bin/hadoop namenode -format
11.启动hadoop
./sbin/start-all.sh