配置Hadoop环境

1.编辑profile文件

export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/sur/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOMR=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME-$HADOOP_INSTALL

通过如上配置就可以让系统找到JDK和Hadoop的安装路径。

 

然后进入Hadoop所在的目录:

cd /usr/local/hadoop/etc/hadoop

2.编辑hadoop-env.sh文件

vim hadoop-env.sh

加入下面内容:

export JAVA_HAME=/usr/lib/jvm/jdk/

3.配置core-site.xml文件

vim core-site.xml

加入下面内容:


/*这里的值指的是默认的hdfs路径*/

fs.defultFS
hdfs://Master:9000

/*缓冲区大小:io.file.buffer.size默认是4KB*/

io.file.buffer.size
131072

/*临时文件夹路径*/

hadoop.tmp.dir
file:/home//tmp
Abase for other temporary directories. 


hadoop.proxyuser.hduser.hosts
*


hadoop.poxyuser.hduser.groups
*


4.配置yarn-site.xml文件

加入下面内容:





yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.aux-service.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler

/*resourcemanager的地址*/

yarn.resourcemanager.address
Master:8032

/*调度器的端口*/

yarn.resourcemanager.scheduler.address
Master1:8030

/*resource-tracker端口*/

yarn.resourcesmanager.resource-tracker.address
Master:8031

/*resourcemanager管理器端口*/

yarn.resourcemanager.admin.address
Master:8033

/*Resourcemanager的web端口,监控job的资源调度*/

yarn.resourcemanager.webapp.adress
Master:8088


5.配置mapred-site.xml.template文件

加入下面内容:


/*hadoop对map-duce运行框架一共提供了三种实现,在mapred-site.xml.template中通过“mapreduce.framwork.name"这个属性来设置为"classic"、"yarn"、"local"*/

mapreduce.framwork.name
yarn

/*Mapreduce JobHistory.address地址*/

mapreduce.jobhistory.address
Master:10020

/*Mapreduce jobhistory server web ui地址*/

mapreduce.jobhistory.webapp.adresss
Master:19888


6.创建namenode和 datanode文件夹目录,并配置其相应路径

注意在root模式下创建

mkdir /hdfs/namenode
mkdir /hdfs/datanode

7.返回目录/usr/local/hadoop/etc/hadoop,配置hdfs-site.xml文件,在文件中添加下面内容:


/*配置主节点名和端口号*/

dfs.namenode.secondary.http-adress
Master:9001

/*配置从节点名个端口号*/

dfs.namenode.name.dir
file:/hdfs/namenode

/*配置datanode的数据存储目录*/

dfs.datanode.data.dir
file:/hdfs/datanode

/*配置副本数*/

dfs.replication
3

/*将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS、LISTFILEDTATUS等需要列出文件、文件夹状态的命令,因为这些信息都是由namenode保存的*/

dfs.webhdfs.enabled
true

8.配置Master和Slave文件

1)Master文件负责配置主节点的主机名。例如,主节点名为Master,则需要在Master文件添加一下内容

Master /*Master为主节点主机名*/

2)配置Slave文件添加从节点主机名,这样主节点就可以通过配置文件找到从节点和从节点进行通信。例如,以Slave1~Slave5为从节点主机名,就需要在Slaves文件中添加如下信息。

/Slave*为从节点主机名*/

Slave1

Slave2

Slave3

Slave4

Slave5

9.将hadoop的所有文件通过pssh分发到各个节点

执行如下命令:

./pssh -h hosts.txt -r /hadoop /

10.格式化namenode(在Hadoop根目录下)

./bin/hadoop namenode -format

11.启动hadoop

./sbin/start-all.sh

你可能感兴趣的:(spark,大数据)