Hadoop教程(二)Hadoop伪集群环境安装

 

 

Hadoop教程()Hadoop伪集群环境安装

 

1 Hadoop伪分布式安装


1.1 相关下载

1、JDK下载地址:jdk-8u66-linux-x64.tar.gz

Linux安装JDK及环境变量配置,参见:http://blog.csdn.net/yuan_xw/article/details/49948285

 

2、Hadoop下载:hadoop-2.7.1.tar.gz


1.2 上传服务器


1、下载完成后,使用Xftp软件上传到Linux服务器上:/usr/local/software

执行命令:mkdir /usr/local/software


 

2、Xshell命令行进行解压安装:

执行命令:cd /usr/local/software 切换目录


执行命令:tar -zxvf hadoop-2.7.1.tar.gz解压


 

3、重命名hadoop_2.7.1,执行命令:mv hadoop-2.7.1 hadoop_2.7.1

 

4、Hadoop目录说明:

1. bin:Hadoop最基本的管理脚本和使用脚本所在目录

2. etc:Hadoop配置文件所在的目录,包括core-site.xmlhdfs-site.xmlmapred-site.xml

3. include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++语言访问HDFS或者编写MapReduce程序

4. lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。

5. libexec:各个服务对应的Shell配置文件所在目录,可用于配置日志输出目录、启动参数(比如JVM参数)等基本信息。

6. sbinHadoop管理脚本所在目录,主要包含HDFSYARN中各类服务的启动/关闭脚本。

7. shareHadoop各个模块编译后的JAR包所在目录。


1.3 环境变量

1、HADOOP_HOME:环境变量它指向Hadoop的安装目录,如:/usr/local/software/hadoop_2.7.1


2、PATH环境变量:作用是指定命令搜索路径,在shell下面执行命令时,它会到PATH变量所指定的路径中查找看是否能找到相应的命令程序。


3、修改profilie文件:执行命令:vi /etc/profile

export JAVA_HOME=/usr/local/software/jdk1.8.0_66

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_HOME=/usr/local/software/hadoop_2.7.1

export PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH


执行命令:source /etc/profile   刷新环境变量


1.4 CentOS7环境配置

1、修改HOSTNAME(主机名):

将主机名改为:Hadoop1执行命令:vi /etc/hostname

验证:重启

 

2、IPhostname绑定:

修改文件,执行命令:vi /etc/hosts

添加一行代码:192.168.10.121 Hadoop1

验证:ping Hadoop1

 

3、关闭防火墙:

CentOS 7RHEL 7Fedora中防火墙由firewalld来管理,当然你可以还原传统的管理方式。或则使用新的命令进行管理。

新的命令管理:

1.执行命令:systemctl stop firewalld

传统的管理方式:

1.安装iptables-services命令

yum install iptables-services

2.设置开机启动:service iptables [stop|start|restart]

service iptables save

# or

/usr/libexec/iptables/iptables.initsave

     验证:service iptables status

 

4、关闭防火墙自动运行:

执行命令:systemctl disable iptables.service

验证:systemctl list-unit-files |grep iptables

 

5、免密码登录:

产生密钥,执行命令:ssh-keygen -t rsa,连续按4次回车,密钥文件位于~/.ssh文件

执行命令:cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

      验证:ssh localhost

 

1.5 修改配置文件:

1、修改hadoop-env.sh配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/hadoop-env.sh

修改内容:

export JAVA_HOME=/usr/local/software/jdk1.8.0_66

 

2、修改core-site.xml配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/core-site.xml

修改内容:

	<configuration>
		<!--指定NameNode的master节点URL地址 -->
		<property>
			<name>fs.defaultFS</name>
			<value>hdfs://Hadoop1:9000</value>
		</property>
	
		<!-- Hadoop的运行时文件存放路径,如果不存在此目录需要格式化 -->
		<property>
			<name>hadoop.tmp.dir</name>
			<value>/usr/local/software/hadoop_2.7.1/tmp</value>
		</property>
	</configuration>

3、修改hdfs-site.xml配置文件:

执行命令:

vi /usr/local/software/hadoop_2.7.1/etc/hadoop/hdfs-site.xml

修改内容:

	<configuration>
		<!-- 配置副本的数量 -->
		<property>
			<name>dfs.replication</name>
			<value>1</value>
		</property>		
	</configuration>

4、修改mapred-site.xml配置文件:

执行命令:

切换目录:cd /usr/local/software/hadoop_2.7.1/etc/hadoop/

重命名:mv mapred-site.xml.template  mapred-site.xml

     修改文件:vi mapred-site.xml

修改内容:

	<configuration>
		<!-- 指定Hadoop的MapReduce运行在YARN环境 -->
		<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
		</property>
	</configuration>

5、修改yarn-site.xml配置文件:

执行命令:

   vi /usr/local/software/hadoop_2.7.1/etc/hadoop/yarn-site.xml

修改内容:

	<configuration>
		<!-- NodeManager获取数据方式:shuffle -->
		<property>
			<name>yarn.nodemanager.aux-services</name>
			<value>mapreduce_shuffle</value>
		</property>
	
		<!--指定YARN的master节点( ResourceManager) 的地址 -->
		<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>Hadoop1</value>
		</property>
	</configuration>

1.6 格式化文件系统:

HDFS文件系统进行格式化,执行命令:。

# hadoop namenode –formate(已过时)

hdfs namenode –format推荐使用

 

验证:提示如下信息表示成功:

Hadoop教程(二)Hadoop伪集群环境安装_第1张图片

INFO common.Storage: Storagedirectory /usr/local/software/hadoop_2.7.1/tmp/dfs/name has been successfullyformatted.

 

1.7 启动Hadoop

1、启动HDFSYARN:

切换目录:cd /usr/local/software/hadoop_2.7.1/sbin/

启动HDFSYARN,执行命令:

./start-all.sh (已过时:Thisscript is Deprecated. Instead use start-dfs.shandstart-yarn.sh)


 

2、验证启动HDFSYARN:


SecondaryNameNode:它不是 namenode的冗余守护进程,而是提供周期检查点和清理任务。

DataNode:它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个 datanode守护进程。

 

ResourceManager:接收客户端任务请求,接收和监控NodeManager(NM)的资源情况汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM)

 

JpsJDK提供查看当前java进程的小工具。

 

NameNode:它是Hadoop中的主服务器,管理文件系统名称空间和对集群中存储的文件的访问。

 

NodeManager:NodeManagerNM)是YARN中每个节点上的代理,它管理Hadoop集群中单个计算节点,包括与ResourceManger保持通信,监Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务(auxiliaryservice)。

 

1.8 访问Hadoop服务页面:

访问地址验证启动服务,访问地址:

HDFS管理界面:http://192.168.10.121:50070/

Hadoop教程(二)Hadoop伪集群环境安装_第2张图片


YARN管理界面:http://192.168.10.121:8088/



                --以上为《Hadoop教程(二)Hadoop伪集群环境安装》,如有不当之处请指出,我后续逐步完善更正,大家共同提高。谢谢大家对我的关注。

                                                                                                                                                                                      ——厚积薄发(yuanxw)


你可能感兴趣的:(Hadoop教程(二)Hadoop伪集群环境安装)