(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建

**

Hadoop安装与伪分布式集群搭建

一. 安装JDK
https://blog.csdn.net/weixin_45873289/article/details/104945583
注:这链接里面还有jdk和hadoop安装包
二. 安装Hadoop
在这里插入图片描述
输入tar -zxvf hadoop-3.1.0.tar.gz 解压hadoop安装包(这里需要注意安装包的名称是否正确)*
(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建_第1张图片
解压成功
三. 配置Hadoop环境*
设置SSH免密登录
在之后操作集群的时候我们需要经常登录主机和从机,所以设置SSH免密登录时有必要的。
输入如下代码:

 ssh-keygen -t rsa -P ''

生成无密码密钥对,询问保存路径直接输入回车,生成密钥对:id_rsa和id_rsa.pub,默认存储在~/.ssh目录下。

接下来:把id_rsa.pub追加到授权的key里面去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

然后修改权限:

chmod 600 ~/.ssh/authorized_keys

接着需要启用RSA认证,启动公钥私钥配对认证方式:

vim /etc/ssh/sshd_config 如果提示权限不足在命令前加上sudo;

	1.修改ssh配置:
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile %h/.ssh/authorized_keys # 公钥文件路径

重启 SSH

			service ssh restart

好了准备工作已经做完了,我们要开始修改 Hadoop 的配置文件了,总共需要修改 6 个文件。分别是:

  • hadoop-env.sh;

  • yarn-env.sh ;

  • core-site.xml;

  • hdfs-site.xml;

  • mapred-site.xml;

  • yarn-site.xml。

  1. hadoop-env.sh 配置:
    在这里插入图片描述
    编辑 hadoop-env.sh在文件中插入如下代码:
**# The java implementation to use.**    
export JAVA_HOME=/java/jdk1.8.0_171   #这里是你jdk的安装路径
  1. yarn-env.sh 配置
    编辑yarn-env.sh 插入如下代码:
 export JAVA_HOME=/java/jdk1.8.0_171  #这里也是jdk的路径

3. core-site.xml配置
这个是核心配置文件我们需要在该文件中加入 HDFS 的 URI 和 NameNode 的临时文件夹位置,这个临时文件夹在下文中会创建。

在文件末尾的configuration标签中添加代码如下:

<configuration>  
 <property>  
    <name>fs.default.name</name>  
    <value>hdfs://localhost:9000  
    <description>HDFSURI,文件系统://namenode标识:端口号  
</property>  
<property>  
    <name>hadoop.tmp.dir</name>  
    <value>/usr/hadoop/tmp</value>  
    <description>namenode上本地的hadoop临时文件夹</description>  
</property>  
</configuration>  

4. hdfs-site.xml文件配置

<configuration>  
<property>  
    <name>dfs.name.dir</name>  
    <value>/usr/hadoop/hdfs/name</value>  
    <description>namenode上存储hdfs名字空间元数据 </description>   
</property>  
<property>  
    <name>dfs.data.dir</name>  
    <value>/usr/hadoop/hdfs/data</value>  
    <description>datanode上数据块的物理存储位置</description>  
</property>  
<property>  
    <name>dfs.replication</name>  
    <value>1</value>  
</property>  
</configuration>  

5. mapred-site.xml文件配置

	<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

6. yarn-site.xml配置

 <configuration>  
<property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
</property>  
<property>  
        <name>yarn.resourcemanager.webapp.address</name>  
        <value>192.168.2.10:8099</value>  
        <description>这个地址是mr管理界面的</description>  
</property>  
</configuration> 
			**

创建文件夹

**
我们在配置文件中配置了一些文件夹路径,现在我们来创建他们,在/usr/hadoop/目录下使用hadoop用户操作,建立tmp、hdfs/name、hdfs/data目录,执行如下命令:

mkdir -p /usr/hadoop/tmp 
mkdir /usr/hadoop/hdfs 
mkdir /usr/hadoop/hdfs/data 
mkdir /usr/hadoop/hdfs/name

将Hadoop添加到环境变量中

将Hadoop添加到环境变量中

vim /etc/profile

在文件末尾插入如下代码:

在这里插入图片描述

最后使修改生效:source /etc/profile

验证

现在配置工作已经基本搞定,接下来只需要完成:1.格式化 HDFS 文件、2.启动hadoop、3.验证 Hadoop 即可。

格式化

在使用 Hadoop 之前我们需要格式化一些hadoop的基本信息。

使用如下命令:

hadoop namenode -format

出现如下界面代表成功:
(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建_第2张图片
启动Hadoop

start-dfs.sh

如果输入命令应该会出现如下图界面:
(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建_第3张图片在/hadoop3.1/sbin路径下:
将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

还有,start-yarn.sh,stop-yarn.sh顶部也需添加以下:

#!/usr/bin/env bash
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

再次启动start-dfs.sh,最后输入命令 jps 验证,出现如下界面代表启动成功:
在这里插入图片描述
在你虚拟机的图形化界面中打开火狐浏览器输入:http://localhost:9870/ 或者在 windows 机器上输入http://虚拟机ip地址:9870/ 也可以访问 Hadoop 的管理页面。

:hadoop2.0版本开头的端口号是50070;hadoop3.0开头的是9870

(二) 配置开发环境 - Hadoop安装与伪分布式集群搭建_第4张图片
搭建成功

你可能感兴趣的:(hadoop,分布式,大数据)