Hadoop运行环境的搭建(保姆级教学)

目录

1.1.模板虚拟机环境准备

1.1.1 VMware安装

 1.1.2 CentOS

1.1.2.1 配置电脑(选择硬件)

1.1.2.2 配置电脑安装系统  

1.1.2.3 网络配置

1.2 克隆虚拟机

 1.3 在hadoop102安装JDK

1.4 在hadoop102安装Hadoop

1.5 Hadoop目录结构


1.1.模板虚拟机环境准备

1.1.1 VMware安装

一台电脑本身是可以装多个操作系统的,但是做不到多个操作系统切换自如,所以我们需要一款软件帮助我们达到这个目的,不然数仓项目搭建不起来。

推荐的软件为VMware,VMware可以使用户在一台计算机上同时运行多个操作系统,还可以像Windows应用程序一样来回切换。用户可以如同操作真实安装的系统一样操作虚拟机系统,甚至可以在一台计算机上将几个虚拟机系统连接为一个局域网或者连接到互联网。

以下是VMware Workstation Pro 15.5的安装步骤(博客中用到的所有需要的安装程序,可以在我的百度网盘中下载,地址在评论区)

Hadoop运行环境的搭建(保姆级教学)_第1张图片

Hadoop运行环境的搭建(保姆级教学)_第2张图片

Hadoop运行环境的搭建(保姆级教学)_第3张图片

Hadoop运行环境的搭建(保姆级教学)_第4张图片

Hadoop运行环境的搭建(保姆级教学)_第5张图片

Hadoop运行环境的搭建(保姆级教学)_第6张图片

 1.1.2 CentOS

1.1.2.1 配置电脑(选择硬件)

系统的安装得分两个步骤,第一步得配置一台电脑,选配CPU,内存,磁盘,网卡等硬件。第二步才是安装系统。

双击VMware图标,看到如下界面

Hadoop运行环境的搭建(保姆级教学)_第7张图片Hadoop运行环境的搭建(保姆级教学)_第8张图片

Hadoop运行环境的搭建(保姆级教学)_第9张图片

我们先配置电脑,再安装系统。

Hadoop运行环境的搭建(保姆级教学)_第10张图片

因为不同的操作系统需要解决不同的兼容性问题,所以需要选择将来用什么系统,提前做适配 

Hadoop运行环境的搭建(保姆级教学)_第11张图片

给自己配置电脑取个名字,并存放在物理机的位置在哪。 

 Hadoop运行环境的搭建(保姆级教学)_第12张图片

 选择CPU的个数(有个原则就是选满(跟物理机的CPU个数相同,但是不能超过)

(1查看物理机CPU个数(Windows10为例)

Hadoop运行环境的搭建(保姆级教学)_第13张图片

2设置虚拟机处理器的数量

Hadoop运行环境的搭建(保姆级教学)_第14张图片

设置虚拟机的内存 

内存大小有一定要求,建议4G,不能给太多,后期会有多台虚拟机同时启动

Hadoop运行环境的搭建(保姆级教学)_第15张图片

 选择虚拟机上网方式 (选择NAT的方式)

Hadoop运行环境的搭建(保姆级教学)_第16张图片

没有VMware之前物理机的网络适配器信息(每个人不同,我只有3个)

安装VMware之后物理机的网络适配器信息(会多两个vmnet1和vmnet8) 

注:vmnet8是虚拟机使用NAT模式上网的网卡

选择对应的文件系统的IO方式 

Hadoop运行环境的搭建(保姆级教学)_第17张图片

选择磁盘的类型 

Hadoop运行环境的搭建(保姆级教学)_第18张图片

选择磁盘的种类 

Hadoop运行环境的搭建(保姆级教学)_第19张图片

 选择虚拟机的磁盘大小 

 Hadoop运行环境的搭建(保姆级教学)_第20张图片

虚拟机文件的存放位置 

Hadoop运行环境的搭建(保姆级教学)_第21张图片

 电脑配置完毕 

Hadoop运行环境的搭建(保姆级教学)_第22张图片

1.1.2.2 配置电脑安装系统  

Hadoop运行环境的搭建(保姆级教学)_第23张图片

注意:在安装系统之前需要检查自己虚拟机的bios的虚拟化是否打开(大部分的电脑都是打开的,大家可以先尝试直接安装,如果出现错误再去调试,没有出错就不用管了)

以下是查看虚拟机bios是否开启的方式

  (1)window10

Hadoop运行环境的搭建(保姆级教学)_第24张图片

(2)如果发现bios虚拟化没有开启怎么办,重启电脑,在加载界面时按f1-f10,或者电脑旁边一个小洞,具体怎么进入得去查一下(按照自己电脑的型号去查)

(3)修改虚拟化为开启(thinkpad为例)找到security 里面的VT并改成enabled

Hadoop运行环境的搭建(保姆级教学)_第25张图片

注:如果虚拟化没有开启报的是以下错误

Hadoop运行环境的搭建(保姆级教学)_第26张图片

选择cd/dvd的方式安装系统

Hadoop运行环境的搭建(保姆级教学)_第27张图片

Hadoop运行环境的搭建(保姆级教学)_第28张图片

系统安装引导界面

你得需要将鼠标点击进入界面中,但是鼠标会消失,你此刻得用键盘的上下键来控制选项,图标变白了表示当前选中的是哪个选项,然后敲回车,表示执行所选选项。

注意:如果这个时候你需要鼠标可以使用ctrl+alt一起按呼出鼠标

Hadoop运行环境的搭建(保姆级教学)_第29张图片

(1)耐心等待它的安装

Hadoop运行环境的搭建(保姆级教学)_第30张图片

(2)会自动跳转下面的界面

Hadoop运行环境的搭建(保姆级教学)_第31张图片

需要定制化的内容

按照编号依次点击

Hadoop运行环境的搭建(保姆级教学)_第32张图片

1)调整时间差

Hadoop运行环境的搭建(保姆级教学)_第33张图片

2)安装GHOME(图形化界面的方式)注意图上标注的点击顺序

Hadoop运行环境的搭建(保姆级教学)_第34张图片

3)配置磁盘分区

Hadoop运行环境的搭建(保姆级教学)_第35张图片

(1)手动添加分区

Hadoop运行环境的搭建(保姆级教学)_第36张图片

(2) 添加boot区 给上1G容量后点击添加挂载点

Hadoop运行环境的搭建(保姆级教学)_第37张图片

Hadoop运行环境的搭建(保姆级教学)_第38张图片

(3)添加swap交换分区

Hadoop运行环境的搭建(保姆级教学)_第39张图片

Hadoop运行环境的搭建(保姆级教学)_第40张图片

Hadoop运行环境的搭建(保姆级教学)_第41张图片

(4)配置根(/)目录

Hadoop运行环境的搭建(保姆级教学)_第42张图片

根目录作为存储使用,将剩下的空间都给他(50 - 4 - 1)= 45

Hadoop运行环境的搭建(保姆级教学)_第43张图片

3个分区都配置完毕过后可以点击完成

Hadoop运行环境的搭建(保姆级教学)_第44张图片

(5)分区配置完毕,点击接受更改

Hadoop运行环境的搭建(保姆级教学)_第45张图片

4)关闭kdump本身虚拟机内存就不够,他会吃掉一部分内存,我们尽量省一点

Hadoop运行环境的搭建(保姆级教学)_第46张图片

5)修改主机名

Hadoop运行环境的搭建(保姆级教学)_第47张图片

6)是否打开安全协议(开启与否都可以)

Hadoop运行环境的搭建(保姆级教学)_第48张图片

7)开始安装

Hadoop运行环境的搭建(保姆级教学)_第49张图片

8)安装时间比较长,大概需要10几分钟(设置root用户密码,一定要设置)

Hadoop运行环境的搭建(保姆级教学)_第50张图片

密码设置成什么自己决定,但是不要忘 建议使用(000000)

Hadoop运行环境的搭建(保姆级教学)_第51张图片

 

 虚拟机的使用引导界面

安装完成 重启虚拟机

Hadoop运行环境的搭建(保姆级教学)_第52张图片

2)进入引导界面(以下内容就按照图片走,就不做过多解释)

Hadoop运行环境的搭建(保姆级教学)_第53张图片

Hadoop运行环境的搭建(保姆级教学)_第54张图片

Hadoop运行环境的搭建(保姆级教学)_第55张图片

Hadoop运行环境的搭建(保姆级教学)_第56张图片

Hadoop运行环境的搭建(保姆级教学)_第57张图片

Hadoop运行环境的搭建(保姆级教学)_第58张图片

Hadoop运行环境的搭建(保姆级教学)_第59张图片

Hadoop运行环境的搭建(保姆级教学)_第60张图片

Hadoop运行环境的搭建(保姆级教学)_第61张图片

Hadoop运行环境的搭建(保姆级教学)_第62张图片

安装完成

 切换root用户

Hadoop运行环境的搭建(保姆级教学)_第63张图片

1)切换root用户 

Hadoop运行环境的搭建(保姆级教学)_第64张图片

Hadoop运行环境的搭建(保姆级教学)_第65张图片

Hadoop运行环境的搭建(保姆级教学)_第66张图片

刚才的引导再来一遍(就不再放图片了)

1.1.2.3 网络配置

对安装好的VMware进行网络配置,方便虚拟机连接网络,本次设置建议选择NAT模式,需要宿主机的Windows和虚拟机的Linux能够进行网络连接,同时虚拟机的Linux可以通过宿主机的Windows进入互联网。

1  编辑VMware的网络配置

Hadoop运行环境的搭建(保姆级教学)_第67张图片

Hadoop运行环境的搭建(保姆级教学)_第68张图片

Hadoop运行环境的搭建(保姆级教学)_第69张图片

Hadoop运行环境的搭建(保姆级教学)_第70张图片

然后全部点击确定,VMware的网络配置就好了。

2. Windows的网络配置

以下以Window10为例

1)找到

Hadoop运行环境的搭建(保姆级教学)_第71张图片

Hadoop运行环境的搭建(保姆级教学)_第72张图片

Hadoop运行环境的搭建(保姆级教学)_第73张图片

Hadoop运行环境的搭建(保姆级教学)_第74张图片

Hadoop运行环境的搭建(保姆级教学)_第75张图片

Hadoop运行环境的搭建(保姆级教学)_第76张图片

按如上格式修改IP信息(地址,网关,DNS服务器),修改完毕后全部点击确定退出。

虚拟机网络IP修改地址配置

1)修改网络IP地址为静态IP地址,避免IP地址经常变化,从而方便节点服务器间的互相通信。

[root@hadoop100 ~]#vim /etc/sysconfig/network-scripts/ifcfg-ens33

2)以下加粗的项必须修改,有值的按照下面的值修改,没有该项的则需要增加。

TYPE="Ethernet"    #网络类型(通常是Ethemet

PROXY_METHOD="none"

BROWSER_ONLY="no"

BOOTPROTO="static"   #IP的配置方法[none|static|bootp|dhcp](引导时不使用协议|静态分配IP|BOOTP协议|DHCP协议)

DEFROUTE="yes"

IPV4_FAILURE_FATAL="no"

IPV6INIT="yes"

IPV6_AUTOCONF="yes"

IPV6_DEFROUTE="yes"

IPV6_FAILURE_FATAL="no"

IPV6_ADDR_GEN_MODE="stable-privacy"

NAME="ens33"  

UUID="e83804c1-3257-4584-81bb-660665ac22f6"   #随机id

DEVICE="ens33"   #接口名(设备,网卡)

ONBOOT="yes"   #系统启动的时候网络接口是否有效(yes/no

#IP地址

IPADDR=192.168.10.100 

#网关 

GATEWAY=192.168.10.2     

#域名解析器

DNS1=192.168.10.2

3)修改IP地址后的结果如图所示,执行“:wq”命令,保存退出

Hadoop运行环境的搭建(保姆级教学)_第77张图片

4)执行systemctl restart network命令,重启网络服务。如果报错,则执行“reboot”命令,重启虚拟机

[root@hadoop100 ~]# systemctl restart network

5)使用ifconfig命令查看当前IP

[root@hadoop100 ~]# ifconfig

Hadoop运行环境的搭建(保姆级教学)_第78张图片

6)保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同 

3 修改主机名和hosts文件

1)修改主机名称

[root@hadoop100 ~]# vim /etc/hostname

hadoop100

2)配置Linux克隆机主机名称映射hosts文件,打开/etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

3)重启虚拟机机hadoop100

[root@hadoop100 ~]# reboot

hadoop100虚拟机配置要求如下(本文Linux系统全部以CentOS-7.5-x86-1804为例)

(1)使用yum安装需要虚拟机可以正常上网,yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com

PING www.baidu.com (14.215.177.39) 56(84) bytes of data.

64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms

64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

(2)安装epel-release

注:Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数rpm包在官方 repository 中是找不到的)

[root@hadoop100 ~]# yum install -y epel-release

3)注意:如果Linux安装的是最小系统版,还需要安装如下工具;如果安装的是Linux桌面标准版,不需要执行如下操作

  • net-tool:工具包集合,包含ifconfig等命令

[root@hadoop100 ~]# yum install -y net-tools

  • vim:编辑器

[root@hadoop100 ~]# yum install -y vim

2)关闭防火墙,关闭防火墙开机自启

[root@hadoop100 ~]# systemctl stop firewalld

[root@hadoop100 ~]# systemctl disable firewalld.service

       注意:在企业开发时,通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙

3)创建atguigu用户,并修改atguigu用户的密码

[root@hadoop100 ~]# useradd atguigu

[root@hadoop100 ~]# passwd atguigu

4)配置atguigu用户具有root权限,方便后期加sudo执行root权限的命令

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:

## Allow root to run any commands anywhere

root    ALL=(ALL)     ALL

## Allows people in group wheel to run all commands

%wheel  ALL=(ALL)       ALL

atguigu   ALL=(ALL)     NOPASSWD:ALL

注意:atguigu这一行不要直接放到root行下面,因为所有用户都属于wheel组,你先配置了atguigu具有免密功能,但是程序执行到%wheel行时,该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面。

5)在/opt目录下创建文件夹,并修改所属主和所属组

(1)在/opt目录下创建module、software文件夹

[root@hadoop100 ~]# mkdir /opt/module

[root@hadoop100 ~]# mkdir /opt/software

       (2)修改module、software文件夹的所有者和所属组均为atguigu用户

[root@hadoop100 ~]# chown atguigu:atguigu /opt/module

[root@hadoop100 ~]# chown atguigu:atguigu /opt/software

(3)查看module、software文件夹的所有者和所属组

[root@hadoop100 ~]# cd /opt/

[root@hadoop100 opt]# ll

总用量 12

drwxr-xr-x. 2 atguigu atguigu 4096 5  28 17:18 module

drwxr-xr-x. 2 root    root    4096 9   7 2017 rh

drwxr-xr-x. 2 atguigu atguigu 4096 5  28 17:18 software

6)卸载虚拟机自带的JDK

       注意:如果你的虚拟机是最小化安装不需要执行这一步。

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

  • rpm -qa:查询所安装的所有rpm软件包
  • grep -i:忽略大小写
  • xargs -n1:表示每次只传递一个参数
  • rpm -e –nodeps:强制卸载软件

7)重启虚拟机

[root@hadoop100 ~]# reboot

1.2 克隆虚拟机

1)利用模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104

       注意:克隆时,要先关闭hadoop100

2)修改克隆机IP,以下以hadoop102举例说明

(1)修改克隆虚拟机的静态IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

DEVICE=ens33

TYPE=Ethernet

ONBOOT=yes

BOOTPROTO=static

NAME="ens33"

IPADDR=192.168.10.102

PREFIX=24

GATEWAY=192.168.10.2

DNS1=192.168.10.2

(2)查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8

Hadoop运行环境的搭建(保姆级教学)_第79张图片

Hadoop运行环境的搭建(保姆级教学)_第80张图片

(3)查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

Hadoop运行环境的搭建(保姆级教学)_第81张图片

(4)保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。

3)修改克隆机主机名,以下以hadoop102举例说明

       1)修改主机名称

[root@hadoop100 ~]# vim /etc/hostname

hadoop102

2)配置Linux克隆机主机名称映射hosts文件,打开/etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

4)重启克隆机hadoop102

[root@hadoop100 ~]# reboot

修改windows的主机映射文件(hosts文件)

1)如果操作系统是window7,可以直接修改

       (a)进入C:\Windows\System32\drivers\etc路径

       (b)打开hosts文件并添加如下内容,然后保存

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

(2)如果操作系统是window10,先拷贝出来,修改保存以后,再覆盖即可

(a)进入C:\Windows\System32\drivers\etc路径

(b)拷贝hosts文件到桌面

(c)打开桌面hosts文件并添加如下内容

192.168.10.100 hadoop100

192.168.10.101 hadoop101

192.168.10.102 hadoop102

192.168.10.103 hadoop103

192.168.10.104 hadoop104

192.168.10.105 hadoop105

192.168.10.106 hadoop106

192.168.10.107 hadoop107

192.168.10.108 hadoop108

(d)将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件

 hadoop103和hadoop104的克隆也是同理

 1.3 在hadoop102安装JDK

1)卸载现有JDK

注意:安装JDK前,一定确保提前删除了虚拟机自带的JDK详细步骤见问文档3.1节中卸载JDK步骤。

2)用XShell传输工具将JDK导入到opt目录下面的software文件夹下面

Hadoop运行环境的搭建(保姆级教学)_第82张图片

3)在Linux系统下的opt目录中查看软件包是否导入成功

[atguigu@hadoop102 ~]$ ls /opt/software/

看到如下结果:

jdk-8u212-linux-x64.tar.gz

4)解压JDK到/opt/module目录下

[atguigu@hadoop102 software]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

5)配置JDK环境变量

       (1)新建/etc/profile.d/my_env.sh文件

[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME

export JAVA_HOME=/opt/module/jdk1.8.0_212

export PATH=$PATH:$JAVA_HOME/bin

       (2)保存后退出

:wq

       (3)source一下/etc/profile文件,让新的环境变量PATH生效

[atguigu@hadoop102 ~]$ source /etc/profile

6)测试JDK是否安装成功

[atguigu@hadoop102 ~]$ java -version

如果能看到以下结果,则代表Java安装成功。

java version "1.8.0_212"

注意:重启(如果java -version可以用就不用重启)

[atguigu@hadoop102 ~]$ sudo reboot

1.4 在hadoop102安装Hadoop

Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

1)用XShell文件传输工具将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面

Hadoop运行环境的搭建(保姆级教学)_第83张图片

2)进入到Hadoop安装包路径下

[atguigu@hadoop102 ~]$ cd /opt/software/

3)解压安装文件到/opt/module下面

[atguigu@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

4)查看是否解压成功

[atguigu@hadoop102 software]$ ls /opt/module/

hadoop-3.1.3

5)将Hadoop添加到环境变量

       (1)获取Hadoop安装路径

[atguigu@hadoop102 hadoop-3.1.3]$ pwd

/opt/module/hadoop-3.1.3

       (2)打开/etc/profile.d/my_env.sh文件

[atguigu@hadoop102 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh

  • 在my_env.sh文件末尾添加如下内容:(shift+g)

#HADOOP_HOME

export HADOOP_HOME=/opt/module/hadoop-3.1.3

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

  • 保存并退出: :wq

       (3)让修改后的文件生效

[atguigu@hadoop102 hadoop-3.1.3]$ source /etc/profile

6)测试是否安装成功

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop version

Hadoop 3.1.3

7)重启(如果Hadoop命令不能用再重启虚拟机)

[atguigu@hadoop102 hadoop-3.1.3]$ sudo reboot

1.5 Hadoop目录结构

1)查看Hadoop目录结构

[atguigu@hadoop102 hadoop-3.1.3]$ ll

总用量 52

drwxr-xr-x. 2 atguigu atguigu  4096 5  22 2017 bin

drwxr-xr-x. 3 atguigu atguigu  4096 5  22 2017 etc

drwxr-xr-x. 2 atguigu atguigu  4096 5  22 2017 include

drwxr-xr-x. 3 atguigu atguigu  4096 5  22 2017 lib

drwxr-xr-x. 2 atguigu atguigu  4096 5  22 2017 libexec

-rw-r--r--. 1 atguigu atguigu 15429 5  22 2017 LICENSE.txt

-rw-r--r--. 1 atguigu atguigu   101 5  22 2017 NOTICE.txt

-rw-r--r--. 1 atguigu atguigu  1366 5  22 2017 README.txt

drwxr-xr-x. 2 atguigu atguigu  4096 5  22 2017 sbin

drwxr-xr-x. 4 atguigu atguigu  4096 5  22 2017 share

2)重要目录

(1)bin目录:存放对Hadoop相关服务(hdfs,yarn,mapred)进行操作的脚本

(2)etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件

(3)lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)

(4)sbin目录:存放启动或停止Hadoop相关服务的脚本

(5)share目录:存放Hadoop的依赖jar包、文档、和官方案例

注:这篇博客是根据学习尚硅谷hadoop相关课程后总结出来的hadoop运行环境搭建的详细教学,希望能够帮到大家,同时,希望大家能够在数据分析这条路上越走越好,前程似锦!!!

你可能感兴趣的:(hadoop,hadoop,大数据,big,data)