Hadoop入门(一)

1. Hahoop概述

1.1 Hodoop是什么

  1. Hadoop是一个有Apache基金会所开发的分布式系统基础架构

  2. 主要解决海量数据的存储和海量数据的分析计算问题

  3. 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

1.2 Hadoop优势

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

  2. 高扩展性:在集群间分配任务数据,可方便地扩展数以千计的节点。

  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

  4. 高容错性:能够自动将失败的任务重新分配。

1.3 Hadoop组成

Hadoop1.x组成:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)

Hadoop2.x组成:Common(辅助工具)、HDFS(数据存储)、Yarn(资源调度)、MapReduce(计算)

在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。

在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

Hadoop3.x时代在组成上没有变化。

1.3.1 HDFS 架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表块所在的DataNode等。

  2. DataNode(dn):本地文件系统存储文件块数据,以及快数据的校验和

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

1.3.2 YARN 架构概述

一种资源协调者,是Hadoop的资源管理器。

  1. ResourceManager(RM):整个集群资源(内存、CPU等)的老大

  2. NodeManage(NM):单个节点服务器的老大

  3. ApplicationMaster(AM):单个任务运行的老大

  4. Container :容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等

1.3.3 MapReduce架构概述

MapReduce将计算过程分为俩个阶段:Map和Reduce

  1. Map阶段并行处理输入数据

  2. Reduce阶段对Map结果进行汇总

Hadoop入门(一)_第1张图片

2. Hadoop运行环境搭建

2.1 虚拟机环境准备

2.1.1 安装 Cent OS 7

Hadoop入门(一)_第2张图片
Hadoop入门(一)_第3张图片
Hadoop入门(一)_第4张图片
Hadoop入门(一)_第5张图片
Hadoop入门(一)_第6张图片
Hadoop入门(一)_第7张图片
Hadoop入门(一)_第8张图片
Hadoop入门(一)_第9张图片
Hadoop入门(一)_第10张图片
Hadoop入门(一)_第11张图片
Hadoop入门(一)_第12张图片
Hadoop入门(一)_第13张图片
Hadoop入门(一)_第14张图片
Hadoop入门(一)_第15张图片
Hadoop入门(一)_第16张图片
现在呢,只是相当于把 “硬件(类型与组装了一台电脑,只不过这台电脑是虚拟的)” 安装完成。接下来,安装 "软件"
Hadoop入门(一)_第17张图片
Hadoop入门(一)_第18张图片
Hadoop入门(一)_第19张图片
进去之后直接敲回车,然后等待安装

Hadoop入门(一)_第20张图片
Hadoop入门(一)_第21张图片
Hadoop入门(一)_第22张图片
Hadoop入门(一)_第23张图片
Hadoop入门(一)_第24张图片
Hadoop入门(一)_第25张图片
Hadoop入门(一)_第26张图片
Hadoop入门(一)_第27张图片

Hadoop入门(一)_第28张图片
Hadoop入门(一)_第29张图片
Hadoop入门(一)_第30张图片
Hadoop入门(一)_第31张图片
Hadoop入门(一)_第32张图片
在这里插入图片描述

Hadoop入门(一)_第33张图片
Hadoop入门(一)_第34张图片
Hadoop入门(一)_第35张图片
Hadoop入门(一)_第36张图片
Hadoop入门(一)_第37张图片
Hadoop入门(一)_第38张图片
Hadoop入门(一)_第39张图片
Hadoop入门(一)_第40张图片
Hadoop入门(一)_第41张图片
Hadoop入门(一)_第42张图片
Hadoop入门(一)_第43张图片
Hadoop入门(一)_第44张图片
Hadoop入门(一)_第45张图片
Hadoop入门(一)_第46张图片
Hadoop入门(一)_第47张图片
Hadoop入门(一)_第48张图片

Hadoop入门(一)_第49张图片
Hadoop入门(一)_第50张图片
Hadoop入门(一)_第51张图片

2.1.2 配置IP

点击左上角的编辑 ——> 虚拟网络编辑器

Hadoop入门(一)_第52张图片
Hadoop入门(一)_第53张图片
Hadoop入门(一)_第54张图片
Hadoop入门(一)_第55张图片
Hadoop入门(一)_第56张图片

然后在 Windows 系统上找到 VMware Network Adapter VMnet8 编辑 IPv4 修改如下:(我的是win11系统,win7,win10的右击右下方的网络图标就可以)

Hadoop入门(一)_第57张图片
Hadoop入门(一)_第58张图片
Hadoop入门(一)_第59张图片

2.1.3 配置主机名称映射

Hadoop入门(一)_第60张图片
Hadoop入门(一)_第61张图片
Hadoop入门(一)_第62张图片
Hadoop入门(一)_第63张图片
Hadoop入门(一)_第64张图片

2.2 Xshell 远程访问

Xshell的安装教程我就不写了。

Xshell 远程连接服务器

Hadoop入门(一)_第65张图片
Hadoop入门(一)_第66张图片
Hadoop入门(一)_第67张图片
Hadoop入门(一)_第68张图片
修改主机映射 进入 C:\Windows\System32\drivers\etc 路径
Hadoop入门(一)_第69张图片
Hadoop入门(一)_第70张图片

这么做的目的是为了方面我们后面在Xshell 中的远程连接,以后再创建远程连接时,就不需要输出ip了,直接输入主机名就好,效果如下:

Hadoop入门(一)_第71张图片
Hadoop入门(一)_第72张图片
Hadoop入门(一)_第73张图片
Hadoop入门(一)_第74张图片

2.3 Xftp 远程传输工具

Xftp 的安装过程我也就不写,无脑下一步就好,记着更改安装目录就好。

2.4 安装 epel-release

注:Extra Package for Enterprise Linux 是为"红帽系"的操作系统提供额外的软件包,适用于 RHEL、CentOS和Scientific Linux。相当于一个软件仓库,大多数 rpm 包再官方 repository 中是找不到的 (说白了就是一个类似于补丁的一个东西)

Hadoop入门(一)_第75张图片

输入命令:yum install -y epel-release

Hadoop入门(一)_第76张图片

出现以下操作,则成功。若出现错误: 某某PID被锁定,则通过命令 kill -9 进程号 杀死进程,然后再从新执行以上命令。

在这里插入图片描述

2.5 关闭防火强,关闭防火墙开机自启

输入命令:

systemctl stop firewalld

Hadoop入门(一)_第77张图片

systemctl disable firewalld.service

Hadoop入门(一)_第78张图片

2.6 配置tom用户具有root权限,方便后期加sudo执行root权限的命令

vim /etc/sudoers

Hadoop入门(一)_第79张图片

修改/etc/sudoers文件,在%wheel这行下面添加一行,如下所示:
Hadoop入门(一)_第80张图片
Hadoop入门(一)_第81张图片
Hadoop入门(一)_第82张图片
Hadoop入门(一)_第83张图片
Hadoop入门(一)_第84张图片
Hadoop入门(一)_第85张图片
在这里插入图片描述

2.7 卸载自带的 JDK

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

参数解读:
rpm -qa:查询所安装的所以rpm软件包
grep -i:忽略大小写
xargs -n1:表示每次只传递一个参数
rpm -e --nodeps:强制卸载软件

Hadoop入门(一)_第86张图片
Hadoop入门(一)_第87张图片

2.8 克隆虚拟机

克隆虚拟器前,一定要关闭!!右击虚拟机 ——>电源——>关闭客户机

右击虚拟机 ——>管理——>克隆

Hadoop入门(一)_第88张图片
Hadoop入门(一)_第89张图片
Hadoop入门(一)_第90张图片
Hadoop入门(一)_第91张图片

重复以上操作,在克隆一个 Hadoop03和Hadoop04

打开Hadoop02按以下操作修改

Hadoop入门(一)_第92张图片
Hadoop入门(一)_第93张图片
Hadoop入门(一)_第94张图片
Hadoop入门(一)_第95张图片

然后执行 reboot 重启虚拟机

按照以上操作将Hadoop03和Hadoop04 的ip和主机名 修改为对应 03和04

注意:以上所有虚拟机 reboot后 建议查询IP和主机名是否修改成功,并且要保证每一台都能ping通 www.baidu.com

确保无误后,将每一台虚拟机通过Xshell进行连接
Hadoop入门(一)_第96张图片
Hadoop入门(一)_第97张图片

确保每一个都能连接成功

2.9 安装JDK

在Hadoop01中安装JDK,剩下的02、03、04 我们会通过拷贝的方式进行安装JDK

Hadoop入门(一)_第98张图片
Hadoop入门(一)_第99张图片
Hadoop入门(一)_第100张图片

拖拽完成后,关掉就可以了

Hadoop入门(一)_第101张图片
Hadoop入门(一)_第102张图片
Hadoop入门(一)_第103张图片
Hadoop入门(一)_第104张图片
Hadoop入门(一)_第105张图片
Hadoop入门(一)_第106张图片
Hadoop入门(一)_第107张图片
Hadoop入门(一)_第108张图片

2.10 安装Hadoop

依然是在Hadoop01中进行安装

Hadoop入门(一)_第109张图片
Hadoop入门(一)_第110张图片
Hadoop入门(一)_第111张图片
Hadoop入门(一)_第112张图片
Hadoop入门(一)_第113张图片
Hadoop入门(一)_第114张图片
Hadoop入门(一)_第115张图片

你可能感兴趣的:(数据库,Hadoop,大数据,hadoop,hdfs,mapreduce,数据库,大数据)