搭建Hadoop伪分布式集群

【实验内容】

    1. 构建Linux系统环境,在Windows系统上安装Linux虚拟机,建议电脑比较新或者配置内存8G以上的电脑可以选择虚拟机安装。

       2. 在Linux环境下完成伪分布式环境的搭建,并运行Hadoop自带的WordCount实例检测是否运行正常。

【实验目的】

1. 掌握Linux虚拟机安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能,鉴于目前很多学生可能正在使用Windows操作系统,因此,为了本教学的后续实验,这里有必要通过本实验让学生掌握在Windows操作系统上搭建Linux虚拟机的方法。

2. 掌握Hadoop的伪分布式安装安装方法。为了进一步学习Hadoop其他组件的使用,需要通过本实验让学生们掌握在单机上进行Hadoop的伪分布式安装方法,以及在三台虚拟机上进行Hadoop的完全分布式安装方法。

实验技术/工具清单

为了保证能顺畅地运行Hadoop集群,并能够进行基本的大数据开发调试,建议个人计算机硬件的最低配置为:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(建议八核及以上)处理器。Hadoop相关软件安装包及其版本说明。

搭建Hadoop伪分布式集群_第1张图片

【实验原理/思路】

实训1:创建Linux虚拟机

(1)下载VMware安装包“VMware-workstation-full-15.5.5-16285975.exe”

(2)双击下载的VMware安装包,选择安装的目录,再单击“下一步”按钮,继续安装,之后输入产品序列号,即成功安装VMware软件。

(3)打开安装好的VMware软件,进入VMware主界面,选择“创建新的虚拟机”选项。

(4)通过vi命令查看/etc/sysconfig/network-scripts/ifcfg-ens33配置文件设置固定IP。

(5)通过XShell工具远程连接虚拟机。

实训2:JDK安装

(1)下载JDK

(2)安装JDK

(3)配置JDK环境变量

(4)JDK环境变量验证

实训3:Hadoop集群配置

(1)下载Hadoop安装包

(2)解压安装Hadoop。

(3)配置Hadoop环境变量

(4)验证Hadoop环境

实训4:配置SSH免密码登录

        使用ssh-keygen产生公钥与私钥对。使用“ssh-keygen -t rsa ”命令,接着按3次“Enter ”键,生成私有密钥id_rsa和公有密钥id_rsa.pub两个文件。使用命令“cat ./id_rsa.pub >> ./authorized_keys”将密钥加入到授权中,即可ssh localhost不需要密码验证。

实训5:启动监控集群

(1)完成Hadoop的所有配置后,可执行格式化NameNode操作,格式化只需使用“hdfs namenode -format”命令,若出现“Storage directory /data/hadoop/ hdfs/name has been successfully formatted”提示,则表示格式化NameNode成功。

(2)格式化完成后即可启动Hadoop集群,启动Hadoop集群只需要在hadoop01节点直接进入Hadoop安装目录,使用sbin文件夹里启动文件即可启动Hadoop集群。

(3)在节点hadoop01上执行“start-all.sh”或“stop-all.sh”指令,直接启动/关闭整个Hadoop集群服务。

(4)集群启动之后,在主节点hadoop01可以使用“jps”命令,出现下图的信息,说明集群启动成功。

(5)在浏览器的地址栏输入“http://hadoop01:9870 ” ,按回车键即可看到HDFS的监控界面。

【实验步骤】

  1. 创建Linux虚拟机
  2. JDK安装、环境变量配置、验证
  3. 配置SSH免密码登录
  4. Hadoop伪分布式集群配置
  5. 启动/停止集群、通过Web监控集群状态

【实验记录与结果分析】

实现步骤和执行结果截图。

1.创建Linux虚拟机

搭建Hadoop伪分布式集群_第2张图片

搭建Hadoop伪分布式集群_第3张图片

搭建Hadoop伪分布式集群_第4张图片

2.JDK安装、环境变量配置、验证

搭建Hadoop伪分布式集群_第5张图片

3.配置SSH免密码登录

搭建Hadoop伪分布式集群_第6张图片

4.Hadoop伪分布式集群配置

(1).在hadoop-env.sh文件下增加Java的环境变量

搭建Hadoop伪分布式集群_第7张图片

(2).在core-site.xml文件下增加配置参数

搭建Hadoop伪分布式集群_第8张图片

(3).修改Linux的hostname为hadoop

(4).在hdfs.site.xml增加hdfs的配置参数

搭建Hadoop伪分布式集群_第9张图片

(5).在yarn-env.sh文件下增加Java的环境变量

搭建Hadoop伪分布式集群_第10张图片

(6).在mapred-site.xml文件下设置mapreduce的框架及其环境变量

搭建Hadoop伪分布式集群_第11张图片

(7).在yarn-site.xml文件下配置主机名和地址及其辅助的服务

搭建Hadoop伪分布式集群_第12张图片

5.启动/停止集群、通过Web监控集群状态

搭建Hadoop伪分布式集群_第13张图片

搭建Hadoop伪分布式集群_第14张图片

你可能感兴趣的:(分布式,hadoop,大数据)