云计算实验-全分布式HADOOP搭建和全分布式运行项目

一、实验目的

  1. 掌握hadoop的配置文件内容;
  2. 掌握hadoop的启动流程;
  3. 理解各节点的功能;
  4. 理解hdfs文件系统;
  5. 理解集群运行机制;
  6. 理解如何利用集群来运行数据集。

二、实验环境

  1. 硬件:惠普计算机
  2. 软件:VmWare、centos

三、实验内容

  1. 搭建一个全分布式的hadoop集群并且掌握hdfs文件系统。
    (1)第一先对各节点在哪些主机启动做出规划;
    (2)第二按照规划配置启动文件;
    (3)第三将配置好的文件分发给其余节点;
    (4)第四使用hdfs命令操作文件系统。
  2. 利用集群进行单词计数。

四、实验步骤

1.在hadoop-env.sh中配置jdk路径,将文件中的jdk路径改为本机安装的jdk的绝对路径。
在这里插入图片描述
2.在core-site.xml中配置NameNode启动主机、端口号以及SecondaryNameNode启动的主机、端口号。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第1张图片
3.在hdfs-site.xml中配置各节点数据存储地址。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第2张图片
4.在yarn-site.xml中配置资源管理。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第3张图片
5.在mapred-site.xml中配置mapreduce所用的资源管理。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第4张图片
6.在slaves中配置DataNode节点在哪些主机启动。

云计算实验-全分布式HADOOP搭建和全分布式运行项目_第5张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第6张图片

7.分发配置文件。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第7张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第8张图片
8.更改主机名,使主机名与映射结点名一致。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第9张图片

9.初始化namenode结点。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第10张图片云计算实验-全分布式HADOOP搭建和全分布式运行项目_第11张图片

10.启动集群,yarn。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第12张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第13张图片

11.输入jps命令,查看进程是否启动,或访问hdfs文件系统页面,查看集群信息。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第14张图片

12.在/export/service下创建—个新的文件,并在文件中写入以下内容。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第15张图片

13.将文件上传到HDFS。

云计算实验-全分布式HADOOP搭建和全分布式运行项目_第16张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第17张图片

14.运行jar 包。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第18张图片

15.查看是否运行成功。
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第19张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第20张图片
云计算实验-全分布式HADOOP搭建和全分布式运行项目_第21张图片

五、思考

  1. 为什么启动集群前要初始化namenode节点?

Hadoop生态中的文件系统HDFS类似一块磁盘,初次使用硬盘需要格式化,让存储空间明白该按什么方式组织存储数据。

  1. hdfs文件系统如何存储文件?

HDFS采用Master/Slave主从架构来存储数据,这种架构主要由四个部分组成。分别为HDFS Client、NameNode、DataNode和Secondary NameNode。
(1)Client:客户端
文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。
与 NameNode 交互,获取文件的位置信息。
与 DataNode 交互,读取或者写入数据。
Client 提供一些命令来访问和管理HDFS等操作。
(2)NameNode:master管理者
管理 HDFS 的名称空间。数据块(Block)映射信息。配置副本策略
处理客户端读写请求。
fsimage与edits是NameNode的两个重要文件。
1)fsimage:元数据镜像文件(存储文件系统的目录树,比如说有哪些目录,每个目录有哪些文件.)。
2)edits:元数据操作日志(存储针对目录树的修改操作,比如你删除了某个文件或者增加了某个文件)。
(3)DataNode:Slave节点,NameNode 下达命令,DataNode 执行实际的操作
存储文件。
执行数据块的读/写操作。
(4)SecondaryNameNode:辅助元数据
并非NameNode 的热备(热备从广义上讲,就是服务器高可用应用的另一种说法)。
当NameNode 挂掉的时候,它并不能替换 NameNode 并提供服务。
辅助 NameNode,执行fsimage和edits的定期合并
在紧急情况下,可辅助恢复 NameNode。

  1. 客户端如何访问hdfs文件系统里储存的文件?

(1)通过网页的形式,访问namenode结点的50070端口,在Utilities中的Browse Dictionary查看hdfs文件系统的目录信息,进入目录,下载目录中文件。
(2)通过命令行方式,“hadoop fs -ls /hdfs路径”查看目录信息;“hadoop fs -cat 文件目录,hadoop fs -tail -f 文件目录”查看文件内容。

  1. 如何再添加节点?

(1)再次克隆一个虚拟机,更改克隆后的虚拟机的主机名为host9,配置静态ip,将ip映射添加到所有结点的/etc/hosts文件中。
(2)对host9进行免密登录配置。
(3)将host9追加到所有结点的slaves文件中。
(4)在该结点中启动Datanode和Nodemanager。

  1. 集群启动后,我们能不能改写成本地模式?

不可以,因为配置文件被更改,不符合本地模式的运行条件。

你可能感兴趣的:(课程复习,hadoop,分布式,云计算)