大数据项目

1、Hadoop概述

HDFS,MapReduce,yarn

2、项目需求分析与设计

3、Linux环境配置

1、配置hostname,便于直接用主机名访问。
大数据项目_第1张图片

配置host对应主机名network

大数据项目_第2张图片

配置host地址映射

大数据项目_第3张图片
2、切换到root用户下,编辑sudoers使kfk免密码输入

大数据项目_第4张图片
大数据项目_第5张图片

查看防火墙状态sudo service iptables status,修改selinuxSELINUX=disabled使得关闭防火墙。

这里写图片描述

大数据项目_第6张图片

通过命令开关防火墙:

大数据项目_第7张图片

然后卸载centos自带的java,sudo rpm -qa | grep java 查找包含java的安装包。sudo rpm -e --nodesp ~卸载含java的安装包

大数据项目_第8张图片

4、安装软件

先创建目录,更改目录权限

大数据项目_第9张图片

修改目录权限chmod u+x /opt/softwares/*

大数据项目_第10张图片
上传安装包,解压jdktar -zxvf jdk -C /opt/modules/ 并配置Java环境

大数据项目_第11张图片

5、集群配置

克隆三台机器。

大数据项目_第12张图片

配置三台机器的主机名和IP地址的映射(Windows也需要配置)

大数据项目_第13张图片

安装Hadoop2.5.0

大数据项目_第14张图片

sbin目录:存放启动或停止hadoop相关服务的脚本
bin目录:存放对hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:hadoop的配置文件目录,存放hadoop的配置文件
share目录:存放hadoop的依赖jar包和文档,文档可以被删除掉
lib目录:存放hadoop的本地库(对数据进行压缩解压缩功能)

使用notepad连接Linux,对etc目录下的一些配置文件进行配置

大数据项目_第15张图片

配置hadoop-env.sh, yarn-en.sh, mapred-env.sh的Java环境

echo $JAVA_HOME 直接找出Java的路径,复制路径到各个配置文件中。
在这里插入图片描述

根据官网配置namenode
大数据项目_第16张图片

配置datanode,即配置slaves文件
大数据项目_第17张图片

首先进行格式化
在这里插入图片描述
格式化完成后,启动namenode和datanode
在这里插入图片描述

访问bigdata-pro01.kfk.com:50070就可以访问Hadoop文件系统了。

然后通过scp -r hadoop-2.5.0/ [email protected]:/opt/modules/ 发送给bigdata02。同理,发送给bigdata-pro03。

所有的软件发送完成后,在pro02和pro03节点上启动datanode.
在这里插入图片描述

这时打开 bigdata-pro01.kfk.com:50070 就可以看到分布式集群已经完成。

创建HDFS文件目录,上传文件并读取文件
大数据项目_第18张图片

至此三台机器的HDFS文件系统已经配置完成,接下来配置YARN。

根据官网,配置一下两个文件。

大数据项目_第19张图片

yarn-site.xml配置如下:
大数据项目_第20张图片

然后配置mapred-site.xml
大数据项目_第21张图片

分发所有配置好的文件到另外两台机器上。

Map reduce实例
首先创建一个文件,并将其发送到hdfs文件系统上。
在这里插入图片描述

启动yarn resourcemanageryarn nodemanager
大数据项目_第22张图片

然后在另外两台机器上启动nodemanager
打开 bigdata-pro01.kfk.com:8088 通过node,可以查看所有的节点。

大数据项目_第23张图片

启动日志聚集:
大数据项目_第24张图片

重新启动hdfs和yarn。
大数据项目_第25张图片

大数据项目_第26张图片

你可能感兴趣的:(Bigdata)