大数据集群环境搭建——服务器篇

如今我们已经进入大数据时代，在校大学生及各个公司很多都开始学习大数据。那么要学习大数据，第一步就是要搭建分布式集群环境。虽说dreamtecher也是个刚学习大数据没多久的小白，但是也愿意为刚刚开始学习大数据的小小白们做一些贡献。接下来，本小白带大家一步步搭建一个大数据的分布式环境。本文为《大数据集群环境搭建》的第一篇，服务器搭建篇。服务器采用五台CentOS 7 虚拟机，分别为master1 master2 slave1 slave2 slave3，安装模式为基础服务器

1、创建用户

注：请在root用户下执行本节操作

创建用户帐号：

useradd hadoop

完成后会在/home下创建hadoop目录，作为用户目录。若没有创建，则手动创建：

mkdir /home/hadoop

将所有者赋予hadoop用户和组：

chown hadoop:hadoop /home/hadoop
chmod 700 /home/hadoop

修改hadoop用户密码：

passwd hadoop

如下命令验证是否成功创建：
方法一：

cat /etc/passwd | grep hadoop

打印出hadoop用户配置信息
方法二：

su hadoop

能成功切换用户到hadoop，且cd命令直接回到家目录/home/hadoop。

2、网络配置

注：请在root用户下操作。

2.1 配置系统IP地址

编辑文件/etc/sysconfig/network-scripts/ifcfg-eth0，写入如下配置：

DEVICE="eth0"
BOOTPROTO="static"
IPADDR=192.168.1.72
GATEWAY=192.168.1.1
NETMASK=255.255.255.0
ONBOOT="yes"

注意：每个节点配置自己对应的IP。

2.2 配置网络hostname

编辑文件/etc/sysconfig/network

NETWORKING=yes
HOSTNAME=master1

2.3 配置本机hostname

编辑文件/etc/hostname

master1

此处应写入本机的hostname，比如master2服务器就写master2，slave1服务器就写slave1
执行如下命令重启network服务： service network restart
如果控制台出现[OK]说明配置成功

2.4 配置系统hosts文件

文件位置/etc/hosts，添加所有节点的hostname映射。

192.168.1.72 master1
192.168.1.73 master2
192.168.1.74 slave1
192.168.1.75 slave2
192.168.1.76 slave3
192.168.1.78 slave4
192.168.1.80 slave5

全部虚拟机配置完成后可使用ping 测试各hostname映射ip是否正确。

3、配置SSH免登录

大数据集群中各个服务器间通信都需要使用ssh免登录，具体操作请大家自行搜索，网上的资源非常丰富。

4、关闭防火墙

CentOS的防火墙会阻挡大部分端口的通信，如果是真实服务器的环境肯定要为防火墙配置出入端口的规则，但是我们这次安装的虚拟机服务器作为内网中使用的大数据环境，可以直接关闭防火墙。

systemctl stop firewalld.service #停止
systemctl disable firewalld.service #禁用