Linux下Apache Hadoop2.7.2的集群安装以及WordCount示例

摘要:为了研究Hadoop与本系统Linux的兼容性,使用最新的hadoop版本2.7.2进行兼容性测试以及WordCount示例运行。

Hadoop简介

Hadoop下载

首先,根据自己系统的内核情况以及操作系统版本下载所需的软件。
此次测试系统的Linux 内核:3.10.0-327.el7.x86_64,类似RHEL7.2
前往:http://hadoop.apache.org/releases.html,如下图中红色框即2.7.2对应的下载地址。
同时“source”即对应hadoop的源码。此处下载免安装压缩包hadoop-2.7.2.tar.gz
Linux下Apache Hadoop2.7.2的集群安装以及WordCount示例_第1张图片

Hadoop安装以及集群环境配置

1.硬件环境
利用virt-manager工具进行虚拟机的安装(待细化如何安装),总共安装4台虚拟机
注意:为了网络的正常和实际性,建议选择虚拟机网络使用桥接方式,windows下利用vmware或者virtual box选择桥接方式是比较合适的方法。
物理机为服务器:
内存:64G
CPU:2路32核
其中1台为master,剩余3台为slaves,节点名称以及IP如下所示:

192.168.122.65      master
192.168.122.8       hadoop-node1
192.168.122.149     hadoop-node2
192.168.122.14      hadoop-node3

硬件条件:内存2G、CPU:2核、存储:40G
2、四台虚拟机均使用同一个系统RHELV7.2
3、配置master虚拟机准备安装hadoop
a)、添加hadoop组和hadoop用户

$groupadd hadoop
$useradd hadoop –g hadoop
$passwd hadoop

密码设置为八位:qwer1234
同理,其余三个机器进行相同配置
b)、配置机器的/etc/hosts文件
按照硬件环境的要求来配置IP和hosts内容,利用ping+[hostname],如果能够通则表示设置/etc/hosts成功。使用linux自带的vim或者其他文本编辑器。添加如下内容:
192.168.122.65 master
192.168.122.8 hadoop-node1
192.168.122.149 hadoop-node2
192.168.122.14 hadoop-node3
c)、下载Sun JDK并且进行配置
前往:http://www.oracle.com/technetwork/java/javase/downloads/index.html
下载最新的JDK,本次测试使用JDK8u77版本,本次下载jdk-8u77-linux-x64.tar.gz压缩包
此压缩包为免安装解压后则可以直接使用
首先解压此文件,解压目录需要可以hadoop用户访问,否则后续使用中则会提示权限问题。

#tar xf jdk-8u77-linux-x64.tar.gz –C /opt/jdk/

其次配置JAVA路径,编辑/etc/profile文件,并添加如下内容:

JAVA_HOME=/opt/jdk/jdk1.8.0_73
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export JAVA_HOME
export PATH
export CLASSPATH

最后,利用souce命令来生效此配置,并利用java –version命令查看配置是否成功

#source /etc/profile
#java –version 

如果结果如下内容则表示配置成功:

java version “1.8.0_73”
Java™ SE Runtime Environment (build 1.8.0_73-b02)
Java HotSpot™ 64-Bit Server VM( build 25.73-b02,mixed mode)

d)、SSH无密码验证配置(关键部分,否则会报错,具体原理待细化)

前提:安装ssh,本系统默认已经安装;关闭防火墙

#systemctl stop firewalld.service
#systemctl disable firewalld.service

基本原理:master主机生成公钥和私钥,将公钥拷贝到各个slaves,利用密钥对进行登录则不需密码实际使用如下所示
配置master无密码登录所有slaves
1)、master节点生成无密码密钥对

    #su - hadoop            #登录hadoop用户
    #ssh-keygen –t rsa    
    #下面提示中都使用默认即可(都按下“Enter”即可)

此时则可以查看/home/hadoop/.ssh/下是否有id_rsa(私钥)和id_rsa.pub(公钥)

2)拷贝公钥到localhost和slaves

$ssh-copy-id -i localhost
$ssh-copy-id -i hadoop-node1
$ssh-copy-id -i hadoop-node2
$ssh-copy-id -i hadoop-node3

中间过程中需要输入各个节点的密码。
6)、验证是否成功,是否不需要密码则可以成功登陆
同理,配置salves可以无密码访问master则类似于上述步骤
同理其他机器进行系统操作则可以完成无密码登录master
4、安装并配置hadoop
root用户下解压压缩包到/opt/下,并将权限赋予hadoop

#chown –R hadoop:hadoop /opt/hadoop-2.7.2/

配置hadoop,/etc/profile,添加如下内容

export HADOOP_HOME=/opt/hadoop-2.7.2
export PATH=$HADOOP_HOME/bin:$PATH

验证:hadoop用户下可以使用“hadoop”命令
配置hadoop
1. hadoop-env.sh 位置在$HADOOP_HOME/etc/hadoop文件夹下
将JAVA_HOME配置成上述jdk的位置即可

export JAVA_HOME=/opt/jdk/jdk1.8.0_73

2. core-site.xml,新建的$HADOOP_HOME/tmp目录存放临时文件,否则默认为/tmp/hadoo-hadoop
在标签中添加标签

<property>
    <name>hadoop.tmp.dirname>
    <value>/opt/hadoop-2.7.3/tmp/value>
    <description>A base for temporary directoriesdescription>
property>
<!—file system properties>
<property>
    <name>fs.default.namename>
    <value>hdfs://localhost:9000value>
property>

3. hdfs-site.xml,分布式文件系统的配置,其中replication为数据副本数量

<property>
    <name>dfs.replicationname>
    <value>1value>
property>

4. mapred-site.xml,拷贝自mapred-site.xml.template

<property>
    <name>mapred.job.trackername>
    <value>http://localhost:9001value>
property>

5. slaves文件,添加几个slaves节点的主机名称即可,例如此处即添加
hadoop-node1
hadoop-node2
hadoop-node3
6. 最后则拷贝这些配置文件到slaves即可,但是注意权限问题,同时修改各个slaves对应的/etc/profile
5、启动验证
以hadoop用户登录master,启动hadoop

$hdfs namenode –format 

(只需要第一次进行格式化)
$$HADOOP_HOME/sbin/start-all.sh
则可以启动hadoop,查看输出则知道是否输出成功与否
在此版本的hadoop中,start-all.sh被start-dfs.sh、start-yarn.sh代替
如果启动正常则可以看到一些log输出
验证hadoop,master端

$jps
5557        SecondaryNameNode
5366        DataNode
5817        Jps
5214        NameNode

slave端:

8677        NodeManager
8538        DataNode
8876        Jps

由此可见均能正常启动成功了。
验证hdfs
$hdfs dfsadmin –report
结果如下所示:

[hadoop@hadoop-node1 ~]$ hdfs dfsadmin -report
Configured Capacity: 152782585856 (142.29 GB)
Present Capacity: 125864767488 (117.22 GB)
DFS Remaining: 125864595456 (117.22 GB)
DFS Used: 172032 (168 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
Missing blocks (with replication factor 1): 0

-------------------------------------------------
Live datanodes (4):

Name: 192.168.122.14:50010 (hadoop-node3)
Hostname: hadoop-node3
Decommission Status : Normal
Configured Capacity: 38195646464 (35.57 GB)
DFS Used: 45056 (44 KB)
Non DFS Used: 6058930176 (5.64 GB)
DFS Remaining: 32136671232 (29.93 GB)
DFS Used%: 0.00%
DFS Remaining%: 84.14%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Tue Apr 05 11:32:16 CST 2016


Name: 192.168.122.149:50010 (hadoop-node2)
Hostname: hadoop-node2
Decommission Status : Normal
Configured Capacity: 38195646464 (35.57 GB)
DFS Used: 45056 (44 KB)
Non DFS Used: 6750404608 (6.29 GB)
DFS Remaining: 31445196800 (29.29 GB)
DFS Used%: 0.00%
DFS Remaining%: 82.33%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Tue Apr 05 11:32:17 CST 2016


Name: 192.168.122.65:50010 (master)
Hostname: master
Decommission Status : Normal
Configured Capacity: 38195646464 (35.57 GB)
DFS Used: 57344 (56 KB)
Non DFS Used: 7136018432 (6.65 GB)
DFS Remaining: 31059570688 (28.93 GB)
DFS Used%: 0.00%
DFS Remaining%: 81.32%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Tue Apr 05 11:32:15 CST 2016


Name: 192.168.122.8:50010 (hadoop-node1)
Hostname: hadoop-node1
Decommission Status : Normal
Configured Capacity: 38195646464 (35.57 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 6972465152 (6.49 GB)
DFS Remaining: 31223156736 (29.08 GB)
DFS Used%: 0.00%
DFS Remaining%: 81.75%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Tue Apr 05 11:32:16 CST 2016

以上为通过命令行方式显示HDFS情况,同时,使用WEB端也可以完成正常的显示和管理操作。
打开192.168.122.65:5007,即可出线如下的界面
Linux下Apache Hadoop2.7.2的集群安装以及WordCount示例_第2张图片

WordCount示例

1.hadoop用户下,完成准备工作
创建文件夹
mkdir ~/file
准备文件
echo “word test word hadoop hello” > ~/file/file1.txt
echo “word word word word hadoop hello” > ~/file/file2.txt
echo “word word word word hadoop hello” > ~/file/file3.txt

重启hadoop服务
cd $HADOOP_HOME/sbin
./stop-all.sh
./start-all.sh
确保都正常启动了则可以进行下面内容了。
2.HDFS下创建文件夹input和output文件

hadoop fs -mkdir /input
hadoop fs -mkdir /output

PS:注意“/”是必须的否则提示“No such file or directory”

3.上传本地文件到HDFS上

hadoop fs -put ~/file/file*.txt /input

4.运行wordcount

$hadoop jar $HADOOP_HOOME/share/hadoop/mapreduce/hadoop-mapreduce-example-2.7.2.jar wordcount /input /output/wordcount1

此时则运行完成了,查看结果

$hadoop fs -cat /output/wordcount1/part-r-00000

此时则会统计本地创建的多个文件的单词数量
例如:
and 1
hello 3
hadoop 2

到此,hadoop真实集群搭建基本完成

你可能感兴趣的:(高可用集群软件搭建)