一.所需软件
虚拟机:Vmware10.0.2.46408,通过百度可自行进行下载,也可通过http://pan.baidu.com/s/1eQtgi1k进行下载
Linux镜像:Centos,可通过下载ios进行安装系统,也可通过http://pan.baidu.com/s/1eQgoXQ6进行下载(该资源为我已经安装好之后的系统文件,解压缩后可通过打开CentOS.vmx来运行,用户名为root,密码为hadoop)
Hadoop版本: hadoop-1.1.2.tar.g,同样,即可自行下载,也可通过我的网盘进行下载http://pan.baidu.com/s/16L1eQ(版本可以自己选择,不同版本之间差异不是特别大,当然建议初学者选用和我相同的版本)
JDK版本:jdk-6u24-linux-i586.bin,JDK是Java运行所需的环境,由于是在虚拟机的Linux中安装Jdk,所以应该下载对应的系统的安装文件(而不是大家常用的windows下的安装文件),下载地址:http://pan.baidu.com/s/1dDq0sHr
其他软件(非必须,但建议使用,可以方便操作):Pietty,Winsap.其中Pietty是在windows平台下可以登录虚拟机的Linux系统(大家在使用虚拟机的时候,需要经常切换到windows环境中,而且如果是同时开3个虚拟机,切换起来很不方便,通过Pietty可以相当于windows下开启多个窗口,来控制不同的linux虚拟机)。Winsap是方便windows与虚拟机之间进行文件的传递http://pan.baidu.com/s/1hqxLMNq,http://pan.baidu.com/s/1ntwpDZb
二.配置网络
1、我采用的是虚拟机默认的模式,即仅主机模式(Host-only)。Vmvare安装好了之后,会在自己电脑网络适配器设置中多出两个连接
2、右击VMnet1,选择Properties,配置IPV4,我用的是192.168.80.1(当然这个也是可以更改的,不一定要和我相同)
3、通过虚拟机打开安装之后的Linux系统,配置该Linux的网络设置(如果是通过我提供的网盘下载的,可以通过我下面介绍的方法来设置)
右击右上角的小电脑,Edit Conn...然后选中Edit(第一次打开可能还会有一个System的连接,删掉即可),按照下图同样配置该IPV4(选择静态的,其中Address可按照自己的来设置,但Gateway必须要和你之前设置的Vmnet1的IP地址相同)
4、配置好之后,打开终端,输入
service network restart
在windows下打开cmd命令,ping一下该虚拟机的IP地址,如果能ping通,代表已经配置好了。
由于我们是完全分布式的安装,我们准备使用三台虚拟机来构成这个集群,所以要开启三个虚拟机,每个虚拟机的网络都要进行设置,比如我的三个虚拟机的网络设置分别为:192.168.80.101,192.168.80.102,192.168.80.103
三.修改主机名
为啥要修改主机名?主机名类似于域名,比较容易记忆
1、如果以上配置好了之后,我们就可以最小化虚拟机了,然后通过Pietty来登录了。
打开软件之后,输入想要登录的IP地址(比如我想登录第一台虚拟机,对应输入192.168.80.101),其余不用修改,输入用户名密码之后即可登录
2、通过以下命令可以修改主机名为hadoop1,当然主机名也是可以按照自己的来修改
hostname hadoop1
但通过这种方式修改的,仅仅是当前会话生效,在关闭重新打开之后就会还原,所以我们还需要修改一个配置文件
vi /etc/sysconfig/network
修改成HOSTNAME=hadoop1,当然,对应到其他两台虚拟机,也可通过这种方式进行修改主机名。我修改之后的主机名分别为hadoop1,hadoop2,hadoop3
3、配置hosts文件,将主机名和IP绑定
vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.80.101 hadoop1 192.168.80.102 hadoop2 192.168.80.103 hadoop3
将主机名与IP地址对应起来。每个虚拟机都要进行绑定,不仅仅是绑定自己的IP和主机名,也要绑定另外两个,这个时候,就可以通过ping+主机名来互相ping通了。
四.关闭防火墙
service iptables stop
chkconfig iptables off
五.配置SSH免密码登入
[root@hadoop1 ~]# ssh-keygen -t rsa2、完成之后进入.ssh目录,复制pub中的内容到一个新的文件(文件名一定不能出错)
[root@hadoop1 .ssh]# cp id_rsa.pub authorized_keys3、按照以上操作,对三个虚拟机都采用相同的操作,复制产生authorized_keys这个文件
[root@hadoop1 .ssh]# ssh hadoop2回车,然后输入yes,就可登入hadoop2了。
六.安装JDK和Hadoop
[root@hadoop1 ~]# cd /usr [root@hadoop1 usr]# mkdir lh [root@hadoop1 usr]# cd lh3、将安装包拷贝到该文件夹(当前目录)
[root@hadoop1 lh]# cp /root/Downloads/* .4、安装jdk,首先要给予jdk安装包执行权限,然后通过“.”来进行安装
[root@hadoop1 lh]# chmod u+x jdk-6u24-linux-i586.bin [root@hadoop1 lh]# ./jdk-6u24-linux-i586.bin安装完成之后,目录下会多了一个文件夹,就是安装之后的jdk,这个文件夹名字有点长,不利于以后操作,所以我将其修改为jdk
[root@hadoop1 lh]# mv jdk1.6.0_24 jdk5、安装hadoop,首先解压hadoop,然后将其文件夹名改为hadoop
[root@hadoop1 lh]# tar -xzvf hadoop-0.20.2.tar.gz [root@hadoop1 lh]# mv hadoop-0.20.2 hadoop6、【灰常关键】设置jdk和hadoop的环境变量,这个类似于windows下安装jdk,因为jdk的命令是位于bin目录下,所以我们需要执行的话需要进入到bin下,但如果设置了环境变量,在其他地方也可以执行。hadoop也是如此
[root@hadoop1 lh]# vi /etc/profile export JAVA_HOME=/usr/lh/jdk export HADOOP_HOME=/usr/lh/hadoop export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin7、验证,输入以下命令
[root@hadoop1 lh]# hadoop version如果能够打印出hadoop的版本,代表已经配置好了,就可以进行下一步了。同样,我们可以在其他的节点中安装jdk,但hadoop我们可以先不用再其他节点中安装,因为有很多配置文件需要配置,我们可以在一个节点配置好了之后复制到另外的节点,节省工作量。
七.修改hadoop配置文件
<span style="white-space:pre"> </span>export JAVA_HOME=/usr/local/jdk/
<configuration> <property> <name>fs.default.name</name> <value>hdfs://hadoop1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/lh/tmp</value> </property> </configuration>其中第一个property的value应该修改成你对应的主机名的,比如说hdfs://hadoop1:9000,其中hadoop1为我准备用于作为namenode的主机名,9000是端口,一般不用修改
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>4、修改mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>hadoop1:9001</value> <description>change your own hostname</description> </property> </configuration>5、修改masters和slaves文件(这一点不同于伪分布式)
[root@hadoop1 conf]# vi masters hadoop1masters中输入你作为namenode的节点,
[root@hadoop1 conf]# vi slaves hadoop2 hadoop3slaves中输入作为datanode的节点
[root@hadoop1 lh]# scp -r ./hadoop hadoop2:/usr/lh [root@hadoop1 lh]# scp -r ./hadoop hadoop3:/usr/lh
八.格式化分布式文件系统
[root@hadoop1 lh]# hadoop namenode -format每个节点都要进入此操作。
八.启动进程
<span style="font-family: Arial, Helvetica, sans-serif; font-size: 12px;"><span style="white-space:pre"> </span>[root@hadoop1 lh]# start-all.sh</span>1、通过该命令启动,可能会需要你问你yes/no,果断yes~~如果没其他情况,会输出一堆信息,然后就启动成功了~~
[root@hadoop1 lh]# jps 30543 Jps 26850 JobTracker 26785 SecondaryNameNode 26649 NameNode在主节点输入jsp,如果看到这几个进程,代表你启动成功了~然后到另外的节点,输入jsp,会看到Datanode节点。就代表你这个安装已经搞定了。