前言:
从七月中旬开始大规模学习hadoop平台搭建过程,虽然现在看来,解决很实现的问题并不多,但是对于一个以前没有接触过linux、java和云计算平台的人来说,确实也花了一段时间。最大的感慨是,各种工具的版本问题,十分重要,Vmware、ubuntu、jdk、hadoop、hbase、zookeeper,任何一种的版本问题都是致命的。
刚开始我是照着刘鹏老师的《云计算》第二版做实验的。里面貌似很简单的一句话,我要花整整一天的时间去实现。比如:
1、虚拟机的使用问题,最新版的Vmware里,安装Vmware-tools后,死活出现不了/mnt/hgfs/share目录,没有共享文件夹,就没法搞到各种软件(虽然现在知道其实虚拟机直接可以上网下,但刚开始我就认为各种软件只能通过与主机的共享获得)我就一直找问题,用尽了各种方法,几乎对于有Vmware-tools安装的网页都被我百度过。最后极端抑郁,干脆换个旧点的Vmware试试,采用了Mware-workstation-full-7.1.1-282343.exe ,换过之后,当在命令行里 cd /mnt/hgfs 有出现时,那种激动的心情无法言表。但是我没有意识到,还有更大的问题在后边等着我。
2、安装jdk,java环境的配置,其实现在看起来很简单的问题,就是在/ect/profile文件里把我们安装的各种工具的路径写进去而已。但是刚开始一头雾水的我,总是不小心将路径写错,最后还得一遍遍的反过来修改。
3、关于linux各种文件的权限问题。刚开始使用普通用户,总是提示权限不够,最后我懒得使用sudo命令,直接跳入root用户,一直用它解决问题。而这个习惯,恰恰造成了再后面使用hbase时的巨大问题出现,这是后话。
闲话不扯,进入实验过程。
使用的各种版本:
1)VMware-workstation-full-7.1.1-282343.exe 建议不要汉化,最新版本有问题
2)ubuntu-10.04.1-desktop-i386.iso
3)hadoop-0.20.2.tar.gz
实验过程
一、更改root用户密码:
sudo passwd root 更改root密码
su root 进入root用户
二、安装虚拟机工具:
1、mount -o,loop /dev/cdrom /mnt 这句话的意思是把光驱挂载到/mnt目录之下
2、cd /mnt 进入到挂载目录下
3、tar zxvf VmwareTools-8.4.2-261024.tar.gz -C ~
把 VmwareTools-8.4.2-261024.tar.gz解压到/root目录下,C大写
4、./vmware-install.pl 在/root/vmware-tools-distrib目录下运行安装文件
5、一路回车或者yes
6、重启系统,并且在VM Setting里去掉对光盘的关联,同时设置共享文件夹
7、/usr/bin/vmware-config-tools.pl是配置文件的位置和名称,进行对共享文件夹的配置,需要用root用户,仍然是一路回车、yes、no
8、cd /mnt/hdfs/share 存在文件夹,表示安装虚拟机工具成功
三、安装SSH
sudo apt-get install ssh
四、安装与配置JAVA
1、在/usr目录下,新建java文件夹:mkdir java 需要用root用户
2、在/usr/java目录下,运行:/mnt/hgfs/share/jdk-6u26-linux-i586.bin
输入java javac java -version 版本有信息
3、安装vim软件,方便以后编辑文件 apt-get install vim (强烈建议安装,因为vi工具使用起来很不方便)
4、配置java环境:
1)vim /etc/profile 编辑profile文件
2)在文件末尾加入如下信息:
JAVA_HOME=/usr/java/jdk1.6.0_26
JRE_HOME=/usr/java/jdk1.6.0_26/jre
CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
export JAVA_HOME
export JRE_HOME
export CLASSPATH
export PATH3)编辑完毕 :wq 保存 退出
五、安装Hadoop
1、将安装包 hadoop-0.21.0.tar.gz 拷贝至 /usr 下
cp /mnt/hgfs/share/hadoop-0.20.2.tar.gz /usr
2、/usr目录下解压包:tar -zvxf hadoop-0.20.2.tar.gz
解压完毕,出现文件夹:hadoop-0.20.2
六、配置Hadoop
1、配置Hadoop环境参数:
vim /etc/profile
加入以下信息
:wq 保存 退出2、reboot 重启电脑
输入 hadoop version 出现版本信息 安装完毕
3、编辑usr/hadoop2-0.20.2/conf/hadoop-env.sh文件
vim conf/hadoop-env.sh
七、单机模式
1、在usr/ usr/hadoop2-0.20.2目录下用root用户:
2.查看结果 cat output/*
八、伪分布模式
1、hadoop配置:
1)core-site.xml文档内容,(位置在vim /usr/hadoop-0.20.2/conf/core-site.xml)
2)hdfs-site.xml文档内容:
3)mapred -site.xml文档内容:
2、免密码SSH设置:
1)生成密钥对:ssh-keygen –t rsa
一路回车,文件保存在/root/.ssh里
2)进入.ssh目录,执行命令:
cp id_rsa.pub authorized_keys
ssh localhost
3、Hadoop运行
1)格式化分布式文件系统,在usr/hadoop2-0.20.2目录下:
bin/hadoop namenode –format
2)启动hadoop守护进程,启动五个进程:
bin/start-all.sh
3)运行WordConut实例:
将本地系统中的input目录复制到HDFS的根目录下,重新命名为in,运行Hadoop自带的WordConut实例。Out为数据处理完后的输出目录,默认为在Hadoop的根目录下,运行之前必须清空或者删除out目录,否则会报错。
4)任务执行完,查看数据处理结果:
也可以把输出文件从Hadoop分布式文件系统复制到本地文件系统查看
5)停止Hadoop守护进程。
bin/stop-all.sh
九、完全分布模式
1、配置各个机子的IP地址值:
在这里,一共设置了三个机子,unbuntunamenode、unbuntu1、unbuntu2
unbuntunamenode:192.168.122.136
unbuntu1配置:192.168.122.140
Unbuntu2配置:192.168.122.141
它们的子网掩码都为:255.255.255.0,网关为192.168.122.255。(注意,一旦修改了etho的IP,就无法连上外网)
2、配置NameNode和DataNode的hosts:(最好保持一致)
把unbuntunamenode作为NameNode,配置其/etc/hosts,需要在文件中添加集群中所有机器的IP地址机器对应的主机名
使用scp命令,将/etc/hosts拷贝到其他节点:
scp /etc/hosts ub1-deskop:/etc
scp /etc/hosts ub2-desktop:/etc
3、SSH配置,为了实现在机器之间执行指令时不需要输入密码:
1)在所有的机器上建立.ssh目录,执行:mkdir .ssh
2)在unbuntunamenode上生成密钥对,执行:ssh-keygen –t ras
一路enter,就会按照默认的选项将生成的密钥对保存在.ssh/id_rsa文件中
3)在unbuntunamenode上执行:
cd ~/.ssh
cp id_rsa.pub authorized_keys
scp authorized_keys ub1-desktop:/home/grid/.ssh
scp authorized_keys ub2-desktop:/home/grid/.ssh
4)进入所有机器的.ssh目录,改变authorized_keys文件的许可权限:
4、配置Hadoop:
在namenode机子上,确保hadoop已经安装
1)编辑core-site.xml、hdfs-site.xml和mapred -site.xml
2)、编辑conf/masters,修改为master的主机名,加入:192.168.122.136(或者ubn)
3)编辑conf/slaves,加入所有slaves的主机名,即ub1、ub2
192.168.122.140
192.168.122.141
4)把namenode的配置文件复制到其他机器上
scp –r hadoop2-0.20.2 ub1-desktop:/usr/
scp –r hadoop2-0.20.2 ub2-desktop:/usr/
5、Hadoop运行
格式化分布式文件系统:bin/hadoop namenode -format
启动Hadoop守护进程:bin/start-all.sh
并用jps命令检测启动情况:/usr/java/jdk1.6.0_26/bin/jps
6、测试wordcount案例
1)将本地的input文件夹复制到HDFS根目录下,重命名为in:
bin/hadoop dfs –put input in
2)运行案例:
bin/hadoop jar hadoop2-0.20.2-examples.jar wordcount in out
3)查看处理结果:
bin/hadoop dfs –cat out/*
4)停止Hadoop守护进程
bin/stop-all.sh
7、HDFS里的一些常用命令:
1)删除HDFS根目录下的文件:bin/hadoop dfs –rmr in
2)bin/hadoop dfsadmin –help 能列出当前所支持的所有命令
3)bin/hadoop dfsadmin –report查看namenode日志
4)关闭安全模式:
bin/hadoop dfsadmin –safemode leave
5)进入安全模式:
bin/hadoop dfsadmin –safemode enter
6)负载均衡:
bin/start-balancer.sh
7)基准测试:
bin/hadoop jar hadoop2-0.20.2-test.jar TestDFSIO –write –nrFile 20 –filezize 200