Hadoop的简单搭建

Hadoop部署文档
一:实验准备
VMware Workstations12,ubuntu14.04 server版,Hadoop-2.6.5.tar.gz,jdk-7u51-linux-x64.tar.gz
二:实验步骤
1:安装三个虚拟机(一个master,两个slaver)
2:创建root用户
Sudo passwd root
如果是desktop版(可以root登陆)在/usr/share/lightdm/lightdm.conf.d/50- ubuntu.conf 增加greeter-show-manual-login=true
3::配置网络
修改配置文件 /etc/network/interfaces
auto eth0
iface eth0 inet static
address 192.168.1.111
gateway 192.168.1.1
netmask 255.255.255.0
dns-nameservers 8.8.8.8
4:安装ssh
(如果感觉下载缓慢可以更改ubuntu源
修改/etc/apt/sources.list文件即可;如果找不到ssh,可以尝试apt-get update, apt-get upgrade更新包)
Apt-get install openssh-server openssh-client
修改配置文件 /etc/ssh/sshd_config
PermitRootLogin no改为yes
5:配置hosts文件
修改配置文件 /etc/hosts
127.0.0.1 localhost
192.168.1.111 master
192.168.1.112 slaver1
192.168.1.113 slaver2
6:安装jdk
Apt-get install openjdk-7-jdk或者解压jdk-7u51-linux-x64.tar.gz
可以使用find / -name java查询Java安装路径
修改配置文件 /etc/profile
JAVA_HOME=/java/jdk1.7.0_51
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin
export CLASSPATH=.: J A V A H O M E / l i b : : JAVA_HOME/lib:: JAVAHOME/lib::JAVA_HOME/jre/lib
//以上六部三台虚拟机都一样的操作,可以配置好一台之后克隆,在进行适当修改即可
7:配置hostname
修改配置文件 /etc/hostname
分别为master, slaver1,slaver2
8:配置environment
修改配置文件 /etc/environment
将Java路径写入Path
//重启机子
9:防火墙关闭
Ufw disable
10:配置ssh免秘钥登陆
在slaver1,slaver2中 mkdir /root/.ssh
在master中
ssh-keygen -t dsa
cat /root/.ssh/id_dsa.pub >> /root/.ssh/authorized_keys
scp /root/.ssh/authorized_keys slaver1:/root/.ssh/
scp /root/.ssh/authorized_keys slaver2:/root/.ssh/
11:Hadoop安装
将hadoop-2.6.5.tar.gz使用tar解压至虚拟机
A:修改配置文件 /etc/profile
HADOOP_HOME=/home/ubuntu/hadoop-2.6.5
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin:$HADOOP_HOME/bin:HADOOP_HOME/sbin
B: 修改配置文件 /home/ubuntu/hadoop-2.6.5/etc/hadoop
hadoop-env.sh 和 yarn-env.sh
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
C:修改core-site.xml
在里面添加

fs.defaultFS
hdfs://master:9000


hadoop.tmp.dir
/hadoop/hdfs/tmp

D:修改hdfs-site.xml

dfs.replication
2

E:修改mapred-site.xml
cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name
yarn

F:修改yarn-site.xml

yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.resourcemanager.address
master:8040


yarn.resourcemanager.scheduler.address
master:8030


yarn.resourcemanager.resource-tracker.address
master:8025


yarn.resourcemanager.admin.address
master:8141


yarn.resourcemanager.webapp.address
master:8088

G:在同路径下的salvers中添加多有子节点hostname
Salver1
Slaver2
12:至此Hadoop配置以及ok,三台一起配置比较繁琐,故可以将一台配好进行copy,此外/etc/profile与/etc/environment中也需要将路径写入
scp -r /Hadoop-2.6.5 slaver1:/home/ubuntu/
scp -r /Hadoop-2.6.5 slaver2:/home/ubuntu/
13:在master上格式化namenode
hdfs namenode -format 或hadoop namenode -format
14:在/home/ubuntu/hadoop-2.6.5/sbin或者bin目录下
Start-all.sh 关闭 stop-all.sh
15:master上和slaver上验证;
Jps
查看集群状态,命令:hadoop dfsadmin -report
查看分布式文件系统:http://master:50070
查看MapReduce:http://master:8088
三:附录Hadoop基本操作实践
基本命令

  1. 格式化工作空间
    进入bin目录,运行 hadoop namenode –format
  2. 启动hdfs
    进入hadoop目录,在bin/下面有很多启动脚本,可以根据自己的需要来启动。
  • start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack
  • stop-all.sh 停止所有的Hadoop
  • start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode
  • stop-dfs.sh 停止DFS守护
    HDFS文件操作
    Hadoop使用的是HDFS,能够实现的功能和我们使用的磁盘系统类似。并且支持通配符,如*。
  1. 查看文件列表
    b. 执行hadoop fs -ls /
    查看hdfs中/目录下的所有文件(包括子目录下的文件)。
    a. 执行hadoop fs -ls -R /
  2. 创建文件目录
    a. 执行hadoop fs -mkdir /newDir
  3. 删除文件
    删除hdfs中/目录下一个名叫needDelete的文件
    a. 执行hadoop fs -rm /needDelete
    删除hdfs中/hdfs目录以及该目录下的所有文件
    a. 执行hadoop fs -rm -r /hdfs
  4. 上传文件
    上传一个本机/home/admin/newFile的文件到hdfs中/目录下
    执行hadoop fs –put /home/admin/newFile /
  5. 下载文件
    下载hdfs中/ 目录下的newFile文件到本机/home/admin/newFile中
    a. 执行hadoop fs –get /newFile /home/admin/newFile
  6. 查看文件内容
    查看hdfs中/目录下的newFile文件
    a. 执行hadoop fs –cat /newFile

你可能感兴趣的:(Hadoop的简单搭建)