hadoop搭建
目的
本文档主要讲述如何快速搭建单节点hadoop以及一些简单map reduce操作和一些HDFS基本知识
配置要求
平台要求
- GNU/LINUX支持该平台,Hadoop可以在linux上搭建2000个节点的集群。
- windows也支持,但是以下步骤只支持linux。想要在windows搭建hadooop请访问wiki page
软件要求
java安装
下载jdk
解压
-
设置环境变量:
sudo gedit ~/.bashrc
-
在末尾添加:
export JAVA_HOME=/usr/local/java/jdk1.8.0_25
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
ssh
如果需要远程连接hadoop进程则需要安装ssh
下载
到hadoop官网选择合适镜像下载.Apache download mirror
准备安装
-
解压并编辑目录下的/etc/hadoop/hadoop-env.sh 文件去改变对应参数:
export JAVA_HOME=/usr/java/latest
-
敲入下列命令
bin/hadoop
会显示一些相关hadoop信息。
Standalone 模式
默认的一个简单模式,在非分布下的运行,只用一个java进程,对于debug非常有用.
下列命令可用于测试:
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'
cat output/*
伪分布模式
可以在一台机器上运行多个java进程
配置
etc/hadoop/core-site.xml
hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://localhost:9000
hdfs-site.xml
dfs.replication
1
dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name
dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data
执行
文件系统格式化
bin/hdfs namenode -format
开启namenode 和datanode的守护进程
./sbin/start-dfs.sh
查看伪分布界面
http://localhost:50070, 也可通过jps查看进程
配置好文件夹
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/
bin/hdfs dfs -put etc/hadoop/*.xml /user/
完成测试程序运行
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /user/
bin/hdfs dfs -get output output
cat output/*
或者 bin/hdfs dfs -cat output/*
停止
sbin/stop-dfs . sh
Hbase 操作实验
Standalone Hbase
一个standalone模式拥有所有的Hbase守护进程,master, regionservers, zookeeper.下面是Hbase的安装使用和一些简单操作。
JDK安装
安装
下载,解压:Apache Download Mirrors
编辑/conf/hbase-env.sh文件,修改JAVA_HOME为合适值(一般为/usr)。
-
编辑/conf/hbase-site.xml
hbase.rootdir file:///home/testuser/hbase hbase.zookeeper.property.dataDir /home/testuser/zookeeper
- 执行
bin/start-hbase.sh
来开启hbase, 调用jps可以看到hbase进程,访问localhost:16010来访问WEB界面。
使用
- 连接hbase:
./bin/hbase shell
- 创建表
create 'test' 'cf'
- 列出表信息:
list 'test'
- 将数据调入表
put 'test' , 'row1', 'cf:a', 'value1'
- 扫描整表:
scan 'test'
- 得到一行数据
get 'test', 'row1'
- 停止:
./bin/stop-hbase.sh
伪分布hbase
意味着在一台机器上运行,但是每个守护进程通过不同的进程运行(hmaster, hregionserver, zookeeper)
安装
关闭hbase(如果它正在运行的话)
-
配置hbase: 编辑hbase-site.xml, 将其改为:
增加一项:
hbase.cluster.distributed true 同时将
hbase.rootdir
一项改为:hbase.rootdir hdfs://localhost:9000/hbase 开启hbase:
./bin/start-hbase.sh
检查hbase目录: 进入到hadoop底下,
./bin/hadoop fs -ls /hbase
shell命令测试
Hbase Master(HMaster) Server
Hmaste server掌控着Hbase 集群。 你可以启动9个备用Hmaster server(共10个)。
开启
local-master-backup.sh
对于每个你想要开启的备用Hmaster你需要指定一个端口偏移量。 因为每个Hmaster 一般使用三个端口(默认16010, 16020, 16030) 端口偏移量就是在其之上的增加。
eg:./bin/local-master-backup.sh start 2
停止
如果需要停止某些备用Hmaster但又不停用整个集群的话,则需要找到它的进程pid, 然后kill掉。
cat /tmp/hbase-xxx-x-master.pid
HRegionServer
HRegionServer 控制着hbase引导下的储存文件中的数据。一般情况下集群中一个node跑一个HRegionServer。多个HRegionServer进程便于测试伪分布模式。启用与停止和Hmaster类似:
./bin/local-regionservers.sh start 2 3 4
./bin/local-regionservers.sh stop 2 3 4