Hadoop+hive+sqoop环境部署
1、 部署hadoop
版本号:0.20.203
a、解压hadoop压缩包到 /usr/local目录下
b、配置hadoop
conf/core-site.xml:
conf/hdfs-site.xml:
conf/mapred-site.xml:
Java相关选项:conf/hadoop_env.sh,加入如下export项:
export JAVA_HOME="/usr/local/java/jdk1.6.0_25"
export HADOOP_HEAPSIZE=1024
局域网内短域名设置:/etc/hosts
192.168.1.184 module
192.168.1.188 my188
192.168.1.190 derek
192.168.1.200 my200
192.168.1.229 radius
根据局域网短域名,设置master和slave
conf/master
my188
conf/slaves
module
derek
radius
my200
注:确保所有服务器上配置文件相同!!!
c、配置ssh文件登陆
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
将authorized_keys拷贝到每个服务器的~/.ssh/目录下,确保使用文件能够登录服务器
2、 部署hive
版本号:0.9.0,在namenode服务器上部署hive
解压hive程序包
将hive程序包放到/usr/local目录下
修改~/.bashrc,添加如下内容:
#hadoop
export HADOOP_HOME=/usr/local/hadoop-0.20.203.0
export PATH=$PATH:$HADOOP_HOME/bin
#hive
export HIVE_HOME=/usr/local/hive-0.9.0-bin
export PATH=$PATH:$HIVE_HOME/bin
运行 hive 即可启动 hive ,如果正常启动,将会出现“ hive> ”提示符。
在命令提示符中输入“ show tables; ”,如果正常运行,说明已部署成功,可供使用。
3、 部署sqoop ,版本号:1.4.2。将mysql数据表导入hive中,供hive查询
解压hive程序包
将hive程序包放到/usr/local目录下
修改~/.bashrc,添加如下内容:
#sqoop
export SQOOP_HOME=/usr/local/sqoop-1.4.2
export PATH=$PATH:$SQOOP_HOME/bin
将mysql的jdbc驱动jar包拷贝到sqoop目录下的lib中
运行如下命令,将mysql中的一张表导入到hive中。
sqoop import --connectjdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --tableTABLE --hive-import --fields-terminated-by','
导入hive的数据以“,”分割