最近工作中要做一个小工具,使用到了hadoop,以前又没有搞过,所以简单的研究了一下,先从安装说起:
本文使用的环境是:ubuntu10+hadoop-0.21
第一步,先确认本机是否开启了sshd,方法很简单,用如下命令:
ssh localhost
若没有运行sshd,则会提示你无法登录,这时需要手动安装一下,命令如下:
sudo apt-get install openssh-server
注意:ssh 必须安装并且保证 sshd 一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程
第二步,设置ssh密码,实现免密码登录,命令如下:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
第三步,配置hadoop-env.sh
export JAVA_HOME=/home/dream-victor/jdk1.6.0_21--指向自己的jdk目录
export HADOOP_HOME=/home/dream-victor/hadoop-0.21.0--指向自己的hadoop目录
export PATH=$PATH:$HADOOP_HOME/bin
第四步,配置core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/tmp/hadoop/hadoop-${user.name}</value> </property> </configuration>
第五步,配置hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
第六步,配置mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration>
第七步,格式化一个新的分布式文件系统
在bin目录下,运行如下命令:hadoop namenode -format
第八步,启动hadoop:
在bin目录下,运行start-all.sh
查看,NameNode - http://localhost:50070/
和JobTracker - http://localhost:50030/