一、hadoop 本机安装:
1)复制文件hadoop,jdk
2)配置变量java_home,path,hadoop_home ,conf/hadoop-env.sh 中的JAVA_HOME
3)运行如下命令测试安装是否成功
bin/hadoop jar hadoop-0.20.0-examples.jar grep input output 'dfs[a-z.]+'
二、伪分布模式(在本机的基础上增加步骤):
1)配置:core-site.xml,hdfs-site.xml,mapred-site.xml; 参考地址:http://blog.csdn.net/inkfish/article/details/5150029
2)配置ssh无密码登录; 参考地址: http://www.g-loaded.eu/2005/11/10/ssh-with-keys/
无密码ssh访问=================
/etc/ssh/sshd_config
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys
ssh-keygen -t dsa -P ''
scp ~/.ssh/id_dsa.pub
[email protected]:~/.ssh/authorized_keys
chmod 0600 *
==========================
2)格式化namenode:
$ bin/hadoop namenode -format
4)测试数据执行是否成功
三、真分布模式:
参考:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html(较详细的搭建步骤)
集群从属机器上的配置信息需要和主机上的配置信息一致,尤其是服务ip地址。
从属机器上不需要单独格式化namenode;
配置文件修改后(如备份策略),不需要重新格式化namenode;
四、常用命令
启动 bin/start-all.sh
hadoop-daemon.sh start datanode
hadoop-daemon.sh start tasktracher
./hadoop jar hadoop-examples-1.1.1.jar randomwriter out3
./hadoop-daemon.sh stop resourcemanager
./hadoop-daemon.sh stop nodemanager
./hadoop-daemon.sh start nodemanager
./hadoop-daemon.sh start resourcemanager
查看运行情况hadoop dfsadmin -report,发现可用节点是0:
hadoop dfsadmin -refreshNodes 刷新节点(删除节点时用)
hadoop dfsadmin -safemode leave
jps
http://localhost:50030
http://localhost:50070
五、问题记录
datanode 连接不上namenode ,提示because hostname cannot be resolved 的错误时,可考虑在namenode的/etc/hosts 文件中配置datanode信息如:192.168.2.120 datanode3