1.在所有机器上建立相同目录:比如/home/bofang/hadoop,然后把hadoop的包解压到该目录下,最终的目录结构为:/home/bofang/hadoop/hadoop-0.20.2/bin,设/home/bofang/hadoop/hadoop-0.20.2为HADOOP_HOME
2.修改所有机器上的HADOOP_HOME/conf/hadoop-env.sh,指定JAVA_HOME
3.选择一台机器作为master,设ip为:IP_MASTER(192.168.1.10).(虚拟步骤)。
4.配置所有机器的/etc/hosts文件,将集群内的所有的机器的ip hostname配置好。要将集群内所有的ip hostname列表都配置到每一个机器的/etc/hosts中。
这里需要注意:要将每个机器的hosts文件的对localhost的配置项都删掉。下面是一个样本:
::1 datanode-01 localhost6.localdomain6 localhost6
10.1.173.149 datanode-01 # Added by NetworkManager
# The following lines are desirable for IPv6 capable hosts
::1 localhost ip6-localhost ip6-loopback
fe00::0 ip6-localnet
ff00::0 ip6-mcastprefix
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters
ff02::3 ip6-allhosts
10.1.173.149 datanode-01
10.1.173.155 bofang-datanode
10.1.173.156 bofang-VirtualBox
5.在master机器上配置HADOOP_HOME/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://IP_MASTER:9000</value>
</property>
</configuration>
将该core-site.xml拷贝到各子节点的HADOOP_HOME/conf下。
6.在master机器上配置HADOOP_HOME/conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>IP_MASTER:9001</value>
</property>
</configuration>
将该mapred-site.xml拷贝到各子节点的HADOOP_HOME/conf下。
7.配置master机器上的HADOOP_HOME/conf/masters,设置为本机ip。
8.配置master机器上的HADOOP_HOME/conf/slaves,每一行为节点机器的ip地址。
集群其他参数配置只需要在master机器上配置即可,节点机器不需要配置。
一些有用的参考在这里:http://www.infoq.com/cn/articles/hadoop-config-tip