已经好几年没有碰过hadoop了,上次research的时候版本还很低,现在已经彪到2.0了。。
1.按照ubuntu
1.1首先从ubuntu网站下载64bit server版本
1.2在hyper-v上安装ubuntu,配置虚拟网络适配器,分配新ip 192.168.11.101
1.3发现server版默认好像木有desktop,sudo apt-get install ubuntu-desktop安装后,startx进入windows界面
2.安装jdk(1.7)
2.1 删除已经按照的openjdk: sudo apt-get purge openjdk*
2.2 按照jdk 安装步骤参考:http://forum.ubuntu.org.cn/viewtopic.php?t=183803
2.3
3.按照ssh
sudo apt-get install ssh
免密码ssh设置(http://hadoop.apache.org/docs/r0.19.1/cn/quickstart.html)
执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost
4.安装hadoop
4.1从Apache下载
4.2 解压到目标目录
4.3 修改配置文件 hadoop-env.sh
sudo gedit hadoop/conf/hadoop-env.sh
修改为 export JAVA_HOME=/usr/lib/jvm/java/jdk1_7
4.4 修改配置文件conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
4.5 修改配置文件conf/mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
4.6 修改配置文件conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4.7 单机版环境不修改conf/master 和 conf/slaves (默认是localhost)
5.运行hadoop
5.1 格式化 bin/hadoop namenode -format
5.2 启动进程 bin/start-all.sh
5.3 浏览NameNode和JobTracker的网络接口,它们的地址默认为:
NameNode - http://localhost:50070/
JobTracker - http://localhost:50030/
6.测试wordcount
6.1 创建目录
$cd ~/work
$mkdir input
6.2 建2个本地磁盘文件
$echo "Hello world halo world” >>~/work/input/file1
$echo "hello hadoop halo hadoop” >>~/work/input/file2
6.3 HDFS上创建input目录
$hadoop fs -mkdir /tmp/input
6.4 copy 文件1和2到HDFS的input下
$hadoop fs -put work/input/* /tmp/input
6.5 运行hadoop-examples-1.1.2.jar文件
$hadoop jar hadoop-examples-1.1.2.jar wordcount /tmp/input /tmp/out
6.6 查看运行情况
http://localhost:50030/jobtracker.jsp
6.7 查看运行结果
$hadoop fs -ls /tmp/out
看到 _SUCCESS,_logs 文件,
$hadoop fs -cat /tmp/out/part-r-00000 看到运行结果