hadoop实验报告
基于hadoop的大规模文本处理技术实验
专 业 班 级 : 软件1102
学 生 姓 名 : 张国宇
学 号 : 201116040221
Setup Hadoop on Ubuntu 11.04 64-bit
提示: 前面的putty软件安装省略;直接进入JDK的安装。
1. Install Sun JDK<安装JDK>
由于Sun JDK在ubuntu的软件中心中无法找到,我们必须使用外部的PPA。打开终端并且运行以下命令:
sudo add-apt-repository ppa:ferramroberto/java
sudo apt-get update
sudo apt-get install sun-java6-bin
sudo apt-get install sun-java6-jdk
Add JAVA_HOME variable<配置环境变量>:
先输入粘贴下面文字:
sudo vi /etc/environment
再将下面的文字输入进去:按i键添加,esc键退出,X保存退出;如下图:
export JAVA_HOME="/usr/lib/jvm/java-6-sun-6"
Test the success of installation in Terminal<在终端测试安装是否成功>:
sudo . /etc/environment
java –version
2. Check SSH Setting<检查ssh的设置>
ssh localhost
如果出现“connection refused”,你最好重新安装 ssh(如下命令可以安装):
sudo apt-get install openssh-server openssh-client
如果你没有通行证ssh到主机,执行下面的命令:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3. Setup Hadoop<安装hadoop>
安装 apache2
sudo apt-get install apache2
下载hadoop:
sudo wget /hadoop/common/hadoop-1.0.4/hadoop-1.0.4.tar.gz
解压hadoop所下载的文件包:
tar xvfz hadoop-1.0.4.tar.gz
下载最近的一个稳定版本,解压。编辑/ hadoop-env.sh定义java_home“use/library/java-6-sun-6”作为hadoop的根目录:
Sudo vi conf/hadoop-env.sh
将以下内容加到文件最后:
# The java implementation to use. Required.
export JAVA_HOME=/usr/lib/jvm/java-6-sun-6
Pseudo-Distributed Operation (Single-Node Cluster)< 伪分布式操作(单节点集群)>:
将下面中间部分插入:(得到如图:)
cat conf/core-site.xml:
hdfs://localhost:9000
cat conf/hdfs-site.xml:
dfs.replication
1
cat conf/mapred-site.xml:
mapred.job.tracker
localhost:9001
Switch to hadoop root directory and format a new distributed file system<转向根目录,格式化一个新的文件分布式系统 >:
bin/hadoop n