hadoop安装,单机,伪分布

准备:

环境:

初学者,推荐使用ubuntu,因为官方使用,而且ubuntu社区更活跃,出现问题容易解决。所以啊,首先你需要安装一个ubuntu。什么,你习惯用windwos?那就换啊,各种虚拟机,有勇气的直接重装系统。什么?不会linux?谁出生就会啊?学习啊。什么?感觉学习linux又要花很多时间。这不是肯定的么,学什么都要花时间的,好吧?so,去学习吧。


安装软件:

ssh,官方推荐还要安装rsync,然而我没有安装也可以正常启动。
命令:
$ sudo apt-get install ssh
$ sudo apt-get install rsync

当然jdk是必须的,推荐自己去官网下载。

hadoop准备:

首先你需要一个hadoop的压缩包,这貌似是废话吧。
解压后放在/opt目录,然后cd进安装目录。
编辑 etc/hadoop/hadoop-env.sh
# set to the root of your Java installation
export JAVA_HOME=你的jdk路径
在/etc/profile中配一下path,jdk的环境变量也在这列配置啊。
输入
$ bin/hadoo

如果出现提示使用信息,就意味着准备工作完成了。

安装:

推荐0.20.2版本,简单,容易理解,而且很多经典hadoop书籍也是根据这个版本来说的。熟了之后在学新版本也很简单。

Standalone Operation(单机)

单机安装很简单,hadoop默认就是单机,这种情况下,是不启用hdfs的,啥?你不知道什么事hdfs?额,我这篇文章只是叫你安装,你且跟着来吧,理论的我之后会有文章说明,please继续关注。
$ mkdir input
$ cp etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'
$ cat output/*

就可以了。

Pseudo-Distributed Operation(伪分布式)

简单配置
etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>


etc/hadoop/hdfs-site.xml:
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

接下来是要让ssh免密码登录
 $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
 $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
 $ export HADOOP\_PREFIX=/usr/local/hadoop
OK,不出意外,配置已经结束了。
测试
$ bin/hdfs namenode -format
$ sbin/start-dfs.sh
$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/conf/* input
$ bin/hadoop jar hadoop-0.20.2-examples.jar input output
$ cat output/*
OK,能看到统计的信息出来,就对了。


结果:

出现单词统计信息,恭喜你成功了。
伪分布式安装已经结束。
集群安装,请看下一篇文章。

你可能感兴趣的:(hadoop,ubuntu)