Mac OS X EI Captain 安装 Hadoop 3.0.0-alpha2

2017年1月，Apache Hadoop 提供了 3.0.0-alpha2 版本，先前在安装 2.7.3 的时候折腾了半天，这次更新后小狼也顺便重新梳理了一下安装过程，给需要的同学做个参考。我知道我知道，就是想让 Hadoop 先跑起来是吧，来来来~

安装时参考了 Hadoop: Setting up a Single Node Cluster；
以及 Setting up Hadoop 2.7.1 on Mac OS X Yosemite & Hadoop Eclipse Setup；
以及在Mac下安装Hadoop的坑。

此外，作为小白，我把自己在安装中遇到的一些问题做了备注。

1. PREREQUISITES 安装前的准备

a) Java

Hadoop 2.7 以及后续版本需要 Java 7 以上版本的支持，参见 Hadoop Java Versions。打开 Terminal 输入以下代码查看 Java 的版本：

Terminal 可用快捷键 command+space 中搜索 "terminal" 打开。

$ java -version

如果已经装了Java，你会看到类似酱紫结果：

java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

如果没有，会要求你安装，你可以去这里下载 Java SE Downloads，或者用 Homebrew 安装。我是用 Homebrew 安装了最新版本 Java。

在上面的链接中有 Homebrew 的安装和使用方法，这里简单说一下，依次输入下面两行代码，第一个用来安装 Homebrew，第二个用来安装 Java。

$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

$ brew install java

b) SSH

首先在系统里打开远程登录，位置在 System Preference -> Sharing 中，左边勾选 Remote Login，右边选择 All Users。

系统偏好可用快捷键 command+space 中搜索 "System Preference" 打开。

在 Terminal 里输入以下代码查看能不能免密 ssh 到 localhost：

$ ssh localhost

可以的话会返回类似如下结果：

Last login: Sat Mar  4 19:52:15 2017

如果不行输入：

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

2. DOWNLOAD HADOOP 下载 Hadoop

去官方镜像下载 hadoop-3.0.0-alpha2 的压缩包，然后解压到你爱的路径。

如果用 Homebrew 目前会自动安装 Hadoop 2.7.3 版本，且安装路径为 /usr/local/Cellar/Hadoop，为下文叙述方便我们采用直接下载的方式。

3. CONFIGURATION 配置

还记得你解压的 Hadoop 包吗？找到它，进入 etc/hadoop/ 下，我们需要对其中的文件做一些改动。我是用 Sublime Text 编辑的，强烈推荐。也可以在 Terminal 中用 nano 命令编辑，新手不推荐。

a) hadoop-env.sh

输入以下代码看看你把 Java 装到哪里了：

$ /usr/libexec/java_home

你会看到类似酱紫结果：

/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home

打开 hadoop-env.sh 文件（位置 etc/hadoop/），找到 # export JAVA_HOME=，改参数如下：

export JAVA_HOME={your java home directory}

把 {your java home directory} 改成你上面查到的 Java 路径，记得去掉注释 #。比如 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home。

然后进到 Hadoop 解压包所在的路径：

$ cd {your hadoop distribution directory}

把 {your hadoop distribution directory} 改成你解压的 Hadoop 路径，比如 cd /Users/Tracy/Desktop/HADOOP/hadoop-3.0.0-alpha2。
一个简单的方式知道你的 Hadoop 路径：查看 hadoop-3.0.0-alpha2 文件夹里的任意文件或子文件夹的信息。比如，右键单击 etc 文件夹，选择 Get Info，直接复制路径 Where 的内容即可，Terminal 会自动转化为正确的形式。

接着输入以下代码：

$ bin/hadoop

你应该会看到一段关于 Hadoop 的各种信息。

接下来你就可以建立以下三种模式的 Hadoop 集群了：

Standalone mode 独立式
Pseudo-distributed mode 伪分布式
fully-distributed mode 全分布式

我们建立第二种，让 Hadoop 做为后台应用运行在本地机器，模拟小集群。

b) core-site.xml

打开 core-site.xml 文件（位置 etc/hadoop/），改参数如下：


    
        fs.defaultFS
        hdfs://localhost:9000

c) hdfs-site.xml

打开 hdfs-site.xml 文件（位置 etc/hadoop/），改参数如下：


    
        dfs.replication
        1

d) mapred-site.xml

打开 mapred-site.xml 文件（位置 etc/hadoop/），改参数如下：


    
        mapreduce.framework.name
        yarn

如果文件后缀是 .xml.example，改为 .xml。

e) yarn-site.xml

打开 yarn-site.xml 文件（位置 etc/hadoop/），改参数如下：


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

4. EXECUTION 走你

接下来就是格式化后启动 HDFS 和 YARN，先输入以下代码定位到你的 Hadoop 路径：

$ cd {your hadoop distribution directory}

把 your hadoop distribution directory 改成你解压的 Hadoop 路径，要点参考 3. CONFIGURATION 配置。

格式化文件系统：

$ bin/hdfs namenode -format

启动 NameNode 和 DataNode：

$ sbin/start-dfs.sh

现在你应该可以在浏览器中打开下面的链接看到亲切的 Overview 界面了：

NameNode - http://localhost:9870

让 HDFS 可以被用来执行 MapReduce jobs：

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/

把改成你的用户名，记得去掉 <> 。

启动 ResourceManager 和 NodeManager：

$ sbin/start-yarn.sh

现在你应该可以在浏览器中打开下面的链接看到亲切的 All Applications 界面了：

ResourceManager - http://localhost:8088

拷点文件，跑个栗子：

$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'

你应该能看到诸如下面的反馈结果：

2017-03-04 21:52:37,041 INFO mapreduce.Job:  map 0% reduce 0%
2017-03-04 21:52:42,097 INFO mapreduce.Job:  map 100% reduce 0%
2017-03-04 21:52:48,158 INFO mapreduce.Job:  map 100% reduce 100%
2017-03-04 21:52:48,170 INFO mapreduce.Job: Job job_1488635356409_0002 completed successfully

检查一下输出：

$ bin/hdfs dfs -get output output
$ cat output/*

或者

$ bin/hdfs dfs -cat output/*

看到如下结果：

1   dfsadmin
1   dfs.replication

玩累了就输入以下代码停止：

$ sbin/stop-dfs.sh

$ sbin/stop-yarn.sh

You are all done 全剧终

作为新手，小狼也折腾了半天，发现网上很多代码贴了都不能直接用，期间也走过不少弯路。主要因为那些代码里面包含了一些原作者的安装信息，比如用户名和路径，以及一些不必要的额外设置。

会者不难，难者不会，可能一些简单的代码修改对于不会编程的人来说都不简单。小狼力求在本文中列出绝大部分新手安装 Hadoop 时会遇到的困惑，希望大家互相学习，共同进步。另外，建议大家在百度前首先参考官方文档，会节省大量时间。