Mac OS X EI Captain 安装 Hadoop 3.0.0-alpha2

2017年1月,Apache Hadoop 提供了 3.0.0-alpha2 版本,先前在安装 2.7.3 的时候折腾了半天,这次更新后小狼也顺便重新梳理了一下安装过程,给需要的同学做个参考。我知道我知道,就是想让 Hadoop 先跑起来是吧,来来来~

安装时参考了 Hadoop: Setting up a Single Node Cluster;
以及 Setting up Hadoop 2.7.1 on Mac OS X Yosemite & Hadoop Eclipse Setup;
以及 在Mac下安装Hadoop的坑。

此外,作为小白,我把自己在安装中遇到的一些问题做了备注。

1. PREREQUISITES 安装前的准备

a) Java

Hadoop 2.7 以及后续版本需要 Java 7 以上版本的支持, 参见 Hadoop Java Versions。打开 Terminal 输入以下代码查看 Java 的版本:

  • Terminal 可用快捷键 command+space 中搜索 "terminal" 打开。
$ java -version

如果已经装了Java,你会看到类似酱紫结果:

java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)

如果没有,会要求你安装,你可以去这里下载 Java SE Downloads,或者用 Homebrew 安装。我是用 Homebrew 安装了最新版本 Java。

  • 在上面的链接中有 Homebrew 的安装和使用方法,这里简单说一下,依次输入下面两行代码,第一个用来安装 Homebrew,第二个用来安装 Java。
$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
$ brew install java

b) SSH

首先在系统里打开远程登录,位置在 System Preference -> Sharing 中,左边勾选 Remote Login,右边选择 All Users

  • 系统偏好可用快捷键 command+space 中搜索 "System Preference" 打开。

在 Terminal 里输入以下代码查看能不能免密 ssh 到 localhost:

$ ssh localhost

可以的话会返回类似如下结果:

Last login: Sat Mar  4 19:52:15 2017

如果不行输入:

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

2. DOWNLOAD HADOOP 下载 Hadoop

去 官方镜像 下载 hadoop-3.0.0-alpha2 的压缩包,然后解压到你爱的路径。

  • 如果用 Homebrew 目前会自动安装 Hadoop 2.7.3 版本,且安装路径为 /usr/local/Cellar/Hadoop,为下文叙述方便我们采用直接下载的方式。

3. CONFIGURATION 配置

还记得你解压的 Hadoop 包吗?找到它,进入 etc/hadoop/ 下,我们需要对其中的文件做一些改动。我是用 Sublime Text 编辑的,强烈推荐。也可以在 Terminal 中用 nano 命令编辑,新手不推荐。

a) hadoop-env.sh

输入以下代码看看你把 Java 装到哪里了:

$ /usr/libexec/java_home

你会看到类似酱紫结果:

/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home

打开 hadoop-env.sh 文件(位置 etc/hadoop/),找到 # export JAVA_HOME=,改参数如下:

export JAVA_HOME={your java home directory}
  • {your java home directory} 改成你上面查到的 Java 路径,记得去掉注释 #。比如 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home

然后进到 Hadoop 解压包所在的路径:

$ cd {your hadoop distribution directory}
  • {your hadoop distribution directory} 改成你解压的 Hadoop 路径,比如 cd /Users/Tracy/Desktop/HADOOP/hadoop-3.0.0-alpha2
  • 一个简单的方式知道你的 Hadoop 路径:查看 hadoop-3.0.0-alpha2 文件夹里的任意文件或子文件夹的信息。比如,右键单击 etc 文件夹,选择 Get Info,直接复制路径 Where 的内容即可,Terminal 会自动转化为正确的形式。

接着输入以下代码:

$ bin/hadoop

你应该会看到一段关于 Hadoop 的各种信息。

接下来你就可以建立以下三种模式的 Hadoop 集群了:

  1. Standalone mode 独立式
  2. Pseudo-distributed mode 伪分布式
  3. fully-distributed mode 全分布式

我们建立第二种,让 Hadoop 做为后台应用运行在本地机器,模拟小集群。

b) core-site.xml

打开 core-site.xml 文件(位置 etc/hadoop/),改参数如下:


    
        fs.defaultFS
        hdfs://localhost:9000
    

c) hdfs-site.xml

打开 hdfs-site.xml 文件(位置 etc/hadoop/),改参数如下:


    
        dfs.replication
        1
    

d) mapred-site.xml

打开 mapred-site.xml 文件(位置 etc/hadoop/),改参数如下:


    
        mapreduce.framework.name
        yarn
    

  • 如果文件后缀是 .xml.example,改为 .xml

e) yarn-site.xml

打开 yarn-site.xml 文件(位置 etc/hadoop/),改参数如下:


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
    

4. EXECUTION 走你

接下来就是格式化后启动 HDFS 和 YARN,先输入以下代码定位到你的 Hadoop 路径:

$ cd {your hadoop distribution directory}
  • your hadoop distribution directory 改成你解压的 Hadoop 路径,要点参考 3. CONFIGURATION 配置。

格式化文件系统:

$ bin/hdfs namenode -format

启动 NameNode 和 DataNode:

$ sbin/start-dfs.sh

现在你应该可以在浏览器中打开下面的链接看到亲切的 Overview 界面了:

NameNode - http://localhost:9870

让 HDFS 可以被用来执行 MapReduce jobs:

$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/
  • 改成你的用户名,记得去掉 <>

启动 ResourceManager 和 NodeManager:

$ sbin/start-yarn.sh

现在你应该可以在浏览器中打开下面的链接看到亲切的 All Applications 界面了:

ResourceManager - http://localhost:8088

拷点文件,跑个栗子:

$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'

你应该能看到诸如下面的反馈结果:

2017-03-04 21:52:37,041 INFO mapreduce.Job:  map 0% reduce 0%
2017-03-04 21:52:42,097 INFO mapreduce.Job:  map 100% reduce 0%
2017-03-04 21:52:48,158 INFO mapreduce.Job:  map 100% reduce 100%
2017-03-04 21:52:48,170 INFO mapreduce.Job: Job job_1488635356409_0002 completed successfully

检查一下输出:

$ bin/hdfs dfs -get output output
$ cat output/*

或者

$ bin/hdfs dfs -cat output/*

看到如下结果:

1   dfsadmin
1   dfs.replication

玩累了就输入以下代码停止:

$ sbin/stop-dfs.sh
$ sbin/stop-yarn.sh

You are all done 全剧终

作为新手,小狼也折腾了半天,发现网上很多代码贴了都不能直接用,期间也走过不少弯路。主要因为那些代码里面包含了一些原作者的安装信息,比如用户名和路径,以及一些不必要的额外设置。

会者不难,难者不会,可能一些简单的代码修改对于不会编程的人来说都不简单。小狼力求在本文中列出绝大部分新手安装 Hadoop 时会遇到的困惑,希望大家互相学习,共同进步。另外,建议大家在百度前首先参考官方文档,会节省大量时间。

你可能感兴趣的:(Mac OS X EI Captain 安装 Hadoop 3.0.0-alpha2)