macOS hadoop+spark+scala安装教程

macOS hadoop+spark+scala安装教程

环境搭建

操作系统:macOS 10.13.6

JDK:1.8.0_201

hadoop: 2.8.5

Spark:2.4.3

Scala:2.13.0

一、文件准备

1.jdk 下载链接

image-20190626104618244

2.hadoop 下载链接

image-20190626104931324

3.scala 下载链接

image-20190626105435163

4.spark 下载链接

image-20190626105617867

二、开始安装

1.设置SSH无密码登陆

(1)由于macOS自带ssh,因此就不必再重复安装。如果从来都没有配置过ssh则按照以下步骤:

$ cd ~/.ssh
$ rm *
$ ssh-keygen -t rsa              # 会有提示,都按回车就可以
$ cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

​ 此外,还需要进入系统偏好设置—>共享—>远程登录

image-20190626110206280

​ 验证是否设置成功:

image-20190626110309724

​ 第一次登录会出现选定项,默认选择yes即可。

(2) 如果之前有设置过ssh秘钥,则按照以下步骤:

$ cd ~/.ssh
$ cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

​ 其他步骤一样,这里就不再赘述,可能遇见的问题。

2.安装Java环境

双击下载好的文件即可进行安装,安装完之后需要添加环境变量方可安装成功,具体操作如下:

$ open ~/.bash_profile

添加以下语句至环境变量中

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_201.jdk/Contents/Home #需要根据jdk版本进行更改
export PATH=$JAVA_HOME/bin:$PATH:.
export CLASS_PATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:.
$ source ~/.bash_profile #用来更新环境变量

验证java环境是否配置成功

$ java -version 
image-20190626111301509

3.安装hadoop

(1) hadoop安装

我们将hadoop安装至/Users/xiongfeiqin/hadoop中:

$ tar -xvf Downloads/hadoop-2.8.5.tar.gz /Users/xiongfeiqin/hadoop
$ open ~/.bash_profile

增加如下至环境变量中:

export HADOOP_HOME=/Users/xiongfeiqin/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ source ~/.bash_profile

(2) 配置单机伪分布式

Hadoop 的配置文件位于 /Users/xiongfeiqin/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

修改配置文件core-site.xml



改为


    
        hadoop.tmp.dir
        file:/usr/local/hadoop/tmp
        Abase for other temporary directories.
    
    
        fs.defaultFS
        hdfs://localhost:9000
    

同样的,修改配置文件 hdfs-site.xml



改为


    
        dfs.replication
        1
    
    
        dfs.namenode.name.dir
        file:/Users/xiongfeiqin/hadoop/tmp/dfs/name
    
    
        dfs.datanode.data.dir
        file:/Users/xiongfeiqin/hadoop/tmp/dfs/data #注意自己hadoop路径
    

配置完成后,执行 NameNode 的格式化:

$ hadoop namenode -format

成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错。

image-20190626112838858

如果在这一步时提示 Error: JAVA_HOME is not set and could not be found. 的错误,则说明之前设置 JAVA_HOME 环境变量那边就没设置好,请按教程先设置好 JAVA_HOME 变量,否则后面的过程都是进行不下去的。如果已经按照前面教程在.bashrc文件中设置了JAVA_HOME,还是出现 Error: JAVA_HOME is not set and could not be found. 的错误,那么,请到hadoop的安装目录修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到“export JAVA_HOME=${JAVA_HOME}”这行,然后,把它修改成JAVA安装路径的具体地址,比如,“export JAVA_HOME=/usr/lib/jvm/default-java”,然后,再次启动Hadoop。

接着开启 NameNode 和 DataNode 守护进程。

$ start-all.sh

输入命令

$ jps

出现如下信息则为启动成功

image-20190626113149553

成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

4.安装scala

$ tar -xvf Downloads/scala-2.13.0.tgz /Users/xiongfeiqin/scala
$ open ~/.bash_profile

添加环境变量

export SCALA_HOME=/Users/xiongfeiqin/scala
export PATH=$PATH:$SCALA_HOME/bin

更新环境变量及验证安装成功与否

$ source ~/.bash_profile
$ scala

出现以下信息则安装成功

image-20190626115607583

5.安装spark

$ tar -xvf Downloads/spark-2.4.3-bin-hadoop2.7.tgz /Users/xiongfeiqin/spark
$ open ~/.bash_profile

添加环境变量

export SPARK_HOME="/Users/xiongfeiqin/spark/bin:${PATH}"

更新环境变量及验证安装成功与否

$ source ~/.bash_profile
$ pyspark

出现以下信息则安装成功

image-20190626113815244

三、Reference

1.http://dblab.xmu.edu.cn/blog/install-hadoop/

2.https://blog.csdn.net/CYJ2014go/article/details/82660137

3.https://www.cnblogs.com/87hbteo/p/7606012.html

4.https://www.cnblogs.com/ErMengNJUniverser/p/8066074.html

5.https://www.jianshu.com/p/5e5de41afda1

你可能感兴趣的:(macOS hadoop+spark+scala安装教程)