macOS hadoop+spark+scala安装教程
环境搭建
操作系统:macOS 10.13.6
JDK:1.8.0_201
hadoop: 2.8.5
Spark:2.4.3
Scala:2.13.0
一、文件准备
1.jdk 下载链接
2.hadoop 下载链接
3.scala 下载链接
4.spark 下载链接
二、开始安装
1.设置SSH无密码登陆
(1)由于macOS自带ssh,因此就不必再重复安装。如果从来都没有配置过ssh则按照以下步骤:
$ cd ~/.ssh
$ rm *
$ ssh-keygen -t rsa # 会有提示,都按回车就可以
$ cat ./id_rsa.pub >> ./authorized_keys # 加入授权
此外,还需要进入系统偏好设置—>共享—>远程登录
验证是否设置成功:
第一次登录会出现选定项,默认选择yes即可。
(2) 如果之前有设置过ssh秘钥,则按照以下步骤:
$ cd ~/.ssh
$ cat ./id_rsa.pub >> ./authorized_keys # 加入授权
其他步骤一样,这里就不再赘述,可能遇见的问题。
2.安装Java环境
双击下载好的文件即可进行安装,安装完之后需要添加环境变量方可安装成功,具体操作如下:
$ open ~/.bash_profile
添加以下语句至环境变量中
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_201.jdk/Contents/Home #需要根据jdk版本进行更改
export PATH=$JAVA_HOME/bin:$PATH:.
export CLASS_PATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:.
$ source ~/.bash_profile #用来更新环境变量
验证java环境是否配置成功
$ java -version
3.安装hadoop
(1) hadoop安装
我们将hadoop安装至/Users/xiongfeiqin/hadoop中:
$ tar -xvf Downloads/hadoop-2.8.5.tar.gz /Users/xiongfeiqin/hadoop
$ open ~/.bash_profile
增加如下至环境变量中:
export HADOOP_HOME=/Users/xiongfeiqin/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
$ source ~/.bash_profile
(2) 配置单机伪分布式
Hadoop 的配置文件位于 /Users/xiongfeiqin/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。
修改配置文件core-site.xml
将
改为
hadoop.tmp.dir
file:/usr/local/hadoop/tmp
Abase for other temporary directories.
fs.defaultFS
hdfs://localhost:9000
同样的,修改配置文件 hdfs-site.xml:
将
改为
dfs.replication
1
dfs.namenode.name.dir
file:/Users/xiongfeiqin/hadoop/tmp/dfs/name
dfs.datanode.data.dir
file:/Users/xiongfeiqin/hadoop/tmp/dfs/data #注意自己hadoop路径
配置完成后,执行 NameNode 的格式化:
$ hadoop namenode -format
成功的话,会看到 “successfully formatted” 和 “Exitting with status 0” 的提示,若为 “Exitting with status 1” 则是出错。
如果在这一步时提示 Error: JAVA_HOME is not set and could not be found. 的错误,则说明之前设置 JAVA_HOME 环境变量那边就没设置好,请按教程先设置好 JAVA_HOME 变量,否则后面的过程都是进行不下去的。如果已经按照前面教程在.bashrc文件中设置了JAVA_HOME,还是出现 Error: JAVA_HOME is not set and could not be found. 的错误,那么,请到hadoop的安装目录修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到“export JAVA_HOME=${JAVA_HOME}”这行,然后,把它修改成JAVA安装路径的具体地址,比如,“export JAVA_HOME=/usr/lib/jvm/default-java”,然后,再次启动Hadoop。
接着开启 NameNode 和 DataNode 守护进程。
$ start-all.sh
输入命令
$ jps
出现如下信息则为启动成功
成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
4.安装scala
$ tar -xvf Downloads/scala-2.13.0.tgz /Users/xiongfeiqin/scala
$ open ~/.bash_profile
添加环境变量
export SCALA_HOME=/Users/xiongfeiqin/scala
export PATH=$PATH:$SCALA_HOME/bin
更新环境变量及验证安装成功与否
$ source ~/.bash_profile
$ scala
出现以下信息则安装成功
5.安装spark
$ tar -xvf Downloads/spark-2.4.3-bin-hadoop2.7.tgz /Users/xiongfeiqin/spark
$ open ~/.bash_profile
添加环境变量
export SPARK_HOME="/Users/xiongfeiqin/spark/bin:${PATH}"
更新环境变量及验证安装成功与否
$ source ~/.bash_profile
$ pyspark
出现以下信息则安装成功
三、Reference
1.http://dblab.xmu.edu.cn/blog/install-hadoop/
2.https://blog.csdn.net/CYJ2014go/article/details/82660137
3.https://www.cnblogs.com/87hbteo/p/7606012.html
4.https://www.cnblogs.com/ErMengNJUniverser/p/8066074.html
5.https://www.jianshu.com/p/5e5de41afda1