Mac下spark的安装和完整的开发环境搭建

Spark是Scala写的,是运行在JVM环境上,需要java7以上;
如果要安装python API,则要安装python 2.6或者python3.4以上;
搭建Spark不需要Hadoop 集群,如果已经有hadoop集群,则下载相应版本的spark;

1.安装JDK
参考:
https://blog.csdn.net/vvv_110/article/details/72897142
https://blog.csdn.net/wengyupeng/article/details/52410564

1-1 使用命令getconf LONG_BIT 查看Linux系统的位数,然后下载相应版本的JDK
1-2 Oracle JDK1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
1-3 安装jdk-8u181-macosx-x64.dmg
1-4 查看JDK安装路径

/usr/libexec/java_home -V

1-5 进入用户目录(即,主目录,表示为~),创建一个.bash_profile的隐藏配置文件,如果已经存在配置文件,直接打开

cd ~
touch .bash_profile(用户配置文件;/etc/profile是系统配置文件)
open -e .bash_profile

1-6 输入

JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_40.jdk/Contents/Home
PATH=$JAVA_HOME/bin:$PATH:.
CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:.
export JAVA_HOME
export PATH
export CLASSPATH

1-7 使生效并验证

source .bash_profile
echo $JAVA_HOME
java -version

2.scala安装和配置
参考:
http://www.runoob.com/scala/scala-install.html
https://blog.csdn.net/u012373815/article/details/53231292

2-1 下载Scala地址:http://www.scala-lang.org/download/
2-2 根据Spark对应版本选择下载的Scala二进制版本(scala-2.11.8.tgz)
2-3 进行解压

tar -zxvf scala-2.11.8.tgz

2-4 重命名并移动到制定文件夹下,如碰到permission deny就是权限不够,在前面加上sudo

mv scala-2.11.8 scala                   # 重命名 Scala 目录
mv /download/scalapath /usr/local/share # 下载目录需要按你实际的下载路径

2-5 配置环境变量,在/etc/profile 配置全局变量或者在.bash_profile 中配置用户变量

sudo vim44 /etc/profile
在文件中添加如下内容,

export SCALA_HOME=/usr/scala
export PATH=$PATH:$SCALA_HOME/bin

保存并退出,强制保存用q!

添加完成之后使用命令使环境变量生效,在命令行输入Scala,能进入scala命令行说明安装成功

source /etc/profle
scala

3.Hadoop的安装
3-1 配置ssh免密登录
参考我的这篇文章:https://blog.csdn.net/CYJ2014go/article/details/82660137
3-2 待续

4.Spark的下载和安装
下载地址:http://spark.apache.org/downloads.html
注意版本匹配问题,选择spark2.0.2 + for hadoop 2.6,下载

spark-2.0.2-bin-hadoop2.6.tgz

然后进行解压:

tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz

进入解压的spark-2.0.2-bin-hadoop2.6软件包中,可以看到里面的各种文件,
spark有两个shell:

python shell:在

./bin/pyspark

scala shell:在

./bin/scala-shell

执行相应命令可以进入。

5.IntelliJIDEA的安装和插件配置:
参考:https://blog.csdn.net/CYJ2014go/article/details/82590801

6.测试
启动scala-shell,输入:

val lines = sc.textFile("../../testfile/hellospark")

会返回一个RDD lines,可以执行以下操作:

lines.count()
lines.first()

你可能感兴趣的:(大数据)