Spark是Scala写的,是运行在JVM环境上,需要java7以上;
如果要安装python API,则要安装python 2.6或者python3.4以上;
搭建Spark不需要Hadoop 集群,如果已经有hadoop集群,则下载相应版本的spark;
1.安装JDK
参考:
https://blog.csdn.net/vvv_110/article/details/72897142
https://blog.csdn.net/wengyupeng/article/details/52410564
1-1 使用命令getconf LONG_BIT 查看Linux系统的位数,然后下载相应版本的JDK
1-2 Oracle JDK1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
1-3 安装jdk-8u181-macosx-x64.dmg
1-4 查看JDK安装路径
/usr/libexec/java_home -V
1-5 进入用户目录(即,主目录,表示为~),创建一个.bash_profile的隐藏配置文件,如果已经存在配置文件,直接打开
cd ~
touch .bash_profile(用户配置文件;/etc/profile是系统配置文件)
open -e .bash_profile
1-6 输入
JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_40.jdk/Contents/Home
PATH=$JAVA_HOME/bin:$PATH:.
CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:.
export JAVA_HOME
export PATH
export CLASSPATH
1-7 使生效并验证
source .bash_profile
echo $JAVA_HOME
java -version
2.scala安装和配置
参考:
http://www.runoob.com/scala/scala-install.html
https://blog.csdn.net/u012373815/article/details/53231292
2-1 下载Scala地址:http://www.scala-lang.org/download/
2-2 根据Spark对应版本选择下载的Scala二进制版本(scala-2.11.8.tgz)
2-3 进行解压
tar -zxvf scala-2.11.8.tgz
2-4 重命名并移动到制定文件夹下,如碰到permission deny就是权限不够,在前面加上sudo
mv scala-2.11.8 scala # 重命名 Scala 目录
mv /download/scalapath /usr/local/share # 下载目录需要按你实际的下载路径
2-5 配置环境变量,在/etc/profile 配置全局变量或者在.bash_profile 中配置用户变量
sudo vim44 /etc/profile
在文件中添加如下内容,
export SCALA_HOME=/usr/scala
export PATH=$PATH:$SCALA_HOME/bin
保存并退出,强制保存用q!
添加完成之后使用命令使环境变量生效,在命令行输入Scala,能进入scala命令行说明安装成功
source /etc/profle
scala
3.Hadoop的安装
3-1 配置ssh免密登录
参考我的这篇文章:https://blog.csdn.net/CYJ2014go/article/details/82660137
3-2 待续
4.Spark的下载和安装
下载地址:http://spark.apache.org/downloads.html
注意版本匹配问题,选择spark2.0.2 + for hadoop 2.6,下载
spark-2.0.2-bin-hadoop2.6.tgz
然后进行解压:
tar -zxvf spark-2.0.2-bin-hadoop2.6.tgz
进入解压的spark-2.0.2-bin-hadoop2.6软件包中,可以看到里面的各种文件,
spark有两个shell:
python shell:在
./bin/pyspark
scala shell:在
./bin/scala-shell
执行相应命令可以进入。
5.IntelliJIDEA的安装和插件配置:
参考:https://blog.csdn.net/CYJ2014go/article/details/82590801
6.测试
启动scala-shell,输入:
val lines = sc.textFile("../../testfile/hellospark")
会返回一个RDD lines,可以执行以下操作:
lines.count()
lines.first()