centos虚拟机安装spark

spark介绍

官网都有,我就不多啰嗦了,贴上官网链接:
spark官网

spark下载

spark官网下载
centos虚拟机安装spark_第1张图片
选择spark版本,最好选稳定版,不选预览版。
选择软件包类型,默认是预编译的Hadoop 2.7版本
点击超链接,跳到下载镜像列表
centos虚拟机安装spark_第2张图片
就用推荐的第一个镜像地址下载,spark-2.4.5-bin-hadoop2.7.tgz, 222MB。

将软件包上传到centos服务器

1、在mac iTerm2中ssh登录centos
2、在centos中安装lrzsz工具

yum -y install lrzsz

3、在mac iTerm2中默认rz是不会弹出上传窗口的,需要在github中找到 iTerm2 lrzsz工具的插件,进行相关配置,大家自行解决
centos虚拟机安装spark_第3张图片

解压

mv spark-xxx /usr/local
cd /usr/local
tar zxvf spark-xxx

测试

根据官网的开始向导完成第一个测试
centos虚拟机安装spark_第4张图片

配置JAVA_HOME环境

运行bin/spark-shell 发现没有JAVA_HOME,对不住各位老铁。
不过本人23:30还在写文章,也不容易啊。
1、查看java各下载版本

yum list java*

2、下载安装java1.8

yum -y install java-1.8.0-openjdk.x86_64

这个openjdk好像是只包含了运行环境,有java命令,但是没有javac编译命令,不过我们不需要编译,这个就OK的。
java命令在下面位置:

root@bogon spark-2.4.5-bin-hadoop2.7]# ls /usr/lib/jvm/jre-1.8.0/bin/
java  keytool  pack200     rmid         servertool  unpack200
jjs   orbd     policytool  rmiregistry  tnameserv

3、配置环境变量

vi ~/.bash_profile
export JAVA_HOME=/usr/lib/jvm/jre-1.8.0/
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
export PATH

运行java命令,成功显示提示信息,配置完成。

继续测试

  1. 启动spark-shell
bin/spark-shell
[root@bogon spark-2.4.5-bin-hadoop2.7]# bin/spark-shell
20/02/25 10:43:08 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://0.0.0.0:4040
Spark context available as 'sc' (master = local[*], app id = local-1582645403090).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.5
      /_/

Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_242)
Type in expressions to have them evaluated.
Type :help for more information.

scala>
  1. 根据README.md文件创建Dataset数据集
scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]
  1. 从数据集中获取一些值
scala> textFile.count()
res0: Long = 104

scala> textFile.first()
res1: String = # Apache Spark
  1. 将已有数据集进行过滤,得到新数据集
scala> val linesWithSpark = textFile.filter(line => line.contains("Spark"))
linesWithSpark: org.apache.spark.sql.Dataset[String] = [value: string]

scala> linesWithSpark.count()
res0: Long = 19
也可以将数据集的转换和执行写在一起
scala> textFile.filter(line => line.contains("Spark")).count() // How many lines contain "Spark"?
res3: Long = 19

你可能感兴趣的:(Spark)