spark快速大数据分析之学习记录(二)

 

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

一.spark下载和安装【本地模式

【系统:linux】下载spark前,需要确保你之前已经下载好了jdk和Python,以下是我的整个下载和安装过程。

1.下载jdk:

shell命令:

sudo apt-get install default-jre default-jdk

运行截图:

spark快速大数据分析之学习记录(二)_第1张图片

下载后的jdk会在你的/usr/lib/jvm/中

2.配置jdk环境:

shell命令:

vim ~./bashrc

按 'i' 键,在文件的最下面一行,添加:

export JAVA_HOME=/usr/lib/jvm/default-java

保存退出(按esc键,然后输入':wq' 即可)

接下来使配置文件生效

shell命令

source ~./bashrc

检查配置的文件:

echo $JAVA_HOME

运行截图:

3.检查jdk是否安装完成

shell命令:

java -version

运行截图:

至此,jdk安装完成。

4.python下载

我的linux系统中已自动安装了python3,因此这一步可以安装过程省略

spark快速大数据分析之学习记录(二)_第2张图片

5.Spark下载

官网http://spark.apache.org/downloads.html,选择包类型为“Pre-built for Hadoop 2.7 and later”,然后直接下载。

spark快速大数据分析之学习记录(二)_第3张图片

 

 

 

spark快速大数据分析之学习记录(二)_第4张图片

解压下载下来的spark压缩文件

shell命令:


sudo mkdir /usr/lib/spark/  #建一个文件夹用于存放解压后的spark
sudo tar -zxvf /home/hadoop/下载/spark-2.4.3-bin-hadoop2.7.tgz -C /usr/lib/spark/ #解压spark至指定文件夹

运行截图:

spark快速大数据分析之学习记录(二)_第5张图片

配置Spark运行环境

shell命令:

sudo vim /etc/profile

按“i”键,在最后一行输入:

export SPARK_HOME=/usr/lib/spark/spark-2.4.3-bin-hadoop2.7

export PATH=${SPARK_HOME}/bin:$PATH

按esc键,然后输入“:wq”保存退出。

接下来,使配置文件生效

shell命令:

source /etc/profile

检查spark是否安装完成

进入spark安装目录,运行./bin/spark-shell

shell命令:

cd /usr/lib/spark/spark-2.4.3-bin-hadoop2.7/
./bin/spark-shell

运行截图:

spark快速大数据分析之学习记录(二)_第6张图片

spark快速大数据分析之学习记录(二)_第7张图片

我想使用python,而非Scala,因此先退出这个,按“:quit”即可退出

spark快速大数据分析之学习记录(二)_第8张图片

然后,输入shell命令:

./bin/pyspark

运行截图:

spark快速大数据分析之学习记录(二)_第9张图片

spark快速大数据分析之学习记录(二)_第10张图片

至此,本地模式上的Spark已安装完成

二:安装过程中遇到的问题总结

1.没有vim命令

【解决方法】下载vim即可

spark快速大数据分析之学习记录(二)_第11张图片

2.“./bin/pyspark”时找不到python

【解决方法】linux系统中自带的python为python3,因此将python3重命名为python即可

此时再运行./bin/pyspark,不会报错

spark快速大数据分析之学习记录(二)_第12张图片

你可能感兴趣的:(Spark)