从0开始学pyspark(一):ubuntu pyspark运行环境配置

最近在研究spark,虽然windows下也能安装运行spark(亲测可行,但是开放9000端口还是连接不上docker上部署的hdfs),但是在windows下使用多有不便,于是安装了双系统(网上教程很多),如果在安装过程中出现卡死问题,可以看看这篇能不能解决 https://blog.csdn.net/tonydz0523/article/details/80532615

在ubuntu上配置环境比较简单:
1、安装java
2、安装spark

安装java

1、官网下载jdk的Linux包
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

从0开始学pyspark(一):ubuntu pyspark运行环境配置_第1张图片

下载最新的tar包,别忘了点accept license
2、sudo mkdir /usr/lib/jdk
3、系统默认下载到download文件夹,打开终端cd 到下载文件文件夹,或者文件管理器找到文件夹后右键打开终端
4、sudo tar -zxvf jdk-8u171-linux-x64.tar.gz -C /usr/lib/jdk
5、然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行
sudo gedit /etc/profile
没有安装gedit的可以 vi vim都行
在配置文件后加上

# java
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171  
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

6、重新载入/etc/profile配置文件
source /etc/proflie
7、运行java -version查看java是否安装成功
出现如下结果说明安装成功

java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

安装spark

1、官网下载地址 http://spark.apache.org/downloads.html
从0开始学pyspark(一):ubuntu pyspark运行环境配置_第2张图片

从0开始学pyspark(一):ubuntu pyspark运行环境配置_第3张图片
下载包到本地
2、sudo mkdir /usr/lib/spark
3、系统默认下载到download文件夹,打开终端cd 到下载文件文件夹,或者文件管理器找到文件夹后右键打开终端
4、sudo tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C /usr/lib/spark
5、配置spark

cd /usr/lib/spark/spark-2.3.0-bin-hadoop2.7/conf/  
sudo cp spark-env.sh.template spark-env.sh  
sudo gedit spark-env.sh 

在最后加上

JAVA_HOME=/usr/lib/jdk/jdk1.8.0_171  
SPARK_WORKER_MEMORY=4g

6、然后我们需要配置PATH路径,让jdk命令在任何路径下都能够直接执行
sudo gedit /etc/profile
没有安装gedit的可以 vi vim都行
在配置文件后加上

#spark 
export SPARK_HOME=/usr/lib/spark/spark-2.3.0-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

7、重新载入/etc/profile配置文件
source /etc/proflie
8、运行 pyspark 查看spark是否安装成功
出现如下结果说明安装成功
从0开始学pyspark(一):ubuntu pyspark运行环境配置_第4张图片

安装pyspark

由于本人使用python操作spark,所以使用 pip 安装了pyspark
pip install pyspark
不知道不装有没有影响,没有尝试
打开python运行

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').appName('test').getOrCreate()

运行顺利说明安装成功

附:

python环境:anaconda安装

1、下载anaconda,由于官网太慢了,我们到清华镜像站下载:
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
拉倒最后就是新版本
从0开始学pyspark(一):ubuntu pyspark运行环境配置_第5张图片
2、下载完成cd到文件目录运行sudo sh Anaconda3-5.1.0-Linux-x86_64.sh 开始安装一路回车,yes 就行;最后有个微软的软件没啥用可以no
3、配置系统默认使用anaconda里的python
sudo gedit ~/.bashrc
根据anaconda安装位置配置alias python
这里写图片描述
4、终端输入python,结果如下说明配置完成
从0开始学pyspark(一):ubuntu pyspark运行环境配置_第6张图片

5、ide的话初学推荐pycharm,其实anaconda自带jupyter notebook 就很好用

本人刚接触spark如果有什么错误的话请留言指出

参考:
https://blog.csdn.net/lengconglin/article/details/77847623
https://blog.csdn.net/u010171031/article/details/51849562

你可能感兴趣的:(pyspark)