注意:每台服务器都需要安装
1、下载Anaconda3-2020.02,这个版本默认的python3.7以上python版本
wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh
2、安装解压工具
yum -y install bzip2
3、执行命令:
./Anaconda3-2020.02-Linux-x86_64.sh
4、下一步输入回车键
5、在以下界面输入”yes”
6、下一步设置安装路径,我们这里安装在/opt/cloudera/anaconda3目录下
7.安装完后,提示设置anaconda的PATH路径,这里需要设置全局路径,因为要确保pyspark任务提交过来之后可以使用python3,所以输入“no”,重新设置PATH
8、设置全局的anaconda3的PATH
PATH=/opt/cloudera/anaconda3/bin:$PATH
source /etc/profile
9、验证:
python3
10、修改/opt/cloudera/parcels/CDH/lib/spark3/conf/spark-env.sh文件,在开头添加
export PYSPARK_PYTHON=/opt/cloudera/anaconda3/bin/python