cdh集群的spark2和jupyter集成

之前部门有小伙伴使用pandas做数据分析,使用的是jupyter做验证开发,后来要使用spark,所以尝试在jupyter写spark代码,这样做的案例貌似不多,可能是比较偏门的。

1. 前提

1.1、spark2已经安装好,在shell可以正常使用pyspark2
1.2、jupyter已经安装好,可以正常启动使用python3

2. 集成

2.1、在cm页面添加spark和jupyter的关联
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/local/Python3/bin/jupyter-notebook
export PYSPARK_DRIVER_PYTHON_OPTS="--allow-root  --ip=0.0.0.0 --port=7777"

分别是将pyspark设置为python,以及在shell启动pyspark2时,其实是启动jupyter并且实例化一个sparksession
这样就可以通过web界面访问jupyter来使用pyspark做验证开发了
cdh集群的spark2和jupyter集成_第1张图片

2.2、这里不需要特意去实例化sparksession, 直接拿spark来用就可以了,可以理解为在shell启动pyspark2那样,会自动实例化一个sparksession,至于名称就是默认的spark。

cdh集群的spark2和jupyter集成_第2张图片

你可能感兴趣的:(python3,组件安装,spark2)