spark-submit提交python任务

1、提交python文件,遇到的难点是python文件缺乏运行所需要的依赖模块。

python3 -m pip install xx

我使用的是将anaconda打包放在HDFS上。

基础是已经有同事在linux服务器上安装好了anaconda2,很方便。

首先是将文件夹,打包成zip格式: zip -r  anaconda2.zip anaconda2。然后上传文件至HDFS服务器。

对于缺乏的模块,可以使用conda 或者pip进行添加。

最后是运行命令

spark-submit  \
--master yarn \
--deploy-mode client \
--num-executors 4 \
--executor-memory 5G \
--archives hdfs:///anaconda2.zip#anaconda2 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./anaconda2/anaconda2/bin/python2 \
test.py

spark-submit使用指定的python环境

参考spark Configuration,有如下描述:

配置                                           描述
spark.pyspark.driver.python    Python binary executable to use for PySpark in driver. (default is spark.pyspark.python)
spark.pyspark.python    Python binary executable to use for PySpark in both driver and executors.
使用--conf指定python环境:


--conf "spark.pyspark.driver.python=/path/to/envs/bin/python3.7" \
--conf "spark.pyspark.python=/path/to/envs/bin/python3.7" \


根据描述,为了保证驱动器和执行器的python环境一致,只指定 spark.pyspark.python即可。
 

2、python脚本编写注意事项
写python脚本时,有两点需要注意一下(我目前就知道这两点,实际需要注意的地方可能更多)

脚本中需要创建SparkContext环境

from pyspark import SparkContext
sc=SparkContext(appName='first app')


SparkContext()函数有很多参数可以设置,详情参考这里,我这里只是添加应用名称说明

在python脚本中,有时需要添加库依赖、使用import导入,所有的这些导入操作都必须在SparkContext环境创建完成之后
下面贴一下我测试时写的简单的demo,这个代码的作用是计算text.txt中包含字符“i”的行数

# -*- coding:utf-8 -*-
#firstApp.py
if __name__=="__main__":
    from pyspark import SparkContext
    sc=SparkContext(appName='firt app')
    word=sc.textFile('file:///home/hadoop/Download/test/test.txt')
    num_i=word.filter(lambda s:'i' in s).count()
    print(num_i)
这段代码中没有依赖额外的库,所以也就没有导入

提交python脚本,在提交firstApp.py脚本时,使用如下指令

$ spark-submit \
--master local[2] \
--num-executors 2 \
--executor-memory 1G \
/home/hadoop/Download/test/firstApp.py

 

 

你可能感兴趣的:(大数据)