pyspark 提交yarn-cluster模式总结

pyspark 提交yarn-cluster模式总结

  1. 用conda创建虚拟python环境,在虚拟环境中安装依赖包(pyspark包不需要),配置好的环境会保存在…/anaconda/envs/ 目录下,然后利用zip打包上传到hdfs上(e.g. hdfs://HDFS80043/spark-python/pyspark_3.7.zip)

  2. 对于较大型的项目,需要多个py文件依赖的,将所有文件用zip打包 (e.g. den.zip)

  3. 配置文件需要在提交任务时的–files后面加入(e.g test.toml)

  4. 运行代码例子:
    spark-submit --master yarn-cluster
    –conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pyspark_3.7.zip/pyspark_3.7/bin/python3.7
    –conf spark.yarn.executorEnv.PYSPARK_PYTHON=./pyspark_3.7.zip/pyspark_3.7/bin/python3.7
    –conf spark.yarn.dist.archives=hdfs://HDFS80043/spark-python/pyspark_3.7.zip
    –py-files den.zip
    –files test.toml
    main.py argvs…

你可能感兴趣的:(spark)