spark on ack (ali EMR on ACK) 问题汇总

1、spark-shell 提交任务以后,终端超时,实际任务不退出,造成资源一直计费。
需要进入到spark-gateway 机器上手动kill 任务进程。

2、pyspark 之前一直使用--archives 参数,将hdfs上的python环境包下载到drive,execute端执行。
spark on k8s 后要使用--py-files , 把环境包放到oss上,pyspark主程序也要放在oss 上,不能够使用本地提交任务。会提示找不到主程序文件。

你可能感兴趣的:(spark on ack (ali EMR on ACK) 问题汇总)