Linux下运行带有Spark依赖的Python脚本

在Python中,你可以把应用写成Python脚本,但是需要使用Spark自带的bin/spark-submit脚本来运行。spark-submit脚本会帮我们引入Python程序的Spark依赖。这个脚本为Spark的PythonAPI配置好了运行环境。

首先找到spark的安装目录,一般在Linux下,会将第三方软件安装到/opt目录下面。

然后运行下述指令:

/opt/spark/bin/spark-submit my_script.py

或者进入到spark的安装目录下面:

bin/spark-submit my_script.py

测试脚本:

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

lines = sc.parallelize(["pandas", "cat", "i like pandas"])
word = lines.filter(lambda s: "pandas" in s)
print(word.collect())

 

你可能感兴趣的:(Spark,Linux学习)