SparkContext,SparkConf 和 SparkSession

SparkContext,SparkConf

在Spark2.0之前, SparkContext 是所有 Spark 功能的结构, 驱动器(driver) 通过SparkContext 连接到集群 (通过resource manager), 因为在2.0之前, RDD就是Spark的基础。

如果需要建立SparkContext,则需要SparkConf,通过Conf来配置SparkContext的内容。

from pyspark import SparkConf,SparkContext

conf = SparkConf().setAppName("app").setMaster('local')
sc = SparkContext(conf=conf)

setAppName(), 是你的程序在集群上的名字

setMaster(), 你的Spark运行的模式 ‘local'表示本地模式

 

SparkSession

在Spark2.0之后,Spark Session也是Spark 的一个入口, 为了引入dataframe和dataset的API, 同时保留了原来SparkContext的functionality, 如果想要使用 HIVE,SQL,Streaming的API, 就需要Spark Session作为入口。

spark = SparkSession.builder.appName('testSQL')\
                    .config('spark.some.config.option','some-value')\
                    .getOrCreate()

如果要使用SparkContext的API

spark.sparkContext.uiWebUrl

 

你可能感兴趣的:(PySpark学习日志)