关于spark2.x后的SparkSession

Apache Spark2.0 引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是,它减少了用户需要了解的一些概念,使得我们可以很容易地与Spark交互,在SparkSession中封装了SparkContext,SparkConf等,为了解决用户可能对SparkContext的混乱(不知道当时使用的哪一个Context),使用的时候就和SparkContext差不多;

val spark=SparkSession.builder().master("local").getOrCreate().config("key","value") //工厂创造

spark.read.textFile(Path:String),除了textFile,还有load,csv,json,text,format,jdbc等读取方法;封装了;很是方便的;

sparksession中部分源码如下:

@InterfaceStability.Stable
class Builder extends Logging {

  private[this] val options = new scala.collection.mutable.HashMap[String, String]

  private[this] var userSuppliedContext: Option[SparkContext] = None

  private[spark] def sparkContext(sparkContext: SparkContext): Builder = synchronized {
    userSuppliedContext = Option(sparkContext)
    this
  }

val sparkContext = userSuppliedContext.getOrElse {
  // set app name if not given
  val randomAppName = java.util.UUID.randomUUID().toString
  val sparkConf = new SparkConf()
  options.foreach { case (k, v) => sparkConf.set(k, v) }
  if (!sparkConf.contains("spark.app.name")) {
    sparkConf.setAppName(randomAppName)
  }
  val sc = SparkContext.getOrCreate(sparkConf)
  // maybe this is an existing SparkContext, update its SparkConf which maybe used
  // by SparkSession

你可能感兴趣的:(大数据)