IDEA开发SparkSQL程序

SparkSession常用函数与方法

方法 说明
builder 创建一个sparkSession实例
version 返回当前spark的版本
implicits 引入隐式转化
emptyDataset[T] 创建一个空DataSet
range 创建一个DataSet[Long]
sql 执行sql查询(返回一个dataFrame)
udf 自定义udf(自定义函数)
table 从表中创建DataFrame
catalog 访问结构化查询实体的目录
read 外部文件和存储系统读取DataFrame。
conf 当前运行的configuration
readStream 访问DataStreamReader以读取流数据集。
streams 访问StreamingQueryManager以管理结构化流式传输查询。
newSession 创建新的SparkSession
stop 停止SparkSession
write 访问DataStreamReader以写入流数据集。
appName 任务名
config 相关配置
getOrCreate 检测器

实例

package com.day2

import org.apache.spark.sql.SparkSession
import org.apache.spark.{SparkConf, SparkContext}
import org.slf4j.LoggerFactory

import spark.implicits._

object HelloSQL {
    def main(args: Array[String]) {
        //创建SparkConf()并设置App名称
        val spark = SparkSession
            .builder()		//新建一个SparkSession对象
            .appName("Spark SQL basic example")	//作业名
            .config("spark.some.config.option", "some-value")	//相关配置	
            .getOrCreate()	//检测这个SparkSession是否存在,如果没有就创建,如果有就使用已有的

        val df = spark.read.json("/people.json")

        df.show()

        df.filter($"age" > 21).show()

        df.createOrReplaceTempView("persons")	// 创建临时表

        spark.sql("SELECT * FROM persons where age > 21").show()

        spark.stop()
    }
}

你可能感兴趣的:(#,---SparkSQL)