七.SparkSQL之Dataset实战演练

一.概述
Dataset是一个分布式的数据集,并且是spark1.6版本的新接口,有点就是强类型,支持lambda表达式,还提供了SparkSQL优化的执行引擎的优点.
七.SparkSQL之Dataset实战演练_第1张图片
解释:

针对SQL而言:
    seletc name from person;  写错select 但是编译(compile)还是过的,运行时出错

针对DF而言:
    df.seletc("name") select 写错编译(compile)直接就报错了
    df.select("nname") 属性名写错,但是编译(compile)是好的,只是在运行的时候才会报错

针对DS而言:
    ds.map(line => line.itemidd)  里面的itemid写错直接编译(compile)就会报错

二.示例演示

 import org.apache.spark.sql.SparkSession
object DataSetApp {
  def main(args: Array[String]){
  val spark = SparkSession.builder().appName("DataSetApp").master("local[2]").getOrCreate()
  import spark.implicits._
  // csv 方法返回的是DataFrame类型的数据 第一个option是解析头文件

val df = spark.read.option(“header”,“true”).option(“interSchema”,“true”).csv(“sales.csv”)
df.show()
七.SparkSQL之Dataset实战演练_第2张图片

//df转换为ds,但是要指定类型,因此传入了Sales
val ds = df.as[Sales]
//输出itemId哪一行数据的内容
ds.map(line => line.itemId).show()
七.SparkSQL之Dataset实战演练_第3张图片

  spark.stop()

}
case class Sales(transactionId:String,customerId:String,itemId:String,amountPaid:String)
}

三.常见错误
Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
解决方法就是导入隐式函数即可:

import spark.implicits._

详细资料参考   SparkSQL之Dataset

你可能感兴趣的:(Spark,SQL)