在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格
。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
同时,与 Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。
RDD[Person]虽然以 Person 为类型参数,但 Spark 框架本身不了解 Person 类的内部结构
DataFrame 却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么
DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。
DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了
val df: DataFrame = spark.read.json("datas/user.json")
df.printSchema()
df.show(false)
注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名
// 输出的6种方式
//在使用DataFrame时,如果涉及到转换操作,需要引入转换规则
import spark.implicits._
userDF.select('name,'age).show()
userDF.select("name","age").show()
userDF.select($"name",$"age").show()
userDF.select(userDF("name"),userDF("age")).show()
//import org.apache.spark.sql.functions.{col, column}
userDF.select(col("name"),col("age")).show()
userDF.select(column("name"),column("age")).show()
val countDF: DataFrame = df.groupBy("age").count()
countDF.printSchema()
countDF.show()
countDF.withColumn("number",$"count".cast(StringType))
countDF.withColumnRenamed("count","number")
如果需要RDD与 DF 或者 DS 之间互相操作
在IDEA中需要 引入 import spark.implicits._
在黑窗口spark-shell中不需要引入,自动导入
这里的 spark 不是 Scala 中的包名,而是创建的 sparkSession 对象的变量名称,所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明,因为 Scala 只支持val 修饰的对象的引入
val rdd: RDD[(Int, String, Int)] = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
val df: DataFrame = rdd.toDF("id", "name", "age")
val rowRDD: RDD[Row] = df.rdd
rowRDD.foreach(println)
DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象,是 DataFrame的一个扩展。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)
SparkSQL能够自动将包含case类的RDD转换成DataSet,case类定义了table的结构,case类属性通过反射编程了表的列名。case类可以包含如Seq或者Array等复杂的结构
println("----------rdd->ds-------")
val ds1: Dataset[User] = rdd.map {
case (id, name, age) => {
User(id, name, age)
}
}.toDS()
ds1.printSchema()
ds.show()
DataSet也是对RDD的封装,所以可以直接获得内部的RDD
println("----------ds->rdd-------")
val userRDD: RDD[User] = ds1.rdd
userRDD.foreach(println)
DataFrame => DataSet:as[样例类]
DataSet => DataFrame:toDF
//DataFrame<=>DataSet
//样例类
println("===========================")
val ds: Dataset[User] = df.as[User]
ds.printSchema()
ds.show()
val df1: DataFrame = ds.toDF()
df1.printSchema()
df1.show()
都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利
都有惰性机制,在创建、转换时,不会立即执行。只有在遇到行动算子时,才会开始运行
有很多共同的函数
DataFrame 和 DataSet 许多操作都需要导入包:import spark.implicits._
都会根据Spark的内存情况自动缓存运算,即使数据量很大,也不用担心内存溢出
都有partition的概念
DataFrame 和 DataSet 都可以使用匹配模式获取各个字段的值和类型
//样例类
case class User(id:Int,name:String,age:Int)
// RDD <=> DataFrame
val rdd = spark.sparkContext.makeRDD(List(1,"zhangsan",30),(2,"lisi",40))
val df: DataFrame = rdd.toDF("id","name","age")
val rowRDD:RDD[Row] = df.rdd
// DataFrame <=> DataFrame
val ds:Dataset[User] = df.as[User]
val df1:DataFrame = ds.toDF()
// RDD <=> DataSet
rdd.map {
case (id, name, age) =>{
User(id, name, age)
}
}
val userRDD:RAA[User] = ds1.rdd