spark学习笔记:DataSet

  1. DataSet

4.1.  什么是DataSet

DataSet是分布式的数据集合,Dataset提供了强类型支持,也是在RDD的每行数据加了类型约束DataSet是在Spark1.6中添加的新的接口。它集中了RDD的优点(强类型和可以用强大lambda函数)以及使用了Spark SQL优化的执行引擎。DataSet可以通过JVM的对象进行构建,可以用函数式的转换(map/flatmap/filter)进行多种操作。

 

4.2.  DataFrame、DataSet、RDD的区别

假设RDD中的两行数据长这样:

spark学习笔记:DataSet_第1张图片

 

那么DataFrame中的数据长这样:

spark学习笔记:DataSet_第2张图片

 

那么Dataset中的数据长这样:

spark学习笔记:DataSet_第3张图片

 

或者长这样(每行数据是个Object):

spark学习笔记:DataSet_第4张图片

DataSet包含了DataFrame的功能,Spark2.0中两者统一,DataFrame表示为DataSet[Row],即DataSet的子集。

1DataSet可以在编译时检查类型

2)并且是面向对象的编程接口

相比DataFrame,Dataset提供了编译时类型检查,对于分布式程序来讲,提交一次作业太费劲了(要编译、打包、上传运行),到提交到集群运行时才发现错误,这会浪费大量的时间,这也是引入Dataset的一个重要原因。

你可能感兴趣的:(bigdata)