Spark综合学习笔记(十八)SparkSQL数据抽象

学习致谢

https://www.bilibili.com/video/BV1Xz4y1m7cv?p=53

引言

SparkCore的数据抽象:RDD
SparkStreaming的数据抽象:DStream,底层是RDD
SparkSQL的数据抽象:DataFrame和DataSet,底层是RDD

Spark综合学习笔记(十八)SparkSQL数据抽象_第1张图片

DataFrame是什么

DataFrame=RDD-泛型+Schema约束(指定了字段名和类型)+SQL操作+优化
DataFrame就是在RDD的基础之上做了进一步的封装,支持SQL操作!
DataFrame就是一个分布式表!

DataSet是什么

DataSet=DataFrame+泛型
DataSet = RDD + Schema约束(指定了字段名和类型)+SQL操作+优化
DataSet就是在RDD的基础之上做了进一步的封装,支持SQL操作!
DataSet就是一个分布式表!

你可能感兴趣的:(大数据,SQL,spark,postman,测试工具,spark)