Spark SQL DataFrame查看函数一文详解运用与方法

 


前言

配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上完成了Hive详解以及CentOS下部署Hive和Mysql和Spark框架在CentOS下部署搭建。Spark的组件Spark SQL的部署:Spark SQL CLI部署CentOS分布式集群Hadoop上方法。

配置JDK1.8、Scala11.12

本文将介绍DataFrame基础操作以及实例运用


DataFrame查看数据

Spark DataFrame常用操作函数或方法

函数或方法 描述
printSchema 打印数据模式
show 查看数据
first/head/take/takeAsList 获取若干行数据
collect/collectAsList 获取所有数据

 

下面将:Spark SQL DataFrame查看函数一文详解运用与方法_第1张图片文件转化为DataFrame进行操作:

Spark SQL DataFrame查看函数一文详解运用与方法_第2张图片

1.printSchema:打印数据模式

查看数据模式可以通过printSchema函数来查看,它会答应后出列的名称和类型。

Spark SQL DataFrame查看函数一文详解运用与方法_第3张图片

2.show:查看数据

show相关方法

方法 介绍
show() 显示前20条记录
show(numRows:Int) 显示numRows条记录
show(truncate:Boolean) 是否最多只显示20个字符,默认为true
show(numRows:Int,truncate:Boolean) 显示numRows条记录并设置过长字符串的显示格式

 

show():

Spark SQL DataFrame查看函数一文详解运用与方法_第4张图片

show(5):

Spark SQL DataFrame查看函数一文详解运用与方法_第5张图片

show(false):

Spark SQL DataFrame查看函数一文详解运用与方法_第6张图片

3.first/head/take/takeAsList:获取若干行记录

DataFrame获取若干行记录的方法:

方法 解释
first 获取第一行记录
head(n:Int) 获取前n行记录
take(n:Int) 获取前n行记录
takeAsList(n:Int) 获取前n行数据,并以List的形式展现

first和head功能相同,以Row或者Array[Row]的形式返回一行或多行数据。

Spark SQL DataFrame查看函数一文详解运用与方法_第7张图片

take和takeAsList方法会将获得的数据返回到Driver端:

Spark SQL DataFrame查看函数一文详解运用与方法_第8张图片

4.collect/collectAsList获取所有函数

collect方法可以将DataFrame中的所有数据都获取到,并返回一个Array对象,collectAsList方法可以获取所有数据到List:

Spark SQL DataFrame查看函数一文详解运用与方法_第9张图片

Spark SQL DataFrame查看函数一文详解运用与方法_第10张图片

 


你可能感兴趣的:(Spark,大数据,hadoop,spark)